BRPI0911456A2 - mÉtodo e aparelho para manter audibilidade de fala em Áudio de méltiplos canais com impactos mÍnimo em experiÊncia envolvente - Google Patents

mÉtodo e aparelho para manter audibilidade de fala em Áudio de méltiplos canais com impactos mÍnimo em experiÊncia envolvente Download PDF

Info

Publication number
BRPI0911456A2
BRPI0911456A2 BRPI0911456-4A BRPI0911456A BRPI0911456A2 BR PI0911456 A2 BRPI0911456 A2 BR PI0911456A2 BR PI0911456 A BRPI0911456 A BR PI0911456A BR PI0911456 A2 BRPI0911456 A2 BR PI0911456A2
Authority
BR
Brazil
Prior art keywords
channel
speech
attenuation factor
measurement
generate
Prior art date
Application number
BRPI0911456-4A
Other languages
English (en)
Inventor
Hannes Muesch
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Priority to BRPI0923669-4A priority Critical patent/BRPI0923669B1/pt
Publication of BRPI0911456A2 publication Critical patent/BRPI0911456A2/pt
Publication of BRPI0911456B1 publication Critical patent/BRPI0911456B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/041Adaptation of stereophonic signal reproduction for the hearing impaired

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

MÉTODO E APARELHO PARA MANTER AUDIBILIDADE DE FALA EM ÁUDIO DE MéLTIPLOS CANAIS COM IMPCTO MÍNIMO EM EXPERIÊNCIA ENVOLVENTE. A presente invenção refere-se a um método de aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais. O método inclui comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais gerar um fator de atenuação. A primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contém áudio de fala e não fala, e a segunda característica corresponde a um segundo canal do sinal de áudio de múltiplos canais que contém predominantemente áudio de não fala. O método inclui adicionalmente ajustar o fator de atenuação de acordo com um valor de probabilidade de fala para gerar um fator de atenuação ajustado. O método inclui adicionalmente atenuar o segundo canal usando o fator de atenuação ajustado.

Description

Relatório Descritivo da Patente de Invenção para "WIETODO E APARELHO PARA MANTER AUDIBILIDADE DE FALA EM ÁUDIO DE MÚLTIPLOS CANAIS COM IMPACTO MÍNIMO EM EXPERIÊNCIA EN- VOLVENTE".
Referência Cruzada a Pedidos Relacionados
Este pedido reivindica o benefício de prioridade do Pedido de Patente Provisório Estados Unidos N0 61/046.271, depositado em 18 de abril de 2008, incorporado na sua totalidade neste pedido pela referência. Antecedentes
A presente invenção refere-se a processamento de sinal de áu-
dio em geral e a aperfeiçoar clareza de diálogo e narrativa em áudio de en- tretenimento envolvente em particular.
A não ser que indicado de outro modo neste documento, as a- bordagens descritas nesta seção não são de técnica anterior para as reivin- dicações neste pedido e não são admitidas para serem de técnica anterior por inclusão nesta seção.
Áudio de entretenimento moderno com múltiplos canais simultâ- neos de áudio (som envolvente) fornece audiências com ambientes de som realísticos e imersivos de imenso valor de entretenimento. Em tais ambien- tes muitos elementos de som tais como diálogo, música e efeitos são apre- sentados simultaneamente e competem pela atenção do ouvinte. Para al- gumas pessoas da audiência - especialmente aquelas com capacidades sensoriais auditivas reduzidas ou processamento cognitivo reduzido - diálo- go e narrativa podem ser difíceis de entender durante partes do programa onde elementos de som concorrendo estrondosamente estão presentes. Du- rante essas passagens estes ouvintes seriam beneficiados se o nível dos sons concorrentes fosse abaixado.
O reconhecimento de que música e efeitos podem sobrepujar diálogo não é novo e diversos métodos para solucionar a situação têm sido sugeridos. Entretanto, tal como será delineado a seguir, os métodos sugeri- dos são incompatíveis com a prática de difusão corrente, ou aplicam um preço desnecessariamente alto no experimento de entretenimento total, ou I ' 2
ambos.
É uma convenção comumente adotada na produção de áudio envolvente para filme e televisão colocar a maior parte de diálogo e narrativa somente em um canal (o canal central, também referido como o canal de fala). Música, sons ambientes e efeitos sonoros são tipicamente mixados tanto no canal de fala quanto em todos os canais restantes (por exemplo, Left [L], Right [R], Envolvente Esquerdo [Is] e Envolvente Direito [rs], também referidos como os canais de nãofala). Como resultado, o canal de fala car- rega a maioria da fala e uma quantidade significativa do áudio de não-fala contido no programa de áudio, enquanto que os canais de não fala carregam predominantemente áudio de não fala, mas também podem carregar uma pequena quantidade de fala. Uma abordagem simples para ajudar na per- cepção de diálogo e narrativa nestas mixagens convencionais é reduzir per- manentemente o nível de todos os canais de não fala em relação ao nível do canal de fala, por exemplo, por 6 dB. Esta abordagem é simples e efetiva e é praticada atualmente (por exemplo, Clareza de Diálogo SRS [Sistema de Recuperação de Som] ou equações de submixagens modificadas em deco- dificadores envolventes). Entretanto, ela sofre de pelo menos uma desvan- tagem: a atenuação constante dos canais de não fala pode diminuir o nível de sons ambientes tranqüilos que não interferem com recepção de fala para o ponto onde eles não podem mais ser ouvidos. Ao atenuar sons ambientes não interferindo o balanço estético do programa é alterado sem qualquer benefício concomitante para entendimento de fala.
Uma solução alternativa está descrita em uma série de patentes (Patente U.S. N0 7.266.501, Patente U.S. N0 6.772.127, Patente U.S. No 6.912.501 e Patente U.S. N0 6.650.755) para Vaudrey e Saunders. Tal como entendido, sua abordagem envolve modificar a produção e distribuição de conteúdo. De acordo com esse arranjo, o consumidor recebe dois sinais de áudio separados. O primeiro destes sinais compreende o áudio de "Conteú- do Primário". Em muitos casos este sinal será dominado por fala, mas, se o produtor de conteúdo desejar, poderá conter outros tipos de sinal igualmen- te. O segundo sinal compreende o áudio de "Conteúdo Secundário", o qual é composto de todos os elementos de sons restantes. Ao usuário é dado con- trole sobre os níveis relativos destes dois sinais, ao ajustar manualmente o nível de cada sinal ou ao manter automaticamente uma relação de potência selecionada pelo usuário. Embora este arranjo possa limitar a atenuação desnecessária de sons ambientes não interferindo, sua implementação mais difundida é obstruída por sua incompatibilidade com métodos de produção e distribuição estabelecidos.
Um outro exemplo de um método para gerenciar os níveis relati- vos de áudio de fala e não fala foi proposto por Bennett na Publicação de Pedido U.S. N0 20070027682.
Todos os exemplos da técnica anterior compartilham a limitação de não fornecer quaisquer meios para minimizar o efeito que o aperfeiçoa- mento de diálogo tem sobre a experiência de ouvir pretendida pelo criador de conteúdo, entre outras deficiências. Portanto, é o objetivo da presente invenção fornecer um meio de limitar o nível de canais de áudio de não fala em um programa de entretenimento de múltiplos canais mixados convencio- nalmente de maneira que fala permanece compreensível enquanto manten- do também a audibilidade dos componentes de áudio de não fala.
Assim, existe uma necessidade de modos aperfeiçoados de manter audibilidade de fala. A presente invenção resolve estes e outros pro- blemas ao fornecer um aparelho e método de aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais. Sumário
Modalidades da presente invenção aperfeiçoam audibilidade de fala. Em uma modalidade a presente invenção inclui um método de aperfei- çoar audibilidade de fala em um sinal de áudio de múltiplos canais. O méto- do inclui comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação. A primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contém áudio de fala e não fala, e a segunda caracte- rística corresponde a um segundo canal do sinal de áudio de múltiplos ca- nais que contém predominantemente áudio de não fala. O método inclui adi- cionalmente ajustar o fator de atenuação de acordo com um valor de proba- bilidade de fala para gerar um fator de atenuação ajustado. O método inclui adicionalmente atenuar o segundo canal usando o fator de atenuação ajus- tado.
Um primeiro aspecto da invenção é baseado na observação de
que o canal de fala de um programa de entretenimento típico carrega um sinal de não fala por uma parte substancial da duração de programa. Con- sequentemente de acordo com este primeiro aspecto da invenção, masca- ramento de áudio de fala por áudio de não fala pode ser controlado por meio de (a) determinar a atenuação de um sinal em um canal de não fala neces- sária para limitar a razão da potência de sinal no canal de não fala para a potência de sinal no canal de fala para não exceder um limiar predetermina- do e (b) escalar a atenuação por um fator que seja relacionado de forma uni- forme com a probabilidade do sinal no canal de fala ser fala, e (c) aplicar a atenuação escalada.
Um segundo aspecto da invenção é baseado na observação de que a razão entre a potência do sinal de fala e a potência do sinal de masca- ramento é um preditor inferior de inteligibilidade de fala. Consequentemente, de acordo com este segundo aspecto da invenção, a atenuação do sinal no canal de não fala que é necessária para manter um nível predeterminado de inteligibilidade é calculada ao predizer a inteligibilidade do sinal de fala na presença dos sinais de não fala com um modelo de predição de inteligibili- dade baseado em psicoacústica.
Um terceiro aspecto da invenção é baseado nas observações de que, se atenuação for permitida para variar através da freqüência, (a) um dado nível de inteligibilidade pode ser alcançado com uma variedade de pa- drões de atenuação, e (b) diferentes padrões de atenuação podem produzir diferentes níveis de sonoridade ou ênfase do áudio de não fala. Consequen- temente de acordo com este terceiro aspecto da invenção, mascaramento de áudio de fala por áudio de não fala é controlado ao descobrir o padrão de atenuação que maximiza sonoridade ou alguma outra medida de ênfase do áudio de não fala sob a restrição de que um nível predeterminado de inteligi- bilidade de fala predita é alcançado.
As modalidades da presente invenção podem ser executadas como um método ou processo. Os métodos podem ser implementados por meio de conjunto de circuitos eletrônicos, tais como hardware ou software ou uma combinação dos mesmos. O conjunto de circuitos usado para imple- mentar o processo pode ser um conjunto de circuitos dedicado (que executa somente uma tarefa específica) ou conjunto de circuitos geral (que é pro- gramado para executar uma ou mais tarefas específicas).
A descrição detalhada a seguir e os desenhos anexos fornecem um melhor entendimento da natureza e vantagens da presente invenção. Breve descrição dos Desenhos
A figura 1 ilustra um processador de sinal de acordo com uma modalidade da presente invenção.
A figura 2 ilustra um processador de sinal de acordo com uma outra modalidade da presente invenção.
A figura 3 ilustra um processador de sinal de acordo com uma outra modalidade da presente invenção.
As figuras 4A-4B são diagramas de blocos ilustrando variações adicionais das modalidades das figuras 1-3. Descrição Detalhada
São descritas neste documento técnicas para manter audibilida- de de fala. Na descrição a seguir, para propósitos de explicação, inúmeros exemplos e detalhes específicos estão expostos a fim de fornecer um com- pleto entendimento da presente invenção. Estará evidente, entretanto, para os versados na técnica que a presente invenção tal como definida pelas rei- vindicações pode incluir alguns ou todos os recursos nestes exemplos sozi- nhos ou em combinação com outros recursos descritos a seguir, e pode in- cluir adicionalmente modificações e equivalências dos recursos e conceitos descritos neste documento. Vários métodos e processos são descritos a seguir. Que eles
são descritos em uma certa ordem é principalmente para facilidade de apre- sentação. É para ser entendido que etapas particulares podem ser executa- das em outras ordens ou em paralelo tal como desejado de acordo com vá- rias implementações. Quando uma etapa particular deve preceder ou seguir uma outra, isto será salientado especificamente quando não evidente a partir do contexto.
O princípio do primeiro aspecto da invenção está ilustrado na fi-
gura 1. Referindo-se agora à figura 1, um sinal de múltiplos canais consistin- do em um canal de fala (101) e dois canais de não fala (102 e 103) é recebi- do. A potência dos sinais em cada um destes canais é medida com um ban- co de estimadores de potência (104, 105 e 106) e expressada em uma esca- Ia logarítmica [dB]. Estes estimadores de potência podem conter um meca- nismo de uniformização, tal como um integrador com fuga, de maneira que o nível de potência medido reflete o nível de potência determinado pela média sobre a duração de uma sentença ou uma passagem total. O nível de potên- cia do sinal no canal de fala é subtraído do nível de potência em cada um dos canais de não fala (pelos somadores 107 e 108) para dar uma medida da diferença de nível de potência entre os dois tipos de sinais. O circuito de comparação 109 determina para cada canal de não fala o número de dB pe- lo qual o canal de não fala deve ser atenuado a fim de seu nível de potência permanecer pelo menos ν dB abaixo do nível de potência do sinal no canal de fala (o símbolo "v" indica uma variável e também pode ser referido como a letra grega teta (Θ) manuscrita). De acordo com uma modalidade, uma im- plementação disto é adicionar o valor limiar ν (armazenado pelo circuito 110) à diferença de nível de potência (este resultado intermediário é referido co- mo a margem) e limitar o resultado para ser igual ou menor que zero (pelos limitadores 111 e 112). O resultado é o ganho (ou atenuação negada) em dB que deve ser aplicado aos canais de não fala para manter seu nível de po- tência ν dB abaixo do nível de potência do canal de fala. Um valor adequado para ν é 15 dB. O valor de ν pode ser ajustado tal como desejado em outras modalidades.
Por causa de existir uma relação exclusiva entre uma medida
expressada em uma escala logarítmica (dB) e essa mesma medida expres- sada em uma escala linear, um circuito que é equivalente à figura 1 pode ser construído onde potência, ganho e limiar são todos expressados em uma escala linear. Nessa implementação todas as diferenças de nível são substi- tuídas por razões das medidas lineares. Implementações alternativas podem substituir a medida de potência por medidas que estejam relacionadas com intensidade de sinal, tal como o valor absoluto do sinal.
Um recurso digno de nota do primeiro aspecto da invenção é es- calar o ganho assim derivado por um valor de forma uniforme relacionado com a probabilidade de o sinal no canal de fala ser fala de fato. Referindo-se ainda à figura 1, um sinal de controle (113) é recebido e multiplicado pelos ganhos (pelos multiplicadores 114 e 115). Os ganhos escalados são então aplicados aos canais de não fala correspondentes (pelos amplificadores 116 e 117) para produzir os sinais modificados L' e R' (118 e 119). O sinal de controle (113) tipicamente será uma medida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Vários métodos de deter- minar automaticamente a probabilidade de um sinal ser um sinal de fala po- dem ser usados. De acordo com uma modalidade, um processador de pro- babilidade de fala 130 gera o valor de probabilidade de fala ρ (113) a partir da informação no canal C 101. Um exemplo de um mecanismo como este está descrito por Robinson e Vinton em "Automated Speech/Other Discrimi- nation for Loudness Monitoring" (Audio Engineering Society, número pré- impresso 6437 da Convenção 118 de maio de 2005). Alternativamente, o sinal de controle (113) pode ser criado manualmente, por exemplo, pelo cri- ador de conteúdo e transmitido ao lado do sinal de áudio para o usuário final.
Os versados na técnica reconhecerão facilmente como o arranjo pode ser estendido para qualquer número de canais de entrada.
O princípio do segundo aspecto da invenção está ilustrado na fi- gura 2. Referindo-se agora à figura 2, um sinal de múltiplos canais consistin- do em um canal de fala (101) e dois canais de não fala (102 e 103) é recebi- do. A potência dos sinais em cada um destes canais é medida com um ban- co de estimadores de potência (201, 202 e 203). Ao contrário de suas con- trapartes na figura 1, estes estimadores de potência mediram a distribuição da potência de sinal através da freqüência, resultando em um espectro de potência em vez de um único número. A resolução espectral do espectro de potência idealmente casa com a resolução espectral do modelo de predição de inteligibilidade (205 e 206, ainda não discutido).
Os espectros de potência são alimentados para o circuito de comparação 204. O propósito deste bloco é determinar a atenuação a ser aplicada a cada canal de não fala para assegurar que o sinal no canal de não fala não reduz a inteligibilidade do sinal no canal de fala para ser menos que um critério predeterminado. Esta funcionalidade é alcançada ao empre- gar um circuito de predição de inteligibilidade (205 e 206) que prediz inteligi- bilidade de fala a partir dos espectros de potência do sinal de fala (201) e dos sinais de não fala (202 e 203). Os circuitos de predição de inteligibilida- de 205 e 206 podem implementar um modelo de predição de inteligibilidade adequado de acordo com opções de projeto e trocas compensatórias. E- xemplos são o índice de Inteligibilidade de Fala tal como especificado na ANSI S3.5-1997 ("Methods for Calculation of the Speech Index") e o modelo de Sensibilidade de Reconhecimento de Fala de Muesch e Buus ("Using statistical decision theory to predict speech intelligibility. I. Model structure" Jornal da Acoustical SocietyofAmerica1 2001, Vol 109, ρ 2896-2909). É cla- ro que a saída do modelo de predição de inteligibilidade não tem significado quando o sinal no canal de fala é alguma coisa a não ser fala. Apesar disto, no que se segue a saída do modelo de predição de inteligibilidade será refe- rida como a inteligibilidade de fala predita. O erro percebido será considera- do no processamento subsequente ao escalar a saída de valores de ganho do circuito de comparação 204 com um parâmetro que está relacionado com a probabilidade do sinal ser fala (113, ainda não discutido).
Os modelos de predição de inteligibilidade têm em comum que eles predizem inteligibilidade de fala aumentada ou inalterada como o resul- tado de abaixamento do nível do sinal de não fala. Continuando no fluxo de processo da figura 2, os circuitos de comparação 207 e 208 comparam a inteligibilidade predita com um valor de critério. Se o nível do sinal de não fala for baixo de maneira que a inteligibilidade predita excede o critério, o parâmetro de ganho, o qual é inicializado para 0 dB, é recuperado do circuito θ 209 ou 210 e fornecido para os circuitos 211 e 212 como a saída do circuito de comparação 204. Se o critério não for satisfeito, o parâmetro de ganho é diminuído por uma quantidade fixada e a predição de inteligibilidade é repe- tida. Um tamanho de incremento adequado para diminuir o ganho é 1 dB. A iteração tal como descrita exatamente continua até que a inteligibilidade pre- dita satisfaça ou exceda o valor de critério. Certamente é possível que o si- nal no canal de fala seja de tal maneira que a inteligibilidade de critério não possa ser alcançada mesmo na falta de um sinal no canal de não fala. Um exemplo de uma situação como esta é um sinal de fala de nível muito inferior ou com largura de banda seriamente restringida. Se isso acontecer será al- cançado um ponto onde qualquer redução adicional do ganho aplicado ao canal de não fala não afetará a inteligibilidade de fala predita e o critério nunca será satisfeito. Em uma condição como esta, o laço formado por (205, 206), (207, 208) e (209, 210) continua indefinidamente, e lógica adicional (não mostrada) pode ser aplicada para romper o laço. Um exemplo particu- larmente simples de tal lógica é contar o número de iterações e sair do laço uma vez que um número predeterminado de iterações tenha sido excedido.
Continuando no fluxo de processo da figura 2, um sinal de con- trole ρ (113) é recebido e multiplicado pelos ganhos (pelos multiplicadores 114 e 115). O sinal de controle (113) tipicamente será uma medida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Méto- dos de determinar automaticamente a probabilidade de um sinal ser um sinal de fala são conhecidos por si e foram discutidos no contexto da figura 1 (vide o processador de probabilidade de fala 130). Os ganhos escalados são en- tão aplicados aos seus canais de não fala correspondentes (pelos amplifica- dores 116 e 117) para produzir os sinais modificados R' e L' (118 e 119).
O princípio do terceiro aspecto da invenção está ilustrado na fi- gura 3. Referindo-se agora à figura 3, um sinal de múltiplos canais consistin- do em um canal de fala (101) e dois canais de não fala (102 e 103) é recebi- do. Cada um dos três sinais é dividido nos seus componentes espectrais (pelos bancos de filtros 301, 302 e 303). A análise espectral pode ser alcan- çada com um banco de filtros de N canais de domínio de tempo. De acordo com uma modalidade, o banco de filtros divide a faixa de freqüências em bandas de 1/3 de oitava ou se parece com a filtragem suposta para ocorrer no ouvido interno humano. O fato de que o sinal agora consiste em N subsi- nais está ilustrado pelo uso de linhas em negrito. O processo da figura 3 po- de ser reconhecido como um processo de linha secundária lateral. Seguindo o caminho de sinal, cada um dos N subsinais que formam os canais de não fala é escalado por um elemento de um conjunto de N valores de ganho (pe- los amplificadores 116 e 117). A derivação destes valores de ganho será descrita mais tarde. A seguir, os subsinais escalados são recombinados em um único sinal de áudio. Isto pode ser feito por meio de soma simples (pelos circuitos de soma 313 e 314). Alternativamente, um banco de filtros de sínte- se que é casado com o banco de filtros de análise pode ser usado. Este pro- cesso resulta nos sinais de não fala modificados R' e L' (118 e 119).
Descrevendo agora o caminho de linha secundária lateral do processo da figura 3, cada saída de banco de filtros é tornada disponível para um banco correspondente de N estimadores de potência (304, 305 e 306). Os espectros de potência resultantes servem como entradas para um circuito de otimização (307 e 308) que tem como saída um vetor de ganho N dimensional. A otimização emprega tanto um circuito de predição de inteligi- bilidade (309 e 310) quanto um circuito de cálculo de sonoridade (311 e 312) para descobrir o vetor de ganho que maximiza sonoridade do canal de não fala enquanto mantendo um nível predeterminado de inteligibilidade predita do sinal de fala. Modelos adequados para predizer inteligibilidade foram dis- cutidos em conexão com a figura 2. Os circuitos de cálculo de sonoridade 311 e 312 podem implementar um modelo de predição de sonoridade ade- quado de acordo com opções de projeto e trocas compensatórias. Exemplos de modelos adequados são o Padrão Nacional Americano ANSI S3.4-2007 "Procedure for the Computation of Loudness of Steady Sounds" e o padrão alemão DIN 45631 "Berechnung des Lautstãrkepegels und der Lautheit aus dem Gerãuschspektrum".
Dependendo dos recursos computacionais disponíveis e das restrições impostas, a forma e complexidade dos circuitos de otimização (307, 308) pode variar muito. De acordo com uma modalidade uma otimiza- ção restringida multidimensional iterativa de N parâmetros livres é usada. Cada parâmetro representa o ganho aplicado a uma das bandas de freqüên- cia do canal de não fala. Técnicas padrões, tais como seguir o gradiente mais alto no espaço de pesquisa N dimensional, podem ser aplicadas para descobrir o máximo. Em uma outra modalidade, uma abordagem exigindo menos de forma computacional restringe as funções de ganho versus fre- qüência para serem elementos de um pequeno conjunto de possíveis fun- ções de ganho versus freqüência, tal como um conjunto de diferentes gradi- entes espectrais ou filtros de prateleira. Com esta restrição adicional o pro- blema de otimização pode ser reduzido para um pequeno número de otimi- zações unidimensionais. Também em uma outra modalidade uma pesquisa exaustiva é feita sobre um conjunto muito pequeno de possíveis funções de ganho. Esta última abordagem pode ser particularmente desejável em apli- cações em tempo real onde uma carga computacional constante e velocida- de de pesquisa são desejadas.
Os versados na técnica reconhecerão facilmente restrições adi- cionais que podem ser impostas à otimização de acordo com modalidades adicionais da presente invenção. Um exemplo é restringir a sonoridade do canal de não fala modificado para não ser maior que a sonoridade antes da modificação. Um outro exemplo é impor um limite para as diferenças de ga- nho entre bandas de freqüência adjacentes a fim de limitar o potencial para serrilhado temporal no banco de filtros de reconstrução (313, 314) ou para reduzir a possibilidade para modificações de timbre censuráveis. Restrições desejáveis dependem tanto da implementação técnica do banco de filtros quanto da troca compensatória escolhida entre melhoramento de inteligibili- dade e modificação de timbre. Para clareza de ilustração, estas restrições estão omitidas na figura 3.
Continuando no fluxo de processo da figura 3, um sinal de con- trole ρ (113) é recebido e multiplicado com as funções de ganho (pelos mul- tiplicadores 114 e 115). O sinal de controle (113) tipicamente será uma me- dida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Métodos adequados para calcular automaticamente a probabilidade de um sinal ser fala foram discutidos em conexão com a figura 1 (vide o pro- cessador de probabilidade de fala 130). As funções de ganho escalado são então aplicadas aos seus canais de não fala correspondentes (pelos amplifi- cadores 116 e 117), tal como descrito anteriormente.
As figuras 4A e 4B são diagramas de blocos ilustrando variações dos aspectos mostrados nas figuras 1-3. Além do mais, os versados na téc- nica reconhecerão diversos modos de combinar os elementos da invenção descritos nas figuras 1 a 3. A figura 4A mostra que o arranjo da figura 1 também pode ser
aplicado para uma ou mais sub-bandas de freqüência de L, C e R. Especifi- camente, cada um dos sinais L, C e R pode ser passado através de um ban- co de filtros (441, 442 e 443), produzindo três conjuntos de η sub-bandas: {Li, L2, LnJ1 {Ci, C2, ..., Cn} e (R1, R2, Rn}· Sub-bandas de comparação são passadas para η instâncias do circuito 125 ilustrado na figura 1, e os subsinais processados são recombinados (pelos circuitos de soma 451 e 452). Um valor limiar separado vn pode ser selecionado para cada sub- banda. Uma boa escolha é um conjunto onde vn é proporcional ao número médio de deixas de fala transportadas na região de freqüência correspon- dente; isto é, bandas nos extremos do espectro de freqüência são designa- das com limiares mais baixos que bandas correspondendo às freqüências de fala dominantes. Esta implementação da invenção oferece uma troca com- pensatória muito boa entre complexidade computacional e desempenho.
A figura 4B mostra uma outra variação. Por exemplo, para redu- zir a carga computacional, um sinal sonoro envolvente típico com cinco ca- nais (C, L, R1 Is e rs) pode ser aprimorado ao processar os sinais L e R de acordo com o circuito 325 mostrado na figura 3, e os sinais Is e rs, os quais tipicamente são menos potentes que os sinais L e R, de acordo com o circui- to 125 mostrado na figura 1. Na descrição anterior, os termos e expressões "fala" (ou áudio
de fala ou canal de fala ou sinal de fala) e 11 não fala" (ou áudio de não fala ou canal de não fala ou sinal de não fala) são usados. Os versados na técni- ca reconhecerão que estes termos e expressões são usados mais para dife- renciar uns dos outros e menos para serem descritores absolutos do conte- údo dos canais. Por exemplo, em uma cena de restaurante em um filme, o canal de fala pode conter predominantemente o diálogo em uma mesa e os canais de não fala podem conter o diálogo em outras mesas (consequente- mente, ambos contêm "fala" tal como um leigo usa o termo). Também é o diálogo em outras mesas que certas modalidades da presente invenção são direcionadas para atenuar. Implementação
A invenção pode ser implementada em hardware ou software, ou
em uma combinação de ambos (por exemplo, matrizes lógicas programá- veis). A não ser que especificado de outro modo, os algoritmos incluídos como parte da invenção não estão relacionados inerentemente a qualquer computador ou outro aparelho particular. Em particular, várias máquinas de uso geral podem ser usadas com programas gravados de acordo com os preceitos neste documento, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para executar as eta- pas de método exigidas. Assim, a invenção pode ser implementada em um ou mais programas de computador executando em um ou mais sistemas de computador programável, cada um compreendendo pelo menos um proces- sador, pelo menos um sistema de armazenamento de dados (incluindo me- mória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada e pelo menos um dispositivo ou porta de saída. Código de programa é aplicado para introduzir dados para executar as funções descritas neste documento e gerar informação de saída. A infor- mação de saída é aplicada a um ou mais dispositivos de saída, em modo conhecido.
Cada tal programa pode ser implementado em qualquer lingua- gem de computador desejada (incluindo linguagens de máquina, montagem, ou de alto nível processual, lógica, ou de programação orientada a objeto) para se comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada. Cada tal programa de computador preferivelmente é armazena- do ou transferido para uma mídia ou dispositivo de armazenamento (por e- xemplo, memória ou mídia de estado sólido, ou mídia magnética ou ótica) legível por um computador programável de uso geral ou especial, para con- figurar e operar o computador quando a mídia ou dispositivo de armazena- mento é lido pelo sistema de computador para executar os procedimentos descritos neste documento. O sistema inventivo também pode ser conside- rado para ser implementado como uma mídia de armazenamento legível por computador, configurada com um programa de computador, onde a mídia de armazenamento assim configurada induz um sistema de computador para operar em um modo específico e predefínido para executar as funções des- critas neste documento.
A descrição anterior ilustra várias modalidades da presente in- venção juntamente com exemplos de como aspectos da presente invenção podem ser implementados. Os exemplos e modalidades anteriores não de- vem ser supostos como sendo as únicas modalidades, e são apresentados para ilustrar a flexibilidade e vantagens da presente invenção tal como defi- nida pelas reivindicações a seguir. Com base na descrição anterior e nas reivindicações a seguir, outros arranjos, modalidades, implementações e equivalências estarão evidentes para os versados na técnica e poderão ser empregados sem divergir do espírito e escopo da invenção tal como definido pelas reivindicações.

Claims (14)

1. Método de aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais, compreendendo: comparar uma primeira característica e uma segunda caracterís- tica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que a primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contém áudio de fala e áudio não de fala, em que a primeira característica corresponde a uma primeira medida que é relacionada com uma intensidade de um sinal no primeiro canal, em que a segunda característica corresponde a um segundo canal do sinal de áudio de múltiplos canais que contém predominantemente áudio não de fala, e em que a segunda característica corresponde a uma segunda medida que é re- lacionada com uma intensidade de um sinal no segundo canal, incluindo: determinar uma diferença entre a primeira medida e a segunda medida, e calcular o fator de atenuação com base na diferença entre a pri- meira medida e a segunda medida e em um valor limiar; ajustar o fator de atenuação de acordo com um valor de probabi- lidade de fala para gerar um fator de atenuação ajustado; e atenuar o segundo canal usando o fator de atenuação ajustado.
2. Método de acordo com a reivindicação 1, compreendendo a- dicionalmente: processar o sinal de áudio de múltiplos canais para gerar a pri- meira característica e a segunda característica.
3. Método de acordo com a reivindicação 1, compreendendo a- dicionalmente: processar o primeiro canal para gerar o valor de probabilidade de fala.
4. Método de acordo com a reivindicação 1, em que o segundo canal é um de uma pluralidade de segundos canais, em que a segunda ca- racterística é uma de uma pluralidade de segundas características, em que o fator de atenuação é um de uma pluralidade de fatores de atenuação, e em que o fator de atenuação ajustado é um de uma pluralidade de fatores de atenuação ajustados, compreendendo adicionalmente: comparar a primeira característica e a pluralidade de segundas características para gerar a pluralidade de fatores de atenuação; ajustar a pluralidade de fatores de atenuação de acordo com o valor de probabilidade de fala para gerar a pluralidade de fatores de atenua- ção ajustados; e atenuar a pluralidade de segundos canais usando a pluralidade de fatores de atenuação ajustados.
5. Método de acordo com a reivindicação 1, em que o sinal de áudio de múltiplos canais inclui um terceiro canal que contém predominan- temente áudio não de fala, compreendendo adicionalmente: comparar a primeira característica e uma terceira característica para gerar um fator de atenuação adicional, em que a terceira característica corresponde ao terceiro canal; ajustar o fator de atenuação adicional de acordo com o valor de probabilidade de fala para gerar um fator de atenuação adicional ajustado; e atenuar o terceiro canal usando o fator de atenuação ajustado.
6. Método de acordo com a reivindicação 1, em que a primeira medida é um primeiro nível de potência do sinal no primeiro canal, em que a segunda medida é um segundo nível de potência do sinal no segundo canaí, e em que a diferença é uma diferença entre o primeiro nível de potência e o segundo nível de potência.
7. Método de acordo com qualquer uma das reivindicações 1 a 5, em que a primeira medida é uma primeira potência do sinal no primeiro canal, em que a segunda medida é uma segunda potência do sinal no se- gundo canal, e em que a diferença é uma razão entre a primeira potência e a segunda potência.
8. Aparelho incluindo um circuito para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais, compreendendo: um circuito de comparação que é configurado para comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que a primeira característica corresponde a um primeiro canal do sinal de áudio de múlti- plos canais que contém áudio de fala e áudio não de fala, em que a primeira característica corresponde a uma primeira medida que é relacionada com uma intensidade de um sinal no primeiro canal, em que a segunda caracte- rística corresponde a um segundo canal do sinal de áudio de múltiplos ca- nais que contém predominantemente o áudio não de fala, e em que a se- gunda característica corresponde a uma segunda medida que é relacionada com uma intensidade de um sinal no segundo canal, em que o circuito de comparação é configurado: para determinar uma diferença entre a primeira medida e a se- gunda medida, e para calcular o fator de atenuação com base na diferença entre a primeira medida e a segunda medida e em um valor limiar; um multiplicador que é configurado para ajustar o fator de ate- nuação de acordo com um valor de probabilidade de fala para gerar um fator de atenuação ajustado; e um amplificador que é configurado para atenuar o segundo canal usando o fator de atenuação ajustado.
9. Aparelho de acordo com a reivindicação 8, em que a primeira característica corresponde a um primeiro nível de potência e em que a se- gunda característica corresponde a um segundo nível de potência, e em que o circuito de comparação compreende: um primeiro somador que é configurado para subtrair o primeiro nível de potência do segundo nível de potência para gerar uma diferença de nível de potência; um segundo somador que é configurado para somar a diferença de nível de potência e o valor limiar para gerar uma margem; e um circuito limitador que é configurado para calcular o fator de atenuação como um maior que um de a margem e zero.
10. Aparelho de acordo com a reivindicação 8, em que a primei- ra característica corresponde a um primeiro nível de potência e em que a segunda característica corresponde a um segundo nível de potência, com- preendendo adicionalmente: um primeiro estimador de potência que é configurado para calcu- lar o primeiro nível de potência do primeiro canal; e um segundo estimador de potência que é configurado para cal- cular o segundo nível de potência do segundo canal.
11. Aparelho de acordo com a reivindicação 8, compreendendo adicionalmente: um processador de determinação de fala que é configurado para processar o primeiro canal para gerar o valor de probabilidade de fala.
12. Programa de computador incorporado em mídia de gravação tangível para aperfeiçoar audibilidade de fala em um sinal de áudio de múlti- plos canais, o programa de computador controlando um dispositivo para e- xecutar processamento compreendendo: comparar uma primeira característica e uma segunda caracterís- tica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que a primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contém áudio de fala e áudio não de fala, em que a primeira característica corresponde a uma primeira medida que é 20 relacionada com uma intensidade de um sinal no primeiro canal, em que a segunda característica corresponde a um segundo canal do sinal de áudio de múltiplos canais que contém predominantemente o áudio não de fala, e em que a segunda característica corresponde a uma segunda medida que é relacionada com uma intensidade de um sinal no segundo canal, incluindo: determinar uma diferença entre a primeira medida e a segunda medida, e calcular o fator de atenuação com base na diferença entre a pri- meira medida e a segunda medida e em um valor limiar; ajustar o fator de atenuação de acordo com um valor de probabi- Iidade de fala para gerar um fator de atenuação ajustado; e atenuar o segundo canal usando o fator de atenuação ajustado.
13. Aparelho para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais, compreendendo: dispositivo para comparar uma primeira característica e uma se- gunda característica do sinal de áudio de múltiplos canais para gerar um fa- tor de atenuação, em que a primeira característica corresponde a um primei- ro canal do sinal de áudio de múltiplos canais que contêm áudio de fala e áudio não de fala, em que a primeira característica corresponde a uma pri- meira medida que é relacionada com uma intensidade de um sinal no primei- ro canal, em que a segunda característica corresponde a um segundo canal do sinal de áudio de múltiplos canais que contêm predominantemente o áu- dio não de fala, e em que a segunda característica corresponde a uma se- gunda medida que é relacionada com uma intensidade de um sinal no se- gundo canal, incluindo: dispositivo para determinar uma diferença entre a primeira medi- da e a segunda medida, e dispositivo para calcular o fator de atenuação com base na dife- rença entre a primeira medida e a segunda medida e em um valor limiar; dispositivo para ajustar o fator de atenuação de acordo com um valor de probabilidade de fala para gerar um fator de atenuação ajustado; e dispositivo para atenuar o segundo canal usando o fator de ate- nuação ajustado.
14. Aparelho de acordo com a reivindicação 13, em que a pri- meira característica corresponde a um primeiro nível de potência e em que a segunda característica corresponde a um segundo nível de potência, em que o dispositivo para comparar compreende: dispositivo para subtrair o primeiro nível de potência do segundo nível de potência para gerar uma diferença de nível de potência.
BRPI0911456-4A 2008-04-18 2009-04-17 Método e aparelho para melhorar a audibilidade da fala em um sinal de áudio multicanal BRPI0911456B1 (pt)

Priority Applications (1)

Application Number Priority Date Filing Date Title
BRPI0923669-4A BRPI0923669B1 (pt) 2008-04-18 2009-04-17 método, aparelho e programa de computador para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US4627108P 2008-04-18 2008-04-18
US61/046,271 2008-04-18
PCT/US2009/040900 WO2010011377A2 (en) 2008-04-18 2009-04-17 Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience

Publications (2)

Publication Number Publication Date
BRPI0911456A2 true BRPI0911456A2 (pt) 2013-05-07
BRPI0911456B1 BRPI0911456B1 (pt) 2021-04-27

Family

ID=41509059

Family Applications (2)

Application Number Title Priority Date Filing Date
BRPI0923669-4A BRPI0923669B1 (pt) 2008-04-18 2009-04-17 método, aparelho e programa de computador para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais
BRPI0911456-4A BRPI0911456B1 (pt) 2008-04-18 2009-04-17 Método e aparelho para melhorar a audibilidade da fala em um sinal de áudio multicanal

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BRPI0923669-4A BRPI0923669B1 (pt) 2008-04-18 2009-04-17 método, aparelho e programa de computador para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais

Country Status (16)

Country Link
US (1) US8577676B2 (pt)
EP (2) EP2373067B1 (pt)
JP (2) JP5341983B2 (pt)
KR (2) KR101227876B1 (pt)
CN (2) CN102137326B (pt)
AU (2) AU2009274456B2 (pt)
BR (2) BRPI0923669B1 (pt)
CA (2) CA2720636C (pt)
HK (2) HK1153304A1 (pt)
IL (2) IL208436A (pt)
MX (1) MX2010011305A (pt)
MY (2) MY159890A (pt)
RU (2) RU2467406C2 (pt)
SG (1) SG189747A1 (pt)
UA (2) UA101974C2 (pt)
WO (1) WO2010011377A2 (pt)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US8284955B2 (en) 2006-02-07 2012-10-09 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10069471B2 (en) * 2006-02-07 2018-09-04 Bongiovi Acoustics Llc System and method for digital signal processing
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
KR101227876B1 (ko) * 2008-04-18 2013-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
BR112013005958B1 (pt) * 2010-09-22 2021-04-20 Dolby Laboratories Licensing Corporation método para misturar dois sinais de entrada de áudio em um único sinal de áudio misturado, dispositivo para misturar sinais, meio de armazenamento legível por processador e dispositivo para misturar sinais de entrada de áudio em um único sinal de áudio misturado
JP2013114242A (ja) * 2011-12-01 2013-06-10 Yamaha Corp 音響処理装置
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US9363603B1 (en) * 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
CN105164918B (zh) 2013-04-29 2018-03-30 杜比实验室特许公司 具有动态阈值的频带压缩
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
US10639000B2 (en) 2014-04-16 2020-05-05 Bongiovi Acoustics Llc Device for wide-band auscultation
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
KR101559364B1 (ko) * 2014-04-17 2015-10-12 한국과학기술원 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
WO2016019130A1 (en) 2014-08-01 2016-02-04 Borne Steven Jay Audio device
WO2016038876A1 (ja) * 2014-09-08 2016-03-17 日本放送協会 符号化装置、復号化装置及び音声信号処理装置
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
AU2015326856B2 (en) 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
US9792952B1 (en) * 2014-10-31 2017-10-17 Kill the Cann, LLC Automated television program editing
JP6508491B2 (ja) 2014-12-12 2019-05-08 ホアウェイ・テクノロジーズ・カンパニー・リミテッド マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置
EP3369175B1 (en) 2015-10-28 2024-01-10 DTS, Inc. Object-based audio signal balancing
US9621994B1 (en) 2015-11-16 2017-04-11 Bongiovi Acoustics Llc Surface acoustic transducer
EP3203472A1 (en) * 2016-02-08 2017-08-09 Oticon A/s A monaural speech intelligibility predictor unit
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
EP3457402B1 (en) * 2016-06-24 2021-09-15 Samsung Electronics Co., Ltd. Noise-adaptive voice signal processing method and terminal device employing said method
JP2021521700A (ja) 2018-04-11 2021-08-26 ボンジョビ アコースティックス リミテッド ライアビリティー カンパニー オーディオ強化聴力保護システム
WO2020028833A1 (en) 2018-08-02 2020-02-06 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
MX2021012309A (es) 2019-04-15 2021-11-12 Dolby Int Ab Mejora de dialogo en codec de audio.
CN115699172A (zh) * 2020-05-29 2023-02-03 弗劳恩霍夫应用研究促进协会 用于处理初始音频信号的方法和装置
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及系统
US20230080683A1 (en) * 2021-09-08 2023-03-16 Minus Works LLC Readily biodegradable refrigerant gel for cold packs

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5046097A (en) 1988-09-02 1991-09-03 Qsound Ltd. Sound imaging process
US5105462A (en) 1989-08-28 1992-04-14 Qsound Ltd. Sound imaging method and apparatus
US5208860A (en) 1988-09-02 1993-05-04 Qsound Ltd. Sound imaging method and apparatus
US5212733A (en) 1990-02-28 1993-05-18 Voyager Sound, Inc. Sound mixing device
JP2961952B2 (ja) * 1991-06-06 1999-10-12 松下電器産業株式会社 音楽音声判別装置
EP0517233B1 (en) * 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
JP2737491B2 (ja) * 1991-12-04 1998-04-08 松下電器産業株式会社 音楽音声処理装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
US5485522A (en) 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP3560087B2 (ja) * 1995-09-13 2004-09-02 株式会社デノン 音信号処理装置およびサラウンド再生方法
WO1997010586A1 (en) * 1995-09-14 1997-03-20 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP2004507904A (ja) 1997-09-05 2004-03-11 レキシコン 5−2−5マトリックス・エンコーダおよびデコーダ・システム
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7260231B1 (en) 1999-05-26 2007-08-21 Donald Scott Wedge Multi-channel audio panel
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6675125B2 (en) * 1999-11-29 2004-01-06 Syfx Statistics generator system and method
US7277767B2 (en) 1999-12-10 2007-10-02 Srs Labs, Inc. System and method for enhanced streaming audio
JP2001245237A (ja) * 2000-02-28 2001-09-07 Victor Co Of Japan Ltd 放送受信装置
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7266501B2 (en) 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7076071B2 (en) 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
EP1191814B2 (en) * 2000-09-25 2015-07-29 Widex A/S A multiband hearing aid with multiband adaptive filters for acoustic feedback suppression.
AU2002248431B2 (en) * 2001-04-13 2008-11-13 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
JP2002335490A (ja) * 2001-05-09 2002-11-22 Alpine Electronics Inc Dvd再生装置
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
JP2005502247A (ja) * 2001-09-06 2005-01-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置
JP2003084790A (ja) 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
TW569551B (en) 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
GR1004186B (el) * 2002-05-21 2003-03-12 Διαχυτης ευρεως φασματος ηχου με ελεγχομενη απορροφηση χαμηλων συχνοτητων και η μεθοδος εγκαταστασης του
RU2206960C1 (ru) * 2002-06-24 2003-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ подавления шума в информационном сигнале и устройство для его осуществления
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7146315B2 (en) 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7251337B2 (en) * 2003-04-24 2007-07-31 Dolby Laboratories Licensing Corporation Volume control in movie theaters
KR101164937B1 (ko) * 2003-05-28 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램
US7680289B2 (en) 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
JP4013906B2 (ja) * 2004-02-16 2007-11-28 ヤマハ株式会社 音量制御装置
ES2294506T3 (es) * 2004-05-14 2008-04-01 Loquendo S.P.A. Reduccion de ruido para el reconocimiento automatico del habla.
JP2006072130A (ja) * 2004-09-03 2006-03-16 Canon Inc 情報処理装置及び情報処理方法
US8199933B2 (en) * 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
BRPI0608753B1 (pt) * 2005-03-30 2019-12-24 Koninl Philips Electronics Nv codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento
US7567898B2 (en) 2005-07-26 2009-07-28 Broadcom Corporation Regulation of volume of voice in conjunction with background sound
US7912232B2 (en) 2005-09-30 2011-03-22 Aaron Master Method and apparatus for removing or isolating voice or instruments on stereo recordings
JP2007142856A (ja) * 2005-11-18 2007-06-07 Sharp Corp テレビジョン受信装置
JP2007158873A (ja) * 2005-12-07 2007-06-21 Funai Electric Co Ltd 音声補正装置
JP2007208755A (ja) * 2006-02-03 2007-08-16 Oki Electric Ind Co Ltd 3次元音声信号出力方法及びその装置並びに3次元音声信号出力プログラム
JP4981123B2 (ja) 2006-04-04 2012-07-18 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の知覚音量及び/又は知覚スペクトルバランスの計算と調整
DE602007011594D1 (de) * 2006-04-27 2011-02-10 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
KR101061132B1 (ko) * 2006-09-14 2011-08-31 엘지전자 주식회사 다이알로그 증폭 기술
JP4938862B2 (ja) * 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節
BRPI0807703B1 (pt) * 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
KR101227876B1 (ko) * 2008-04-18 2013-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치
EP2337020A1 (en) * 2009-12-18 2011-06-22 Nxp B.V. A device for and a method of processing an acoustic signal

Also Published As

Publication number Publication date
CN102137326B (zh) 2014-03-26
CN102137326A (zh) 2011-07-27
JP2011172235A (ja) 2011-09-01
AU2010241387A1 (en) 2010-12-02
HK1153304A1 (en) 2012-03-23
UA104424C2 (uk) 2014-02-10
BRPI0923669B1 (pt) 2021-05-11
AU2010241387B2 (en) 2015-08-20
US8577676B2 (en) 2013-11-05
KR20110052735A (ko) 2011-05-18
AU2009274456B2 (en) 2011-08-25
CA2720636C (en) 2014-02-18
WO2010011377A2 (en) 2010-01-28
MX2010011305A (es) 2010-11-12
CA2720636A1 (en) 2010-01-28
WO2010011377A3 (en) 2010-03-25
KR20110015558A (ko) 2011-02-16
JP5341983B2 (ja) 2013-11-13
RU2010146924A (ru) 2012-06-10
UA101974C2 (ru) 2013-05-27
RU2467406C2 (ru) 2012-11-20
US20110054887A1 (en) 2011-03-03
BRPI0911456B1 (pt) 2021-04-27
JP5259759B2 (ja) 2013-08-07
EP2373067A1 (en) 2011-10-05
JP2011518520A (ja) 2011-06-23
EP2279509B1 (en) 2012-12-19
IL209095A0 (en) 2011-01-31
IL208436A (en) 2014-07-31
CA2745842C (en) 2014-09-23
KR101227876B1 (ko) 2013-01-31
SG189747A1 (en) 2013-05-31
CA2745842A1 (en) 2010-01-28
RU2541183C2 (ru) 2015-02-10
IL209095A (en) 2014-07-31
HK1161795A1 (en) 2012-08-03
IL208436A0 (en) 2010-12-30
CN102007535A (zh) 2011-04-06
MY179314A (en) 2020-11-04
AU2009274456A1 (en) 2010-01-28
EP2373067B1 (en) 2013-04-17
KR101238731B1 (ko) 2013-03-06
MY159890A (en) 2017-02-15
RU2010150367A (ru) 2012-06-20
CN102007535B (zh) 2013-01-16
EP2279509A2 (en) 2011-02-02
BRPI0923669A2 (pt) 2013-07-30

Similar Documents

Publication Publication Date Title
BRPI0911456A2 (pt) mÉtodo e aparelho para manter audibilidade de fala em Áudio de méltiplos canais com impactos mÍnimo em experiÊncia envolvente
US9881635B2 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
US9699557B2 (en) Audio signal correction and calibration for a room environment
WO2020020043A1 (en) Compressor target curve to avoid boosting noise
US20210326099A1 (en) Systems and methods for providing content-specific, personalized audio replay on consumer devices
JP2023024295A (ja) 動的音声強調のための方法及びシステム

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Ipc: H04S 3/00 (2006.01), H04R 5/04 (2006.01), G10L 21/

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 27/04/2021, OBSERVADAS AS CONDICOES LEGAIS.