BRPI0923669B1 - método, aparelho e programa de computador para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais - Google Patents
método, aparelho e programa de computador para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais Download PDFInfo
- Publication number
- BRPI0923669B1 BRPI0923669B1 BRPI0923669-4A BRPI0923669A BRPI0923669B1 BR PI0923669 B1 BRPI0923669 B1 BR PI0923669B1 BR PI0923669 A BRPI0923669 A BR PI0923669A BR PI0923669 B1 BRPI0923669 B1 BR PI0923669B1
- Authority
- BR
- Brazil
- Prior art keywords
- channel
- speech
- power spectrum
- attenuation factor
- intelligibility
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005236 sound signal Effects 0.000 title claims abstract description 31
- 238000004590 computer program Methods 0.000 title abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/041—Adaptation of stereophonic signal reproduction for the hearing impaired
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
MÉTODO, APARELHO E PROGRAMA DE COMPUTADOR PARA APERFEIÇOAR AUDIBILIDADE DE FALA EM UM SINAL DE ÁUDIO DE MÚLTIPLOS CANAIS. A presente invenção refere-se a um método de aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais. O método inclui comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação. A primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contêm áudio de fala e de não fala, e a segunda característica corresponde a um segundo canal de sinal de áudio de múltiplos canais que contém predominantemente áudio de não fala. O método inclui ainda ajustar o fator de atenuação de acordo com um valor de verossimilhança de fala para gerar um fator de atenuação ajustado. O método inclui ainda atenuar o segundo canal usando o fator de atenuação ajustado.
Description
[0001] Dividido do PI depositado em 17.04.2009, relativo à entradana fase nacional do PCT/US2009/040900 realizada em 25.10.2010 através da petição 020100099638.
[0002] Este pedido reivindica o benefício de prioridade do Pedidode Patente Provisório Estados Unidos No. 61/046.271, depositado em 18 de abril de 2008, incorporado na sua totalidade neste pedido pela referência.
[0003] A presente invenção refere-se a processamento de sinal deáudio em geral e a aperfeiçoar clareza de diálogo e narrativa em áudio de entretenimento envolvente em particular.
[0004] A não ser que indicado de outro modo neste documento, asabordagens descritas nesta seção não são de técnica anterior para as reivindicações neste pedido e não são admitidas para serem de técnica anterior por inclusão nesta seção.
[0005] Áudio de entretenimento moderno com múltiplos canaissimultâneos de áudio (som envolvente) fornece audiências com ambientes de som realísticos e imersivos de imenso valor de entretenimento. Em tais ambientes muitos elementos de som tais como diálogo, música e efeitos são apresentados simultaneamente e competem pela atenção do ouvinte. Para algumas pessoas da audiência - especialmente aquelas com capacidades sensoriais auditivas reduzidas ou processamento cognitivo reduzido - diálogo e narrativa podem ser difíceis de entender durante partes do programa onde elementos de som concorrendo estrondosamente estão presentes. Durante essas passagens estes ouvintes seriam beneficiados se o nível dos sons concorrentes fosse abaixado.
[0006] O reconhecimento de que música e efeitos podemsobrepujar diálogo não é novo e diversos métodos para solucionar a situação têm sido sugeridos. Entretanto, tal como será delineado a seguir, os métodos sugeridos são incompatíveis com a prática de difusão corrente, ou aplicam um preço desnecessariamente alto no experimento de entretenimento total, ou ambos.
[0007] É uma convenção comumente adotada na produção deáudio envolvente para filme e televisão colocar a maior parte de diálogo e narrativa somente em um canal (o canal central, também referido como o canal de fala). Música, sons ambientes e efeitos sonoros são tipicamente mixados tanto no canal de fala quanto em todos os canais restantes (por exemplo, Left [L], Right [R], Envolvente Esquerdo [ls] e Envolvente Direito [rs], também referidos como os canais de não fala). Como resultado, o canal de fala carrega a maioria da fala e uma quantidade significativa do áudio de não-fala contido no programa de áudio, enquanto que os canais de não fala carregam predominantemente áudio de não fala, mas também podem carregar uma pequena quantidade de fala. Uma abordagem simples para ajudar na percepção de diálogo e narrativa nestas mixagens convencionais é reduzir permanentemente o nível de todos os canais de não fala em relação ao nível do canal de fala, por exemplo, por 6 dB. Esta abordagem é simples e efetiva e é praticada atualmente (por exemplo, Clareza de Diálogo SRS [Sistema de Recuperação de Som] ou equações de submixagens modificadas em decodificadores envolventes). Entretanto, ela sofre de pelo menos uma desvantagem: a atenuação constante dos canais de não fala pode diminuir o nível de sons ambientes tranquilos que não interferem com recepção de fala para o ponto onde eles não podem mais ser ouvidos. Ao atenuar sons ambientes não interferindo o balanço estético do programa é alterado sem qualquer benefício concomitante para entendimento de fala.
[0008] Uma solução alternativa está descrita em uma série depatentes (Patente U.S. No. 7.266.501, Patente U.S. No. 6.772.127, Patente U.S. No 6.912.501 e Patente U.S. No. 6.650.755) para Vaudrey e Saunders. Tal como entendido, sua abordagem envolve modificar a produção e distribuição de conteúdo. De acordo com esse arranjo, o consumidor recebe dois sinais de áudio separados. O primeiro destes sinais compreende o áudio de "Conteúdo Primário". Em muitos casos este sinal será dominado por fala, mas, se o produtor de conteúdo desejar, poderá conter outros tipos de sinal igualmente. O segundo sinal compreende o áudio de "Conteúdo Secundário", o qual é composto de todos os elementos de sons restantes. Ao usuário é dado controle sobre os níveis relativos destes dois sinais, ao ajustar manualmente o nível de cada sinal ou ao manter automaticamente uma relação de potência selecionada pelo usuário. Embora este arranjo possa limitar a atenuação desnecessária de sons ambientes não interferindo, sua implementação mais difundida é obstruída por sua incompatibilidade com métodos de produção e distribuição estabelecidos.
[0009] Um outro exemplo de um método para gerenciar os níveisrelativos de áudio de fala e não fala foi proposto por Bennett na Publicação de Pedido U.S. No. 20070027682.
[00010] Todos os exemplos da técnica anterior compartilham a limitação de não fornecer quaisquer meios para minimizar o efeito que o aperfeiçoamento de diálogo tem sobre a experiência de ouvir pretendida pelo criador de conteúdo, entre outras deficiências. Portanto, é o objetivo da presente invenção fornecer um meio de limitar o nível de canais de áudio de não fala em um programa de entretenimento de múltiplos canais mixados convencionalmente de maneira que fala permanece compreensível enquanto mantendo também a audibilidade dos componentes de áudio de não fala.
[00011] Assim, existe uma necessidade de modos aperfeiçoados de manter audibilidade de fala. A presente invenção resolve estes e outros problemas ao fornecer um aparelho e método de aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais.
[00012] Modalidades da presente invenção aperfeiçoam audibilidade de fala. Em uma modalidade a presente invenção inclui um método de aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais. O método inclui comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação. A primeira característica corresponde a um primeiro canal do sinal de áudio de múltiplos canais que contém áudio de fala e não fala, e a segunda característica corresponde a um segundo canal do sinal de áudio de múltiplos canais que contém predominantemente áudio de não fala. O método inclui ainda ajustar o fator de atenuação de acordo com um valor de verossimilhança de fala para gerar um fator de atenuação ajustado. O método inclui ainda atenuar o segundo canal usando o fator de atenuação ajustado.
[00013] Um primeiro aspecto da invenção é baseado na observação de que o canal de fala de um programa de entretenimento típico carrega um sinal de não fala por uma parte substancial da duração de programa. Consequentemente de acordo com este primeiro aspecto da invenção, mascaramento de áudio de fala por áudio de não fala pode ser controlado por meio de (a) determinar a atenuação de um sinal em um canal de não fala necessária para limitar a razão da potência de sinal no canal de não fala para a potência de sinal no canal de fala para não exceder um limiar predeterminado e (b) escalar a atenuação por um fator que seja relacionado de forma uniforme com a probabilidade do sinal no canal de fala ser fala, e (c) aplicar a atenuação escalada.
[00014] Um segundo aspecto da invenção é baseado na observação de que a razão entre a potência do sinal de fala e a potência do sinal de mascaramento é um preditor inferior de inteligibilidade de fala. Consequentemente, de acordo com este segundo aspecto da invenção, a atenuação do sinal no canal de não fala que é necessária para manter um nível predeterminado de inteligibilidade é calculada ao predizer a inteligibilidade do sinal de fala na presença dos sinais de não fala com um modelo de predição de inteligibilidade baseado em psicoacústica.
[00015] Um terceiro aspecto da invenção é baseado nas observações de que, se atenuação for permitida para variar através da frequência, (a) um dado nível de inteligibilidade pode ser alcançado com uma variedade de padrões de atenuação, e (b) diferentes padrões de atenuação podem produzir diferentes níveis de sonoridade ou ênfase do áudio de não fala. Consequentemente de acordo com este terceiro aspecto da invenção, mascaramento de áudio de fala por áudio de não fala é controlado ao descobrir o padrão de atenuação que maximiza sonoridade ou alguma outra medida de ênfase do áudio de não fala sob a restrição de que um nível predeterminado de inteligibilidade de fala predita é alcançado.
[00016] As modalidades da presente invenção podem ser executadas como um método ou processo. Os métodos podem ser implementados por meio de conjunto de circuitos eletrônicos, tais como hardware ou software ou uma combinação dos mesmos. O conjunto de circuitos usado para implementar o processo pode ser um conjunto de circuitos dedicado (que executa somente uma tarefa específica) ou conjunto de circuitos geral (que é programado para executar uma ou mais tarefas específicas).
[00017] A descrição detalhada a seguir e os desenhos anexos fornecem um melhor entendimento da natureza e vantagens da presente invenção.
[00018] A figura 1 ilustra um processador de sinal de acordo com uma modalidade da presente invenção.
[00019] A figura 2 ilustra um processador de sinal de acordo comuma outra modalidade da presente invenção.
[00020] A figura 3 ilustra um processador de sinal de acordo comuma outra modalidade da presente invenção.
[00021] As figuras 4A-4B são diagramas de blocos ilustrando variações adicionais das modalidades das figuras 1-3.
[00022] São descritas neste documento técnicas para manter audibilidade de fala. Na descrição a seguir, para propósitos de explicação, inúmeros exemplos e detalhes específicos estão expostos a fim de fornecer um completo entendimento da presente invenção. Estará evidente, entretanto, para os versados na técnica que a presente invenção tal como definida pelas reivindicações pode incluir alguns ou todos os recursos nestes exemplos sozinhos ou em combinação com outros recursos descritos a seguir, e pode incluir ainda modificações e equivalências dos recursos e conceitos descritos neste documento.
[00023] Vários métodos e processos são descritos a seguir. Que eles são descritos em uma certa ordem é principalmente para facilidade de apresentação. É para ser entendido que etapas particulares podem ser executadas em outras ordens ou em paralelo tal como desejado de acordo com várias implementações. Quando uma etapa particular deve preceder ou seguir uma outra, isto será salientado especificamente quando não evidente a partir do contexto.
[00024] O princípio do primeiro aspecto da invenção está ilustrado na figura 1. Referindo-se agora à figura 1, um sinal de múltiplos canais consistindo em um canal de fala (101) e dois canais de não fala (102 e 103) é recebido. A potência dos sinais em cada um destes canais é medida com um banco de estimadores de potência (104, 105 e 106) e expressada em uma escala logarítmica [dB]. Estes estimadores de potência podem conter um mecanismo de uniformização, tal como um integrador com fuga, de maneira que o nível de potência medido reflete o nível de potência determinado pela média sobre a duração de uma sentença ou uma passagem total. O nível de potência do sinal no canal de fala é subtraído do nível de potência em cada um dos canais de não fala (pelos somadores 107 e 108) para dar uma medida da diferença de nível de potência entre os dois tipos de sinais. O circuito de comparação 109 determina para cada canal de não fala o número de dB pelo qual o canal de não fala deve ser atenuado a fim de seu nível de potência permanecer pelo menos v dB abaixo do nível de potência do sinal no canal de fala (o símbolo "v" indica uma variável e também pode ser referido como a letra grega teta (θ) manuscrita). De acordo com uma modalidade, uma implementação disto é adicionar o valor limiar v (armazenado pelo circuito 110) à diferença de nível de potência (este resultado intermediário é referido como a margem) e limitar o resultado para ser igual ou menor que zero (pelos limitadores 111 e 112). O resultado é o ganho (ou atenuação negada) em dB que deve ser aplicado aos canais de não fala para manter seu nível de potência v dB abaixo do nível de potência do canal de fala. Um valor adequado para v é 15 dB. O valor de v pode ser ajustado tal como desejado em outras modalidades.
[00025] Por causa de existir uma relação exclusiva entre uma medida expressada em uma escala logarítmica (dB) e essa mesma medida expressada em uma escala linear, um circuito que é equivalente à figura 1 pode ser construído onde potência, ganho e limiar são todos expressados em uma escala linear. Nessa implementação todas as diferenças de nível são substituídas por razões das medidas lineares. Implementações alternativas podem substituir a medida de potência por medidas que estejam relacionadas com intensidade de sinal, tal como o valor absoluto do sinal.
[00026] Um recurso digno de nota do primeiro aspecto da invenção é escalar o ganho assim derivado por um valor de forma uniforme relacionado com a probabilidade de o sinal no canal de fala ser fala de fato. Referindo-se ainda à figura 1, um sinal de controle (113) é recebido e multiplicado pelos ganhos (pelos multiplicadores 114 e 115). Os ganhos escalados são então aplicados aos canais de não fala correspondentes (pelos amplificadores 116 e 117) para produzir os sinais modificados L’ e R’ (118 e 119). O sinal de controle (113) tipicamente será uma medida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Vários métodos de determinar automaticamente a probabilidade de um sinal ser um sinal de fala podem ser usados. De acordo com uma modalidade, um processador de probabilidade de fala 130 gera o valor de verossimilhança de fala p (113) a partir da informação no canal C 101. Um exemplo de um mecanismo como este está descrito por Robinson e Vinton em "Automated Speech/Other Discrimination for Loudness Monitoring" (Audio Engineering Society, número pré-impresso 6437 da Convenção 118 de maio de 2005). Alternativamente, o sinal de controle (113) pode ser criado manualmente, por exemplo, pelo criador de conteúdo e transmitido ao lado do sinal de áudio para o usuário final.
[00027] Os versados na técnica reconhecerão facilmente como o arranjo pode ser estendido para qualquer número de canais de entrada.
[00028] O princípio do segundo aspecto da invenção está ilustrado na figura 2. Referindo-se agora à figura 2, um sinal de múltiplos canais consistindo em um canal de fala (101) e dois canais de não fala (102 e 103) é recebido. A potência dos sinais em cada um destes canais é medida com um banco de estimadores de potência (201, 202 e 203). Ao contrário de suas contrapartes na figura 1, estes estimadores de potência mediram a distribuição da potência de sinal através da frequência, resultando em um espectro de potência em vez de um único número. A resolução espectral do espectro de potência idealmente casa com a resolução espectral do modelo de predição de inteligibilidade (205 e 206, ainda não discutido).
[00029] Os espectros de potência são alimentados para o circuito de comparação 204. O propósito deste bloco é determinar a atenuação a ser aplicada a cada canal de não fala para assegurar que o sinal no canal de não fala não reduz a inteligibilidade do sinal no canal de fala para ser menos que um critério predeterminado. Esta funcionalidade é alcançada ao empregar um circuito de predição de inteligibilidade (205 e 206) que prediz inteligibilidade de fala a partir dos espectros de potência do sinal de fala (201) e dos sinais de não fala (202 e 203). Os circuitos de predição de inteligibilidade 205 e 206 podem implementar um modelo de predição de inteligibilidade adequado de acordo com opções de projeto e trocas compensatórias. Exemplos são o Índice de Inteligibilidade de Fala tal como especificado na ANSI S3.5-1997 ("Methods for Calculation of the Speech Index") e o modelo de Sensibilidade de Reconhecimento de Fala de Muesch e Buus ("Using statistical decision theory to predict speech intelligibility. I. Model structure" Jornal da Acoustical Society of America, 2001, Vol 109, p 2896-2909). É claro que a saída do modelo de predição de inteligibilidade não tem significado quando o sinal no canal de fala é alguma coisa a não ser fala. Apesar disto, no que se segue a saída do modelo de predição de inteligibilidade será referida como a inteligibilidade de fala predita. O erro percebido será considerado no processamento subsequente ao escalar a saída de valores de ganho do circuito de comparação 204 com um parâmetro que está relacionado com a probabilidade do sinal ser fala (113, ainda não discutido).
[00030] Os modelos de predição de inteligibilidade têm em comum que eles predizem inteligibilidade de fala aumentada ou inalterada como o resultado de abaixamento do nível do sinal de não fala. Continuando no fluxo de processo da figura 2, os circuitos de comparação 207 e 208 comparam a inteligibilidade predita com um valor de critério. Se o nível do sinal de não fala for baixo de maneira que a inteligibilidade predita excede o critério, o parâmetro de ganho, o qual é inicializado para 0 dB, é recuperado do circuito 209 ou 210 e fornecido para os circuitos 211 e 212 como a saída do circuito de comparação 204. Se o critério não for satisfeito, o parâmetro de ganho é diminuído por uma quantidade fixada e a predição de inteligibilidade é repetida. Um tamanho de incremento adequado para diminuir o ganho é 1 dB. A iteração tal como descrita exatamente continua até que a inteligibilidade predita satisfaça ou exceda o valor de critério. Certamente é possível que o sinal no canal de fala seja de tal maneira que a inteligibilidade de critério não possa ser alcançada mesmo na falta de um sinal no canal de não fala. Um exemplo de uma situação como esta é um sinal de fala de nível muito inferior ou com largura de banda seriamente restringida. Se isso acontecer será alcançado um ponto onde qualquer redução adicional do ganho aplicado ao canal de não fala não afetará a inteligibilidade de fala predita e o critério nunca será satisfeito. Em uma condição como esta, o laço formado por (205, 206), (207, 208) e (209, 210) continua indefinidamente, e lógica adicional (não mostrada) pode ser aplicada para romper o laço. Um exemplo particularmente simples de tal lógica é contar o número de iterações e sair do laço uma vez que um número predeterminado de iterações tenha sido excedido.
[00031] Continuando no fluxo de processo da figura 2, um sinal de controle p (113) é recebido e multiplicado pelos ganhos (pelos multiplicadores 114 e 115). O sinal de controle (113) tipicamente será uma medida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Métodos de determinar automaticamente a probabilidade de um sinal ser um sinal de fala são conhecidos por si e foram discutidos no contexto da figura 1 (vide o processador de probabilidade de fala 130). Os ganhos escalados são então aplicados aos seus canais de não fala correspondentes (pelos amplificadores 116 e 117) para produzir os sinais modificados R’ e L’ (118 e 119).
[00032] O princípio do terceiro aspecto da invenção está ilustrado na figura 3. Referindo-se agora à figura 3, um sinal de múltiplos canais consistindo em um canal de fala (101) e dois canais de não fala (102 e 103) é recebido. Cada um dos três sinais é dividido nos seus componentes espectrais (pelos bancos de filtros 301, 302 e 303). A análise espectral pode ser alcançada com um banco de filtros de N canais de domínio de tempo. De acordo com uma modalidade, o banco de filtros divide a faixa de frequências em bandas de 1/3 de oitava ou se parece com a filtragem suposta para ocorrer no ouvido interno humano. O fato de que o sinal agora consiste em N subsinais está ilustrado pelo uso de linhas em negrito. O processo da figura 3 pode ser reconhecido como um processo de linha secundária lateral. Seguindo o caminho de sinal, cada um dos N subsinais que formam os canais de não fala é escalado por um elemento de um conjunto de N valores de ganho (pelos amplificadores 116 e 117). A derivação destes valores de ganho será descrita mais tarde. A seguir, os subsinais escalados são recombinados em um único sinal de áudio. Isto pode ser feito por meio de soma simples (pelos circuitos de soma 313 e 314). Alternativamente, um banco de filtros de síntese que é casado com o banco de filtros de análise pode ser usado. Este processo resulta nos sinais de não fala modificados R’ e L’ (118 e 119).
[00033] Descrevendo agora o caminho de linha secundária lateral do processo da figura 3, cada saída de banco de filtros é tornada disponível para um banco correspondente de N estimadores de potência (304, 305 e 306). Os espectros de potência resultantesservem como entradas para um circuito de otimização (307 e 308) que tem como saída um vetor de ganho N dimensional. A otimização emprega tanto um circuito de predição de inteligibilidade (309 e 310) quanto um circuito de cálculo de sonoridade (311 e 312) para descobrir o vetor de ganho que maximiza sonoridade do canal de não fala enquanto mantendo um nível predeterminado de inteligibilidade predita do sinal de fala. Modelos adequados para predizer inteligibilidade foram discutidos em conexão com a figura 2. Os circuitos de cálculo de sonoridade 311 e 312 podem implementar um modelo de predição de sonoridade adequado de acordo com opções de projeto e trocas compensatórias. Exemplos de modelos adequados são o Padrão Nacional Americano ANSI S3.4-2007 "Procedure for the Computation of Loudness of Steady Sounds" e o padrão alemão DIN 45631 "Berechnung des Lautstarkepegels und der Lautheit aus dem Gerauschspektrum".
[00034] Dependendo dos recursos computacionais disponíveis e das restrições impostas, a forma e complexidade dos circuitos de otimização (307, 308) pode variar muito. De acordo com umamodalidade uma otimização restringida multidimensional iterativa de N parâmetros livres é usada. Cada parâmetro representa o ganho aplicado a uma das bandas de frequência do canal de não fala. Técnicas padrões, tais como seguir o gradiente mais alto no espaço de pesquisa N dimensional, podem ser aplicadas para descobrir o máximo. Em uma outra modalidade, uma abordagem exigindo menos de forma computacional restringe as funções de ganho versus frequência para serem elementos de um pequeno conjunto de possíveis funções de ganho versus frequência, tal como um conjunto de diferentes gradientes espectrais ou filtros de prateleira. Com esta restrição adicional o problema de otimização pode ser reduzido para um pequeno número de otimizações unidimensionais. Também em uma outra modalidade uma pesquisa exaustiva é feita sobre um conjunto muito pequeno de possíveis funções de ganho. Esta última abordagem pode ser particularmente desejável em aplicações em tempo real onde uma carga computacional constante e velocidade de pesquisa são desejadas.
[00035] Os versados na técnica reconhecerão facilmente restrições adicionais que podem ser impostas à otimização de acordo com modalidades adicionais da presente invenção. Um exemplo é restringir a sonoridade do canal de não fala modificado para não ser maior que a sonoridade antes da modificação. Um outro exemplo é impor um limite para as diferenças de ganho entre bandas de frequência adjacentes a fim de limitar o potencial para serrilhado temporal no banco de filtros de reconstrução (313, 314) ou para reduzir a possibilidade para modificações de timbre censuráveis. Restrições desejáveis dependem tanto da implementação técnica do banco de filtros quanto da troca compensatória escolhida entre melhoramento de inteligibilidade e modificação de timbre. Para clareza de ilustração, estas restrições estão omitidas na figura 3.
[00036] Continuando no fluxo de processo da figura 3, um sinal de controle p (113) é recebido e multiplicado com as funções de ganho (pelos multiplicadores 114 e 115). O sinal de controle (113) tipicamente será uma medida derivada automaticamente da probabilidade de o sinal no canal de fala ser fala. Métodos adequados para calcular automaticamente a probabilidade de um sinal ser fala foram discutidos em conexão com a figura 1 (vide o processador de probabilidade de fala 130). As funções de ganho escalado são então aplicadas aos seus canais de não fala correspondentes (pelos amplificadores 116 e 117), tal como descrito anteriormente.
[00037] As figuras 4A e 4B são diagramas de blocos ilustrando variações dos aspectos mostrados nas figuras 1-3. Além do mais, os versados na técnica reconhecerão diversos modos de combinar os elementos da invenção descritos nas figuras 1 a 3.
[00038] A figura 4A mostra que o arranjo da figura 1 também pode ser aplicado para uma ou mais sub-bandas de frequência de L, C e R. Especificamente, cada um dos sinais L, C e R pode ser passado através de um banco de filtros (441, 442 e 443), produzindo três conjuntos de n sub-bandas: {L1, L2, ..., Ln}, {C1, C2, ..., Cn} e {R1, R2, ..., Rn}. Sub-bandas de comparação são passadas para n instâncias do circuito 125 ilustrado na figura 1, e os subsinais processados são recombinados (pelos circuitos de soma 451 e 452). Um valor limiar separado Vn pode ser selecionado para cada sub-banda. Uma boa escolha é um conjunto onde Vn é proporcional ao número médio de deixas de fala transportadas na região de frequência correspondente; isto é, bandas nos extremos do espectro de frequência são designadas com limiares mais baixos que bandas correspondendo às frequências de fala dominantes. Esta implementação da invenção oferece uma troca compensatória muito boa entre complexidade computacional e desempenho.
[00039] A figura 4B mostra uma outra variação. Por exemplo, para reduzir a carga computacional, um sinal sonoro envolvente típico com cinco canais (C, L, R, ls e rs) pode ser aprimorado ao processar os sinais L e R de acordo com o circuito 325 mostrado na figura 3, e os sinais ls e rs, os quais tipicamente são menos potentes que os sinais L e R, de acordo com o circuito 125 mostrado na figura 1.
[00040] Na descrição anterior, os termos e expressões "fala" (ou áudio de fala ou canal de fala ou sinal de fala) e " não fala" (ou áudio de não fala ou canal de não fala ou sinal de não fala) são usados. Os versados na técnica reconhecerão que estes termos e expressões são usados mais para diferenciar uns dos outros e menos para serem descritores absolutos do conteúdo dos canais. Por exemplo, em uma cena de restaurante em um filme, o canal de fala pode conter predominantemente o diálogo em uma mesa e os canais de não fala podem conter o diálogo em outras mesas (consequentemente, ambos contêm "fala" tal como um leigo usa o termo). Também é o diálogo em outras mesas que certas modalidades da presente invenção são direcionadas para atenuar.
[00041] A invenção pode ser implementada em hardware ou software, ou em uma combinação de ambos (por exemplo, matrizes lógicas programáveis). A não ser que especificado de outro modo, os algoritmos incluídos como parte da invenção não estão relacionados inerentemente a qualquer computador ou outro aparelho particular. Em particular, várias máquinas de uso geral podem ser usadas com programas gravados de acordo com os preceitos neste documento, ou pode ser mais conveniente construir aparelho mais especializado (por exemplo, circuitos integrados) para executar as etapas de método exigidas. Assim, a invenção pode ser implementada em um ou mais programas de computador executando em um ou mais sistemas de computador programável, cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindo memória volátil e não volátil e/ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada e pelo menos um dispositivo ou porta de saída. Código de programa é aplicado para introduzir dados para executar as funções descritas neste documento e gerar informação de saída. A informação de saída é aplicada a um ou mais dispositivos de saída, em modo conhecido.
[00042] Cada tal programa pode ser implementado em qualquer linguagem de computador desejada (incluindo linguagens de máquina, montagem, ou de alto nível processual, lógica, ou de programação orientada a objeto) para se comunicar com um sistema de computador. Em qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
[00043] Cada tal programa de computador preferivelmente é armazenado ou transferido para uma mídia ou dispositivo de armazenamento (por exemplo, memória ou mídia de estado sólido, ou mídia magnética ou ótica) legível por um computador programável de uso geral ou especial, para configurar e operar o computador quando a mídia ou dispositivo de armazenamento é lido pelo sistema de computador para executar os procedimentos descritos neste documento. O sistema inventivo também pode ser considerado para ser implementado como uma mídia de armazenamento legível por computador, configurada com um programa de computador, onde a mídia de armazenamento assim configurada induz um sistema de computador para operar em um modo específico e predefinido para executar as funções descritas neste documento.
[00044] A descrição anterior ilustra várias modalidades da presente invenção juntamente com exemplos de como aspectos da presente invenção podem ser implementados. Os exemplos e modalidades anteriores não devem ser supostos como sendo as únicas modalidades, e são apresentados para ilustrar a flexibilidade e vantagens da presente invenção tal como definida pelas reivindicações a seguir. Com base na descrição anterior e nas reivindicações a seguir, outros arranjos, modalidades, implementações e equivalências estarão evidentes para os versados na técnica e poderão ser empregados sem divergir do espírito e escopo da invenção tal como definido pelas reivindicações.
Claims (10)
1. Método de aperfeiçoar a audibilidade de fala em um sinal de áudio de múltiplos canais caracterizado pelo fato de que compreende as etapas de:comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que um primeiro canal (101) do sinal de áudio de múltiplos canais contêm áudio de fala e áudio de não fala, em que a primeira característica corresponde a um primeiro espectro de potência de um sinal no primeiro canal (101), em que um segundo canal (102) do sinal de áudio de múltiplos canais contêm predominantemente áudio de não fala, e em que a segunda característica corresponde a um segundo espectro de potência de um sinal no segundo canal, em que a etapa de comparar a primeira característica com a segunda característica compreende as etapas de:realizar predição de inteligibilidade com base no primeiro espectro de potência e no segundo espectro de potência para gerar uma inteligibilidade predita;ajustar um ganho aplicado ao segundo espectro de potência até que a inteligibilidade predita satisfaça um critério; eutilizar o ganho, tendo sido ajustado, como o fator de atenuação, uma vez que a inteligibilidade predita satisfaça o critério;e em que o método ainda compreende:ajustar o fator de atenuação conforme um valor de verossimilhança de fala (113) gerado pelo processamento do primeiro canal (101), para gerar um fator de atenuação ajustado; eatenuar o segundo canal usando o fator de atenuação ajustado.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda compreende a etapa de processar o sinal de áudio de múltiplos canais para gerar a primeira característica e a segunda característica.
3. Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o sinal de áudio de múltiplos canais compreende uma pluralidade de segundos canais (102, 103) quecontêm predominantemente áudio de não fala, em que uma pluralidade de segundas características corresponde a uma pluralidade correspondente de segundos espectros de potência de uma pluralidade correspondente de sinais na pluralidade correspondente de segundos canais (102, 103), o método aindacompreende as etapas de:comparar a primeira característica com cada pluralidade de segundas características para gerar a pluralidade correspondente de fatores de atenuação;ajustar a pluralidade de fatores de atenuação conforme o valor de verossimilhança de fala (113) para gerar a pluralidade de fatores de atenuação ajustados; eatenuar a pluralidade de segundos canais usando a pluralidade de fatores de atenuação ajustados.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que o sinal de áudio de múltiplos canais inclui um terceiro canal (103) que contém predominantemente áudio de não fala, compreendendo ainda:comparar a primeira característica e uma terceira característica para gerar um fator de atenuação adicional, em que a terceira característica corresponde ao espectro de potência de um sinal no terceiro canal;ajustar o fator de atenuação adicional conforme o valor de verossimilhança de fala (113) para gerar um fator de atenuação adicional ajustado; e atenuar o terceiro canal (103) usando o fator de atenuação ajustado.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o segundo espectro de potência tem uma pluralidade de bandas, em que a etapa de comparar a primeira característica e a segunda característica ainda compreende a etapa de executar cálculo de sonoridade com base no segundo espectro de potência para gerar uma sonoridade calculada; em que a etapa de ajustar um ganho ainda compreende a etapa de ajustar uma pluralidade de ganhos aplicados, respectivamente, a cada banda do segundo espectro de potência até que a inteligibilidade predita satisfaça um critério de inteligibilidade e a sonoridade calculada satisfaça um critério de sonoridade; e em que a etapa de usar o ganho compreende a etapa de usar a pluralidade de ganhos, tendo sido ajustados, como o fator de atenuação para cada banda, respectivamente, uma vez que a inteligibilidade predita satisfaça o critério de inteligibilidade e a sonoridade calculada satisfaça o critério de sonoridade.
6. Aparelho (225) incluindo um circuito para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais, caracterizado pelo fato de que compreende:um circuito de comparação (204) que é configurado para comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que um primeiro canal (101) do sinal de áudio de múltiplos canais contém áudio de fala e áudio de não fala, em que a primeira característica corresponde a um primeiro espectro de potência de um sinal no primeiro canal (101), em que um segundo canal (102) do sinal de áudio de múltiplos canais contém predominantemente o áudio de não fala, e em que a segunda característica corresponde a um segundo espectro de potência de um sinal no segundo canal (102), em que o circuito de comparação (204) compreende:um circuito de predição de inteligibilidade (206) que é configurado para executar predição de inteligibilidade com base no primeiro espectro de potência e no segundo espectro de potência para gerar uma inteligibilidade predita;um circuito de ajuste de ganho (208, 210) que é configurado para ajustar um ganho aplicado ao segundo espectro de potência até que a inteligibilidade predita satisfaça um critério; eum circuito de seleção de ganho (212) que é configurado para selecionar o ganho, tendo sido ajustado, como o fator de atenuação uma vez que a inteligibilidade predita satisfaça o critério;em que o aparelho (225) ainda compreende:um multiplicador (115) que é configurado para ajustar o fator de atenuação conforme um valor de verossimilhança de fala (113) gerado pelo processamento do primeiro canal (101), para gerar um fator de atenuação ajustado; eum amplificador (117) que é configurado para atenuar o segundo canal (102) usando o fator de atenuação ajustado.
7. Aparelho, de acordo com a reivindicação 6, caracterizado pelo fato de que o segundo espectro de potência tem uma pluralidade de bandas, em que o circuito de comparação (204) ainda compreende:um circuito de cálculo de sonoridade (311) que é configurado para executar cálculo de sonoridade com base no segundo espectro de potência para gerar uma sonoridade calculada; eum circuito de otimização (307) que é configurado para ajustar uma pluralidade de ganhos aplicados, respectivamente, a cada banda do segundo espectro de potência até que a inteligibilidade predita satisfaça um critério de inteligibilidade e a sonoridade calculada satisfaça um critério de sonoridade, e que usa a pluralidade de ganhos, tendo sido ajustados, como o fator de atenuação para cada banda, respectivamente, uma vez que a inteligibilidade predita satisfaça o critério de inteligibilidade e a sonoridade calculada satisfaça o critério de sonoridade.
8. Aparelho, de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que ainda compreende:um primeiro calculador de densidade espectral de potência que é configurado para calcular o primeiro espectro de potência do primeiro canal (101); eum segundo calculador de densidade espectral de potência que é configurado para calcular o segundo espectro de potência do segundo canal (102).
9. Aparelho, de acordo com qualquer uma dasreivindicações 6 a 8, caracterizado pelo fato de que aindacompreende um processador de determinação de fala (130) que é configurado para processar o primeiro canal (101) para gerar o valor de verossimilhança de fala (113).
10. Mídia de gravação tangível tendo um método de aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais caracterizada pelo fato de que compreende:comparar uma primeira característica e uma segunda característica do sinal de áudio de múltiplos canais para gerar um fator de atenuação, em que um primeiro canal (101) do sinal de áudio de múltiplos canais contêm áudio de fala e áudio de não fala, em que a primeira característica corresponde a um primeiro espectro de potência de um sinal no primeiro canal (101), em que um segundo canal (102) do sinal de áudio de múltiplos canais contêm predominantemente o áudio de não fala, e em que a segunda característica corresponde a um segundo espectro de potência de um sinal no segundo canal (102), em que a comparação inclui: realizar predição de inteligibilidade com base no primeiro espectro de potência e no segundo espectro de potência para gerar uma inteligibilidade predita;ajustar um ganho aplicado ao segundo espectro de potência até que a inteligibilidade predita satisfaça um critério; eutilizar o ganho, tendo sido ajustado, como o fator de atenuação, uma vez que a inteligibilidade predita satisfaça o critério;em que o processamento ainda compreende:ajustar o fator de atenuação conforme um valor de verossimilhança de fala (113) gerado pelo processamento do primeiro canal (101), para gerar um fator de atenuação ajustado; eatenuar o segundo canal usando o fator de atenuação ajustado.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US4627108P | 2008-04-18 | 2008-04-18 | |
US61/046,271 | 2008-04-18 | ||
PCT/US2009/040900 WO2010011377A2 (en) | 2008-04-18 | 2009-04-17 | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
BRPI0911456-4A BRPI0911456B1 (pt) | 2008-04-18 | 2009-04-17 | Método e aparelho para melhorar a audibilidade da fala em um sinal de áudio multicanal |
Publications (2)
Publication Number | Publication Date |
---|---|
BRPI0923669A2 BRPI0923669A2 (pt) | 2013-07-30 |
BRPI0923669B1 true BRPI0923669B1 (pt) | 2021-05-11 |
Family
ID=41509059
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0923669-4A BRPI0923669B1 (pt) | 2008-04-18 | 2009-04-17 | método, aparelho e programa de computador para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais |
BRPI0911456-4A BRPI0911456B1 (pt) | 2008-04-18 | 2009-04-17 | Método e aparelho para melhorar a audibilidade da fala em um sinal de áudio multicanal |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0911456-4A BRPI0911456B1 (pt) | 2008-04-18 | 2009-04-17 | Método e aparelho para melhorar a audibilidade da fala em um sinal de áudio multicanal |
Country Status (16)
Country | Link |
---|---|
US (1) | US8577676B2 (pt) |
EP (2) | EP2279509B1 (pt) |
JP (2) | JP5341983B2 (pt) |
KR (2) | KR101238731B1 (pt) |
CN (2) | CN102007535B (pt) |
AU (2) | AU2009274456B2 (pt) |
BR (2) | BRPI0923669B1 (pt) |
CA (2) | CA2720636C (pt) |
HK (2) | HK1153304A1 (pt) |
IL (2) | IL208436A (pt) |
MX (1) | MX2010011305A (pt) |
MY (2) | MY179314A (pt) |
RU (2) | RU2467406C2 (pt) |
SG (1) | SG189747A1 (pt) |
UA (2) | UA101974C2 (pt) |
WO (1) | WO2010011377A2 (pt) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11431312B2 (en) | 2004-08-10 | 2022-08-30 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US10158337B2 (en) | 2004-08-10 | 2018-12-18 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US10848118B2 (en) | 2004-08-10 | 2020-11-24 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US8284955B2 (en) | 2006-02-07 | 2012-10-09 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US11202161B2 (en) | 2006-02-07 | 2021-12-14 | Bongiovi Acoustics Llc | System, method, and apparatus for generating and digitally processing a head related audio transfer function |
US10848867B2 (en) | 2006-02-07 | 2020-11-24 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US10701505B2 (en) | 2006-02-07 | 2020-06-30 | Bongiovi Acoustics Llc. | System, method, and apparatus for generating and digitally processing a head related audio transfer function |
US10069471B2 (en) * | 2006-02-07 | 2018-09-04 | Bongiovi Acoustics Llc | System and method for digital signal processing |
PL2232700T3 (pl) | 2007-12-21 | 2015-01-30 | Dts Llc | System regulacji odczuwanej głośności sygnałów audio |
SG189747A1 (en) * | 2008-04-18 | 2013-05-31 | Dolby Lab Licensing Corp | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8774417B1 (en) * | 2009-10-05 | 2014-07-08 | Xfrm Incorporated | Surround audio compatibility assessment |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
TWI459828B (zh) | 2010-03-08 | 2014-11-01 | Dolby Lab Licensing Corp | 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統 |
SG188470A1 (en) * | 2010-09-22 | 2013-04-30 | Dolby Lab Licensing Corp | Audio stream mixing with dialog level normalization |
JP2013114242A (ja) * | 2011-12-01 | 2013-06-10 | Yamaha Corp | 音響処理装置 |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
US9135920B2 (en) * | 2012-11-26 | 2015-09-15 | Harman International Industries, Incorporated | System for perceived enhancement and restoration of compressed audio signals |
US9363603B1 (en) * | 2013-02-26 | 2016-06-07 | Xfrm Incorporated | Surround audio dialog balance assessment |
CN108365827B (zh) | 2013-04-29 | 2021-10-26 | 杜比实验室特许公司 | 具有动态阈值的频带压缩 |
US9883318B2 (en) | 2013-06-12 | 2018-01-30 | Bongiovi Acoustics Llc | System and method for stereo field enhancement in two-channel audio systems |
RU2639952C2 (ru) * | 2013-08-28 | 2017-12-25 | Долби Лабораторис Лайсэнзин Корпорейшн | Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием |
US9906858B2 (en) | 2013-10-22 | 2018-02-27 | Bongiovi Acoustics Llc | System and method for digital signal processing |
US10639000B2 (en) | 2014-04-16 | 2020-05-05 | Bongiovi Acoustics Llc | Device for wide-band auscultation |
US10820883B2 (en) | 2014-04-16 | 2020-11-03 | Bongiovi Acoustics Llc | Noise reduction assembly for auscultation of a body |
KR101559364B1 (ko) * | 2014-04-17 | 2015-10-12 | 한국과학기술원 | 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션 |
CN105336341A (zh) | 2014-05-26 | 2016-02-17 | 杜比实验室特许公司 | 增强音频信号中的语音内容的可理解性 |
US10362422B2 (en) * | 2014-08-01 | 2019-07-23 | Steven Jay Borne | Audio device |
WO2016038876A1 (ja) * | 2014-09-08 | 2016-03-17 | 日本放送協会 | 符号化装置、復号化装置及び音声信号処理装置 |
EP3201916B1 (en) * | 2014-10-01 | 2018-12-05 | Dolby International AB | Audio encoder and decoder |
PL3201918T3 (pl) | 2014-10-02 | 2019-04-30 | Dolby Int Ab | Sposób dekodowania i dekoder do wzmacniania dialogu |
US9792952B1 (en) * | 2014-10-31 | 2017-10-17 | Kill the Cann, LLC | Automated television program editing |
CA2959090C (en) | 2014-12-12 | 2020-02-11 | Huawei Technologies Co., Ltd. | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal |
US10251016B2 (en) | 2015-10-28 | 2019-04-02 | Dts, Inc. | Dialog audio signal balancing in an object-based audio program |
US9621994B1 (en) | 2015-11-16 | 2017-04-11 | Bongiovi Acoustics Llc | Surface acoustic transducer |
EP3203472A1 (en) * | 2016-02-08 | 2017-08-09 | Oticon A/s | A monaural speech intelligibility predictor unit |
RU2620569C1 (ru) * | 2016-05-17 | 2017-05-26 | Николай Александрович Иванов | Способ измерения разборчивости речи |
EP3457402B1 (en) * | 2016-06-24 | 2021-09-15 | Samsung Electronics Co., Ltd. | Noise-adaptive voice signal processing method and terminal device employing said method |
CN112236812A (zh) | 2018-04-11 | 2021-01-15 | 邦吉欧维声学有限公司 | 音频增强听力保护系统 |
WO2020028833A1 (en) | 2018-08-02 | 2020-02-06 | Bongiovi Acoustics Llc | System, method, and apparatus for generating and digitally processing a head related audio transfer function |
US11335357B2 (en) * | 2018-08-14 | 2022-05-17 | Bose Corporation | Playback enhancement in audio systems |
MX2021012309A (es) | 2019-04-15 | 2021-11-12 | Dolby Int Ab | Mejora de dialogo en codec de audio. |
CN115699172A (zh) * | 2020-05-29 | 2023-02-03 | 弗劳恩霍夫应用研究促进协会 | 用于处理初始音频信号的方法和装置 |
US20220270626A1 (en) * | 2021-02-22 | 2022-08-25 | Tencent America LLC | Method and apparatus in audio processing |
CN115881146A (zh) * | 2021-08-05 | 2023-03-31 | 哈曼国际工业有限公司 | 用于动态语音增强的方法及系统 |
US20230080683A1 (en) * | 2021-09-08 | 2023-03-16 | Minus Works LLC | Readily biodegradable refrigerant gel for cold packs |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5046097A (en) * | 1988-09-02 | 1991-09-03 | Qsound Ltd. | Sound imaging process |
US5105462A (en) * | 1989-08-28 | 1992-04-14 | Qsound Ltd. | Sound imaging method and apparatus |
US5208860A (en) * | 1988-09-02 | 1993-05-04 | Qsound Ltd. | Sound imaging method and apparatus |
US5212733A (en) * | 1990-02-28 | 1993-05-18 | Voyager Sound, Inc. | Sound mixing device |
JP2737491B2 (ja) * | 1991-12-04 | 1998-04-08 | 松下電器産業株式会社 | 音楽音声処理装置 |
JP2961952B2 (ja) * | 1991-06-06 | 1999-10-12 | 松下電器産業株式会社 | 音楽音声判別装置 |
DE69214882T2 (de) * | 1991-06-06 | 1997-03-20 | Matsushita Electric Ind Co Ltd | Gerät zur Unterscheidung von Musik und Sprache |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
US5485522A (en) | 1993-09-29 | 1996-01-16 | Ericsson Ge Mobile Communications, Inc. | System for adaptively reducing noise in speech signals |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
JP3560087B2 (ja) * | 1995-09-13 | 2004-09-02 | 株式会社デノン | 音信号処理装置およびサラウンド再生方法 |
CA2231107A1 (en) * | 1995-09-14 | 1997-03-20 | Ericsson, Inc. | System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
WO1999012386A1 (en) | 1997-09-05 | 1999-03-11 | Lexicon | 5-2-5 matrix encoder and decoder system |
US6311155B1 (en) * | 2000-02-04 | 2001-10-30 | Hearing Enhancement Company Llc | Use of voice-to-remaining audio (VRA) in consumer applications |
US7260231B1 (en) * | 1999-05-26 | 2007-08-21 | Donald Scott Wedge | Multi-channel audio panel |
US6442278B1 (en) * | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
EP1254513A4 (en) * | 1999-11-29 | 2009-11-04 | Syfx | SYSTEMS AND METHODS FOR SIGNAL PROCESSING |
US7277767B2 (en) * | 1999-12-10 | 2007-10-02 | Srs Labs, Inc. | System and method for enhanced streaming audio |
JP2001245237A (ja) * | 2000-02-28 | 2001-09-07 | Victor Co Of Japan Ltd | 放送受信装置 |
US7266501B2 (en) * | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US6351733B1 (en) | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US7076071B2 (en) * | 2000-06-12 | 2006-07-11 | Robert A. Katz | Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
EP2066139A3 (en) * | 2000-09-25 | 2010-06-23 | Widex A/S | A hearing aid |
AU2002248431B2 (en) * | 2001-04-13 | 2008-11-13 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
JP2002335490A (ja) * | 2001-05-09 | 2002-11-22 | Alpine Electronics Inc | Dvd再生装置 |
CA2354755A1 (en) * | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
EP1430749A2 (en) * | 2001-09-06 | 2004-06-23 | Koninklijke Philips Electronics N.V. | Audio reproducing device |
JP2003084790A (ja) | 2001-09-17 | 2003-03-19 | Matsushita Electric Ind Co Ltd | 台詞成分強調装置 |
TW569551B (en) | 2001-09-25 | 2004-01-01 | Roger Wallace Dressler | Method and apparatus for multichannel logic matrix decoding |
GR1004186B (el) * | 2002-05-21 | 2003-03-12 | Διαχυτης ευρεως φασματος ηχου με ελεγχομενη απορροφηση χαμηλων συχνοτητων και η μεθοδος εγκαταστασης του | |
RU2206960C1 (ru) * | 2002-06-24 | 2003-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ подавления шума в информационном сигнале и устройство для его осуществления |
US7308403B2 (en) * | 2002-07-01 | 2007-12-11 | Lucent Technologies Inc. | Compensation for utterance dependent articulation for speech quality assessment |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
US7551745B2 (en) * | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
US7251337B2 (en) * | 2003-04-24 | 2007-07-31 | Dolby Laboratories Licensing Corporation | Volume control in movie theaters |
MXPA05012785A (es) * | 2003-05-28 | 2006-02-22 | Dolby Lab Licensing Corp | Metodo, aparato y programa de computadora para el calculo y ajuste de la sonoridad percibida de una senal de audio. |
US7680289B2 (en) * | 2003-11-04 | 2010-03-16 | Texas Instruments Incorporated | Binaural sound localization using a formant-type cascade of resonators and anti-resonators |
JP4013906B2 (ja) * | 2004-02-16 | 2007-11-28 | ヤマハ株式会社 | 音量制御装置 |
ES2294506T3 (es) * | 2004-05-14 | 2008-04-01 | Loquendo S.P.A. | Reduccion de ruido para el reconocimiento automatico del habla. |
JP2006072130A (ja) | 2004-09-03 | 2006-03-16 | Canon Inc | 情報処理装置及び情報処理方法 |
WO2007120453A1 (en) | 2006-04-04 | 2007-10-25 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8199933B2 (en) * | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
WO2006103581A1 (en) | 2005-03-30 | 2006-10-05 | Koninklijke Philips Electronics N.V. | Scalable multi-channel audio coding |
US7567898B2 (en) | 2005-07-26 | 2009-07-28 | Broadcom Corporation | Regulation of volume of voice in conjunction with background sound |
US7912232B2 (en) * | 2005-09-30 | 2011-03-22 | Aaron Master | Method and apparatus for removing or isolating voice or instruments on stereo recordings |
JP2007142856A (ja) * | 2005-11-18 | 2007-06-07 | Sharp Corp | テレビジョン受信装置 |
JP2007158873A (ja) * | 2005-12-07 | 2007-06-21 | Funai Electric Co Ltd | 音声補正装置 |
JP2007208755A (ja) * | 2006-02-03 | 2007-08-16 | Oki Electric Ind Co Ltd | 3次元音声信号出力方法及びその装置並びに3次元音声信号出力プログラム |
WO2007127023A1 (en) * | 2006-04-27 | 2007-11-08 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
MX2009002779A (es) * | 2006-09-14 | 2009-03-30 | Lg Electronics Inc | Tecnicas para aumentar el dialogo. |
US8194889B2 (en) * | 2007-01-03 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Hybrid digital/analog loudness-compensating volume control |
WO2008106036A2 (en) * | 2007-02-26 | 2008-09-04 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
SG189747A1 (en) * | 2008-04-18 | 2013-05-31 | Dolby Lab Licensing Corp | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
EP2337020A1 (en) * | 2009-12-18 | 2011-06-22 | Nxp B.V. | A device for and a method of processing an acoustic signal |
-
2009
- 2009-04-17 SG SG2013025390A patent/SG189747A1/en unknown
- 2009-04-17 CN CN2009801131360A patent/CN102007535B/zh active Active
- 2009-04-17 BR BRPI0923669-4A patent/BRPI0923669B1/pt active IP Right Grant
- 2009-04-17 UA UAA201013673A patent/UA101974C2/ru unknown
- 2009-04-17 MX MX2010011305A patent/MX2010011305A/es active IP Right Grant
- 2009-04-17 CA CA2720636A patent/CA2720636C/en active Active
- 2009-04-17 BR BRPI0911456-4A patent/BRPI0911456B1/pt active IP Right Grant
- 2009-04-17 KR KR1020117007859A patent/KR101238731B1/ko active IP Right Grant
- 2009-04-17 UA UAA201014753A patent/UA104424C2/uk unknown
- 2009-04-17 AU AU2009274456A patent/AU2009274456B2/en active Active
- 2009-04-17 JP JP2011505219A patent/JP5341983B2/ja active Active
- 2009-04-17 CA CA2745842A patent/CA2745842C/en active Active
- 2009-04-17 MY MYPI2011005510A patent/MY179314A/en unknown
- 2009-04-17 MY MYPI2010004901A patent/MY159890A/en unknown
- 2009-04-17 WO PCT/US2009/040900 patent/WO2010011377A2/en active Application Filing
- 2009-04-17 EP EP09752917A patent/EP2279509B1/en active Active
- 2009-04-17 US US12/988,118 patent/US8577676B2/en active Active
- 2009-04-17 RU RU2010146924/08A patent/RU2467406C2/ru active
- 2009-04-17 EP EP10194593.9A patent/EP2373067B1/en active Active
- 2009-04-17 CN CN201010587796.7A patent/CN102137326B/zh active Active
- 2009-04-17 KR KR1020107025827A patent/KR101227876B1/ko active IP Right Grant
- 2009-04-17 RU RU2010150367/08A patent/RU2541183C2/ru active
-
2010
- 2010-10-03 IL IL208436A patent/IL208436A/en active IP Right Grant
- 2010-11-03 IL IL209095A patent/IL209095A/en active IP Right Grant
- 2010-11-12 AU AU2010241387A patent/AU2010241387B2/en active Active
-
2011
- 2011-03-10 JP JP2011052503A patent/JP5259759B2/ja active Active
- 2011-07-13 HK HK11107258.9A patent/HK1153304A1/xx unknown
-
2012
- 2012-03-06 HK HK12102265.0A patent/HK1161795A1/xx unknown
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0923669B1 (pt) | método, aparelho e programa de computador para aperfeiçoar audibilidade de fala em um sinal de áudio de múltiplos canais | |
US9881635B2 (en) | Method and system for scaling ducking of speech-relevant channels in multi-channel audio | |
JP7001588B2 (ja) | オブジェクトベースのオーディオ信号バランシング法 | |
US9509267B2 (en) | Method and an apparatus for automatic volume leveling of audio signals | |
KR102617476B1 (ko) | 분리 음원을 합성하는 장치 및 방법 | |
US20190342689A1 (en) | Dynamics Processing Effect Architecture | |
US20220076687A1 (en) | Electronic device, method and computer program | |
JP2024536082A (ja) | オーディオソース分離 | |
US9653065B2 (en) | Audio processing device, method, and program | |
BR112016016373B1 (pt) | Dispositivo de decodificação, método de decodificação e meio de armazenamento não transitório |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B03A | Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette] | ||
B15K | Others concerning applications: alteration of classification |
Ipc: H04S 3/00 (2006.01), H04R 5/04 (2006.01), G10L 21/ |
|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 11/05/2021, OBSERVADAS AS CONDICOES LEGAIS. |