BR122019024041B1 - Método para filtrar um sinal multicanal de áudio e meio legível em computador - Google Patents
Método para filtrar um sinal multicanal de áudio e meio legível em computador Download PDFInfo
- Publication number
- BR122019024041B1 BR122019024041B1 BR122019024041-8A BR122019024041A BR122019024041B1 BR 122019024041 B1 BR122019024041 B1 BR 122019024041B1 BR 122019024041 A BR122019024041 A BR 122019024041A BR 122019024041 B1 BR122019024041 B1 BR 122019024041B1
- Authority
- BR
- Brazil
- Prior art keywords
- speech
- channel
- speechless
- signal
- attenuation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000001914 filtration Methods 0.000 title abstract description 16
- 230000004044 response Effects 0.000 claims abstract description 84
- 230000005236 sound signal Effects 0.000 claims abstract description 78
- 238000011524 similarity measure Methods 0.000 claims abstract description 4
- 230000006872 improvement Effects 0.000 claims description 35
- 230000002787 reinforcement Effects 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000002238 attenuated effect Effects 0.000 abstract description 6
- 230000003321 amplification Effects 0.000 description 62
- 238000003199 nucleic acid amplification method Methods 0.000 description 62
- 238000006467 substitution reaction Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000003014 reinforcing effect Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010370 hearing loss Effects 0.000 description 2
- 231100000888 hearing loss Toxicity 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 206010036626 Presbyacusis Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000010372 presbyacusis Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/09—Electronic reduction of distortion of stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
a presente invenção refere-se a um método e sistema para filtragem um sinal multicanal de áudio tendo um canal de fala e pelo menos um canal sem fala, para melhorar a inteligibilidade de fala determinada pelo sinal. em modalidades típicas, o método inclui etapas de determinação de pelo menos um valor de controle de atenuação indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada pelo canal sem fala, e atenuando o canal sem fala em resposta a pelo menos um valor de controle de atenuação. tipicamente, a etapa atenuada inclui dimensionar um sinal de controle de atenuação bruto (por exemplo, um sinal de controle de ganho de ampliação) para o canal sem fala em resposta a pelo menos um valor de controle de atenuação. algumas modalidades são um processador programado de finalidade geral ou espacial com software ou firmware e/ou de outra maneira configurado para realizar a filtragem de acordo a invenção.
Description
[001] Esta aplicação reivindica prioridade para Pedido Provisional de Patente dos Estados Unidos No. 61/311, 437, depositado em 8 de março de 2010, por meio deste incorporada por referência em sua totalidade.
[002] A presente invenção refere-se a sistemas e métodos para melhorar a inteligibilidade da fala humana (por exemplo, diálogo) determinada por um sinal multicanal de áudio. Em algumas modalidades, a invenção é um método e sistema para filtragem de um sinal de áudio tendo um canal de fala e um canal sem fala para melhorar a inteligibilidade de fala determinada pelo sinal, determinando pelo menos um valor de controle de atenuação indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada pelo canal sem fala, e ate-nuando o canal sem fala em resposta ao valor de controle de atenuação.
[003] Durante toda esta descrição incluindo nas reivindicações, o termo 'fala' é usado em um sentido amplo para denotar fala humana. Assim, 'fala' determinada por um sinal de áudio é conteúdo de áudio do sinal que está percebido como fala humana (por exemplo, diálogo, monólogo, cantando, ou outra fala humana) sobre reprodução do sinal por um autofalante (ou outro transdutor que emite som). De acordo com modalidades típicas da invenção, a audibilidade de fala determinada por um sinal de áudio é relativamente melhorado para outro conteúdo de áudio (por exemplo, música instrumental ou efeitos de som sem fala) determinado pelo sinal, desse modo melhorando a inteligibilidade (por exemplo, clareza ou facilidade de compreensão) da fala.
[004] Durante toda esta descrição incluída nas reivindicações, a expressão "conteúdo de reforço da fala" de um canal de um sinal multicanal de áudio é o conteúdo (determinada pelo canal) que reforça a inteligibilidade ou outra qualidade percebida do conteúdo determinado da fala por outro canal (por exemplo, um canal da fala) do sinal.
[005] Modalidades típicas da invenção assumem que a maioria de fala determinada por uma entrada multicanal de sinal de áudio é determinada pelo canal do centro do sinal. Esta compreensão é consistente com a convenção em produção de som in surround de acordo com que a maioria da fala é geralmente colocada em apenas um canal (o Canal central), e a maioria de música, som ambiente, e efeitos de som é geralmente misturado em todos os canais (por exemplo, Esquerda, Direita, Surround Esquerdo e Surround Direito canais assim como o Canal central).
[006] Assim, o Canal central de um sinal multicanal de áudio será algumas vezes referido aqui como a "fala" canal e todos os outros canais (por exemplo, Esquerda, Direita, Surround Esquerdo, e Surround Direito) canais do sinal serão algumas vezes referidos aqui como "sem fala" canais. Similarmente, um canal "central" gerado pela soma dos canais direito e esquerdo de um sinal estéril cuja fala é deslocada do centro algumas vezes referido aqui como um canal "fala", e um canal "mais tarde" gerado subtraindo um tal canal central a partir do sinal esquerdo estéril (ou direito) canal algumas vezes referido aqui como um canal "sem fala".
[007] Durante toda esta descrição incluindo nas reivindicações, a expressão de execução de uma operação de sinais "ligado" ou dado (por exemplo, filtragem, dimensionamento, ou transformação dos sinais ou dados) é usada em um sentido amplo para denotar a execução da operação diretamente nos sinais ou dados, ou sobre versões processadas dos sinais ou dados (por exemplo, sobre versões dos sinais que foram submetidos à filtragem preliminar anterior ao desempenho da operação nela).
[008] Durante toda esta descrição incluindo nas reivindicações, a expressão "sistema" é usada em um sentido amplo para denotar um dispositivo, sistema, ou subsistema. Por exemplo, um subsistema que implementa um decodificador pode ser referido como um sistema de- codificador, e um sistema incluindo um tal subsistema (por exemplo, um sistema que gera X sinais em resposta de saída para múltiplas entradas, em que o subsistema gera M das entradas e as outras entradas X - M são recebidos a partir de uma fonte externa) pode também referido como um sistema decodificador.
[009] Durante toda a descrição incluída nas reivindicações, a expressão "razão" de um primeiro valor ("A") a um segundo valor ("B") é usado em um sentido amplo para denotar A/B, ou B/A, ou uma razão de uma versão escalada ou compensação de um A e B para uma versão escalada ou compensação de uma outra A e B (por exemplo, (A + x) / (B + y), onde x e y são valores de compensação).
[0010] Durante toda a descrição incluída nas reivindicações, a expressão "reprodução" de sinais através do transdutor que emite sons (por exemplo, alto-falantes) denota fazendo com que os transdutores produzam som em resposta aos sinais, incluindo execução de qualquer amplificação exigida e/ou outros processamento de sinais.
[0011] Quando a fala é ouvida na presença de sons concorrentes (tais como escuta a um amigo sobre o barulho de uma multidão em um restaurante), uma porção das características acústicas em que sinal o conteúdo da fala fonêmica (sinais de fala) são mascarados pelos sons concorrentes e não estão mais disponíveis ao ouvinte para decodificar a mensagem. Como o nível do som aumenta competindo relativo ao nível da fala, o número de sinais de fala que são recebidos corretamente diminui e percepção da fala torna-se progressivamente mais incômodo até, em algum nível de som competindo, o processo de percepção da fala quebrada. Enquanto esta relação é válida para todos os ouvintes, o nível de som competindo que pode ser tolerado para qualquer nível de fala não é o mesmo para todos os ouvintes. Alguns ouvintes, por exemplo, aqueles com perda de audição devido ao enve-lhecimento (presbyacusis) ou aqueles escutando uma linguagem que eles adquiriram após a puberdade, são menos capaz de tolerar sons concorrentes que são ouvintes com boa audição ou aqueles que operam em sua língua nativa.
[0012] O fato que ouvintes diferem em suas capacidades para compreender a fala na presença de sons concorrentes tem implicações para o nível em que sons ambiente e música antecedente em novos ou entretenimento de áudio são misturados com fala. Ouvintes com perda de audição ou aqueles que operam em uma linguagem externa preferem muitas vezes um nível menor em relação de áudio sem fala do que o fornecido pelo criador do conteúdo.
[0013] Para atender a essas necessidades especiais, é conhecido para aplicar atenuação (ampliação) para canais sem fala de um sinal multicanal de áudio, mas menor (ou não) atenuação para o sinal do canal da fala, para melhorar a inteligibilidade da fala determinada pelo sinal.
[0014] Por exemplo, PCT Número de Publicação do Pedido Internacional WO 2010/011377, nomeação Hannes Muesch como inventor e atribuído a Dolby Laboratories Licensing Corporation (publicado em 28 de janeiro de 2010), descreve que canais sem fala (por exemplo, canais direito e esquerdo) de um sinal multicanal de áudio pode mascarar a fala nos sinais de canal de fala (por exemplo, canal central) ao ponto que um nível desejado da inteligibilidade da fala já não é preenchido. WO 2010/011377 descreve a como para determinar uma atenuação da função para ser aplicada através do circuito de ampliação aos canais sem fala em uma tentativa para desmascarar a fala no canal de fala enquanto conserva tanto a intenção possível do criador do conteúdo. A técnica descrita em WO 2010/011377 é com base na compreensão em que o conteúdo em um canal sem fala nunca reforça a inteligibilidade (ou outra qualidade percebida) de conteúdo determinado da fala pelo canal da fala.
[0015] A presente invenção está baseada em parte no reconhecimento de que percebida, enquanto esta compreensão é correta para a imensa maioria do conteúdo de áudio de multicanais, não é sempre válida. O inventor tem reconhecido que quando pelo menos um canal sem fala de um sinal multicanal de áudio não inclui conteúdo que reforça a inteligibilidade (ou outra qualidade percebida) de conteúdo determinado da fala pelo sinal do canal da fala, filtragem do sinal de acordo com o método de WO 2010/011377 pode afetar negativamente a experiência de entretenimento de uma escuta para o sinal filtrado reproduzido. De acordo com modalidades típicas da presente invenção, aplicação do método descrito em WO 2010/011377 é suspensa ou modificada durante vezes quando o conteúdo não esta em conformidade com os pressupostos subjacentes do método de WO 2010/011377.
[0016] Existe uma necessidade para um método e sistema para filtragem de um sinal multicanal de áudio para melhorar fala inteligibilidade no caso comum pelo menos um canal sem fala do sinal de áudio inclui conteúdo que reforça a inteligibilidade do conteúdo da fala no sinal de áudio do canal da fala.
[0017] Em uma primeira classe de modalidades, a invenção é um método para filtragem de um sinal multicanal de áudio tendo um canal de fala e pelo menos um canal sem fala, para melhorar a inteligibilidade de fala determinada pelo sinal. O método inclui etapas de: (a) de-terminação de pelo menos um valor de controle de atenuação indicativo de uma medida de semelhança entre o conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada pelo menos um canal sem fala do sinal multicanal de áudio; e (b) atenuação pelo menos um canal sem fala do sinal multicanal de áudio em resposta a pelo menos um valor de controle de atenuação. Tipicamente, a etapa de atenuação compreende dimensionar um sinal de controle de atenuação bruto (por exemplo, um sinal de controle de ganho de ampliação) para o canal sem fala em resposta a pelo menos um valor de controle de atenuação. Preferivelmente, o canal sem fala é atenuado a fim de melhorar a inteligibilidade de fala determinada pelo canal de fala sem indesejavelmente atenuando conteúdo de reforço da fala determinada pelo canal sem fala. Em algumas modalidades, cada valor de controle de atenuação determinada na etapa (a) é indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada por um canal sem fala do sinal de áudio, e etapa (b) inclui a etapa de atenuando este canal sem fala em resposta ao referido cada valor de controle de atenuação. Em algumas outras modalidades, etapa (a) inclui uma etapa de derivação de um canal derivado de sem fala a partir de pelo menos um canal sem fala do sinal de áudio, e pelo menos um valor de controle de atenuação é indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada pelo canal derivado de sem fala. Por exemplo, o canal derivado de sem fala pode ser gerado pela soma ou de outra maneira misturando ou combinando pelo menos dois canais sem fala do sinal de áudio. Determinação cada valor de controle de atenuação a partir de um único canal derivado de sem fala pode reduzir o custo e complexidade de implementação de algumas modalidades da invenção, relativa ao custo e complexidade de determinação de diferentes subconjuntos de um conjunto de valores de atenuação a partir de diferentes canais sem fala. Nas modalidades em que o sinal de áudio de entrada tem pelo menos dois canais sem fala, etapa (b) pode incluir a etapa de atenuação de um subconjunto dos canais sem fala (por exemplo, cada canal sem fala a partir do qual um canal derivado de sem fala tem sido derivado), ou todos os canais sem fala, em resposta a pelo menos um valor de controle de atenuação (por exemplo, em resposta a uma sequência única de valores de controle de atenuação).
[0018] Em algumas modalidades na primeira classe, etapa (a) inclui uma etapa de geração de um sinal indicativo de controle de atenuação de uma sequência de valores de controle de atenuação, cada dos valores indicativos de controle de atenuação de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada através de pelo menos um canal sem fala em um tempo diferente (por exemplo, em um intervalo de tempo diferente), e etapa (b) inclui etapas de: dimensionar um sinal de controle de ganho de ampliação em resposta ao sinal de controle de atenuação para gerar um sinal de controle de ganho escalado, e aplicação do sinal de controle de ganho escalado para atenuar a pelo menos um canal sem fala (por exemplo, afirmar o sinal de controle de ganho escalado para circuito de ampliação para controlar a atenuação de pelo menos um canal sem fala pelo circuito de ampliação). Por exemplo, em algumas tais modalidades, etapa (a) inclui uma etapa de comparação a uma primeira fala relacionada de sequência característica (indicativo do conteúdo da fala relacionada de-terminada pelo canal da fala) a uma segunda sequência de características da fala relacionada indicativa (indicativo do conteúdo da fala relacionada determinada através de pelo menos um canal sem fala) para gerar o sinal de controle de atenuação, e cada dos valores de controle de atenuação indicado pelo sinal de controle de atenuação é indicativo de uma medida de semelhança entre a primeira sequência de características da fala relacionada indicativa e a segunda sequência de características da fala relacionada indicativa em um tempo diferente (por exemplo, em um intervalo de tempo diferente). Em algumas modalidades, cada valor de controle de atenuação é um valor de controle de ganho.
[0019] Em algumas modalidades na primeira classe, cada valor de controle de atenuação é monótona relacionada à probabilidade de que pelo menos um canal sem fala do sinal de áudio é indicativo de conteúdo de reforço da fala em que reforça a inteligibilidade (ou outra qualidade percebida) de conteúdo determinado da fala pelo canal da fala. Em algumas outras modalidades na primeira classe, cada valor de controle de atenuação é monótono relacionado para um valor reforçado da fala esperada de pelo menos um canal sem fala (por exemplo, uma medida de probabilidade em que pelo menos um canal sem fala é indicativo de conteúdo de reforço da fala, multiplicado por uma medida de qualidade percebida de aperfeiçoamento em que o conteúdo de reforço da fala determinada através de pelo menos um canal sem fala seria fornecido para conteúdo determinado da fala pelo sinal de multi- canal). Por exemplo, onde etapa (a) inclui uma etapa de comparação uma primeira sequência de características da fala relacionada indicativa indicativo de conteúdo da fala relacionada determinada pelo canal de fala para uma segunda sequência de características da fala relacionada indicativa indicativo de conteúdo da fala relacionada determinada através de pelo menos um canal sem fala, a primeira sequência de características da fala relacionada indicativa pode ser uma sequência de fala valores de probabilidade, cada indicação da probabilidade em um tempo diferente (por exemplo, em um intervalo de tempo diferente) em que o canal de fala é indicativo de fala (ao invés de conteúdo de áudio outro que fala), e a segunda sequência de características da fala relacionada indicativa pode também ser uma sequência de valores de probabilidade de fala, cada indicação da probabilidade em um tempo diferente (por exemplo, em um intervalo de tempo diferente) em que pelo menos um canal sem fala é indicativo de fala. Diversos métodos de geração automática de tais sequências de valores de probabilidade de fala a partir de um sinal de áudio são conhecidos. Por exemplo, um tal método é descrito por Robinson e Vinton em "Fala Automatizada/ Outra discriminação para Monitoramento Loudness" (Sociedade de Engenharia de Áudio, número Preprint 6437 de Convenção 118, em maio de 2005).
[0020] Alternativamente, considera-se que as sequências de valores de probabilidade de fala poderiam ser criadas manualmente (por exemplo, pelo criador do conteúdo) e transmitido ao lado do sinal multicanal de áudio para o usuário final.
[0021] Em uma segunda classe de modalidades, em que o sinal multicanal de áudio tem um canal de fala e pelo menos dois canais sem fala incluindo um primeiro canal sem fala e um segundo canal sem fala, o método inventivo inclui etapas de: (a) determinação de pelo menos um primeiro valor de controle de atenuação indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e segundo conteúdo da fala relacionada determinada pelo primeiro canal sem fala (por exemplo, incluindo por comparação de uma primeira sequência de características da fala relacionada indicativa indicativo de conteúdo da fala relacionada determinada pelo canal de fala ara uma segunda sequência de características da fala relacionada indicativa indicativo do conteúdo da segunda fala relacionada); e (b) determinação de pelo menos um segundo valor de controle de atenuação indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e terceiro conteúdo da fala relacionada determinada pelo segundo canal sem fala (por exemplo, incluindo comparação de uma terceira sequência de características da fala relacionada indicativa de conteúdo da fala relacionada determinada pelo canal de fala para uma quarta sequência de características da fala relacionada indicativa indicativo do terceiro conteúdo da fala relacionada, onde a terceira sequência de características da fala relacionada indicativa pode ser idêntica à primeira sequência de características da fala relacionada indicativa da etapa (a)). Tipicamente, o método inclui a etapa de atenuação do primeiro canal sem fala (por exemplo, dimensionar atenuação do primeiro canal sem fala) em resposta a pelo menos um primeiro valor de controle de atenuação e atenuando o segundo canal sem fala (por exemplo, dimensionar atenuação do segundo canal sem fala) em resposta a pelo menos um segundo valor de controle de atenuação. Preferivelmente, cada canal sem fala é atenuado a fim de para melhorar a inteli-gibilidade de fala determinada pelo canal sem fala indesejavelmente atenuando conteúdo de reforço da fala determinada ou canal sem fala.
[0022] Em algumas modalidades nas segundas classes: a pelo menos um primeiro valor de controle de atenuação determinada na etapa (a) é uma sequência de valores de controle de atenuação, e cada dos valores de controle de atenuação é um valor de controle de ganho para dimensionar a quantidade de ganho aplicado ao primeiro canal sem fala através do circuito de ampliação a fim de para melhorar a inteligibilidade da fala determinada pelo canal sem fala indesejavelmente atenuando o conteúdo de reforço da fala deter- minada pelo primeiro canal sem fala; e a pelo menos um segundo valor de controle de atenuação determinada na etapa (b) é uma sequência do segundo valores de controle de atenuação, e cada dos segundos valores de controle de atenuação é um valor de controle de ganho para dimensionar a quantidade do ganho aplicado ao segundo canal sem fala através do circuito de ampliação a fim de para melhorar a inteligibilidade da fala determinada pelo canal sem fala indesejavelmente atenuando conteúdo de reforço da fala determinada pelo segundo canal sem fala.
[0023] Em uma terceira classe das modalidades, a invenção é um método para filtragem um sinal multicanal de áudio tendo um canal de fala e pelo menos um canal sem fala, para melhorar a inteligibilidade da fala determinada pelo sinal. O método inclui etapas de: (a) comparação de uma característica do canal de fala e uma característica do canal sem fala para gerar pelo menos um valor de atenuação para controlar o canal de atenuação sem fala relativa ao canal da fala; e (b) ajuste de pelo menos um valor de atenuação em resposta para pelo menos um valor de probabilidade de aperfeiçoamento da fala para gerar pelo menos um valor de atenuação ajustado para controlar o canal de atenuação sem fala relativa ao canal da fala. Tipicamente, a etapa de ajuste é (ou inclui) dimensionar cada valor de atenuação referido em resposta para um referido valor de probabilidade de aperfeiçoa-mento da fala para gerar um referido valor de atenuação ajustado. Tipicamente, cada valor de probabilidade de aperfeiçoamento da fala é indicativo de (por exemplo, monótona relacionada à) uma probabilidade em que o canal sem fala (ou um canal sem fala derivado a partir do canal sem fala ou a partir de um conjunto de canais sem fala do sinal de entrada de áudio) é indicativo de conteúdo de reforço da fala (conteúdo que reforça a inteligibilidade ou outra qualidade percebida de conteúdo determinado da fala pelo canal da fala). Em algumas modali- dades, o valor de probabilidade de aperfeiçoamento da fala é indicativo de um valor reforçado da fala esperada do canal sem fala (por exemplo, uma medida de probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala multiplicado por uma medida da qualidade percebida de aperfeiçoamento em que o conteúdo de reforço da fala determinada pelo canal sem fala seria fornecido para o conteúdo determinado da fala pelo sinal multicanal de áudio). Em algumas modalidades na terceira classe, pelo menos um valor de probabilidade de aperfeiçoamento da fala é uma sequência de comparação valores (por exemplo, valores de diferença) determinada por um método incluindo uma etapa de comparação de uma primeira sequência de características da fala relacionada indicativa de conteúdo da fala relacionada determinada pelo canal de fala para uma segunda sequência de características da fala relacionada indicativa de conteúdo da fala relacionada determinada pelo canal sem fala, e cada dos valores de comparação é uma medida de semelhança entre a primeira sequência de características da fala relacionada indicativa e a segunda sequência de características da fala relacionada indicativa em um tempo diferente (por exemplo, em um intervalo de tempo diferente). In modalidades típicas na terceira classe, o método também inclui a etapa de atenuação o canal sem fala em resposta a pelo menos um valor de atenuação ajustado. Etapa (b) pode compreender dimensionar a pelo menos um valor de atenuação (que tipicamente é, ou é determinada por, um sinal de controle de ganho de ampliação ou outro sinal de controle bruto de atenuação) em resposta a pelo menos um valor de probabilidade de aperfeiçoamento da fala.
[0024] Em algumas modalidades na terceira classe, cada valor de atenuação gerado na etapa (a) é um primeiro fator indicativo de uma quantidade de canal de atenuação sem fala necessário para limitar a razão da potência do sinal no canal sem fala para a potência do sinal no canal de fala para não exceder um limite predeterminado, escalado por um segundo fator monótono relacionada para a probabilidade do canal de fala sendo indicativa de fala. Tipicamente, a etapa de ajuste nestas modalidades é (ou inclui) dimensionar cada referido valor de atenuação por um referido valor de probabilidade de aperfeiçoamento da fala para gerar um referido valor de atenuação ajustado, onde o valor de probabilidade de aperfeiçoamento da fala é um fator monótono relacionado a um de: uma probabilidade que o canal sem fala é indicativo de conteúdo de reforço da fala (conteúdo que reforça a inteligibili-dade ou outra qualidade percebida de conteúdo determinado da fala pelo sinal multicanal), e um valor reforçado da fala esperada do canal sem fala (por exemplo, uma medida de probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala multiplicado através de uma medida da qualidade percebida de aperfeiçoamento em que conteúdo de reforço da fala no canal sem fala seria fornecido para conteúdo determinado da fala pelo sinal multicanal).
[0025] Em algumas modalidades na terceira classe, cada valor de atenuação gerado na etapa (a) é um primeiro fator indicativo de uma quantidade (por exemplo, a quantidade mínima) de canal de atenuação sem fala suficiente para fazer com que inteligibilidade prevista da fala determinada pelo canal de fala na presença de conteúdo determinada pelo canal sem fala para exceder um valor limite predeterminado, escalado por um segundo fator monótono relacionado à probabilidade do canal de fala sendo indicativo da fala. Preferivelmente, a inteligibilidade prevista da fala determinada pelo canal de fala na presença de conteúdo determinada pelo canal sem fala é determinada de acordo com um modelo previsto de inteligibilidade com base psico-acústica. Tipicamente, a etapa de ajuste nestas modalidades é (ou inclui) dimensionar cada referido valor de atenuação por um referido valor de probabilidade de aperfeiçoamento da fala para gerar um referido valor de atenuação ajustado, onde o valor de probabilidade de aperfeiçoamento da fala é um fator monótono relacionado para um de: uma probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala, e um valor reforçado da fala esperada do canal sem fala.
[0026] Em algumas modalidades na terceira classe, etapa (a) inclui as etapas de geração cada referido valor de atenuação incluindo determinando um espectro de potência (indicativo de potência como uma função de frequência) de cada do canal de fala e o canal sem fala, e execução uma determinação de domínio de frequência do valor de atenuação em resposta a cada referido espectro de potência. Preferivelmente, os valores de atenuação gerada e dessa maneira determinar atenuação como uma função de frequência para ser aplicada a frequência de componentes do canal sem fala.
[0027] Em uma classe das modalidades, a invenção é um método e sistema para melhorar a fala determinada por um sinal de entrada de áudio de multicanais. Em algumas modalidades, o sistema inventivo inclui um módulo de análise (subsistema) configurado para analisar a entrada de sinal multicanal para gerar valores de controle de atenuação, e um subsistema de atenuação. O subsistema de atenuação é configurado para aplicar ampliação de atenuação, dirigido pelo menos alguns dos valores de controle de atenuação, para cada canal sem fala do sinal de entrada para gerar um sinal de saída de áudio filtrado. Em algumas modalidades, o subsistema de atenuação inclui circuito de ampliação (dirigido pelo menos alguns dos valores de controle de atenuação) acoplada e configurado para aplicar atenuação (ampliação) para cada canal sem fala do sinal de entrada para gerar o sinal de saída de áudio filtrado. O circuito de ampliação é valores de controle dirigido no sentido de que a atenuação que se aplica aos canais sem fala é determinada através de valores correntes dos valores de controle.
[0028] Em modalidades típicas, o sistema inventivo é ou inclui um processador programado de finalidade geral ou espacial com software (ou firmware) e/ou de outra maneira configurado para realizar uma modalidade do método inventivo. Em algumas modalidades, o sistema inventivo é um processador de finalidade geral, acoplada para receber entrada dados indicativos do sinal de entrada de áudio e programado (com software adequado) para gerar dados de saída indicativos do sinal de saída de áudio em resposta aos dados de entrada através da execução de uma modalidade do método inventivo. Em outras modali-dades, o sistema inventivo é implementado através de configuração adequada (por exemplo, por programação) um processo de sinal digital de áudio configurável (DSP). O áudio DSP pode ser um áudio convencional DSP que está configurado (por exemplo, programável atra-vés de software adequado ou firmware, ou de outra maneira configurado em resposta para controlar os dados) para realizar qualquer um de uma variedade de operações no áudio de entrada. Em operação, um áudio DSP que tem sido configurado para realizar aperfeiçoamento da fala ativa de acordo com a invenção acoplada para receber o sinal de entrada de áudio, e o DSP tipicamente executa uma variedade de operações no áudio de entrada além de (bem como) aperfeiçoamento da fala. De acordo com diversas modalidades da invenção, um áudio DSP é operável para realizar uma modalidade do método inventivo após ser configurado (por exemplo, programado) para gerar um sinal de áudio de saída em resposta a um sinal de áudio de entrada através da execução do método num sinal de entrada de áudio.
[0029] Aspectos da invenção inclui um sistema configurado (por exemplo, programado) para realizar qualquer modalidade do método inventivo, e um meio legível em computador (por exemplo, um disco) que armazena códigos para implementação qualquer modalidade do método inventivo.
[0030] Figura 1 é um diagrama de blocos de uma modalidade do sistema inventivo.
[0031] Figura 1A é um diagrama de blocos de outra modalidade do sistema inventivo.
[0032] Figura 2 é um diagrama de blocos de outra modalidade do sistema inventivo.
[0033] Figura 2A é um diagrama de blocos de outra modalidade do sistema inventivo.
[0034] Figura 3 é um diagrama de blocos de outra modalidade do sistema inventivo.
[0035] Figura 4 é um diagrama de blocos de um processo de sinal digital de áudio (DSP) que está uma modalidade do sistema inventivo.
[0036] Figura 5 é um diagrama de blocos de um sistema de computador, incluindo um meio de armazenamento legível de computador 504 que armazena código de computador para programação do sistema para realizar uma modalidade do método inventivo.
[0037] Muitas modalidades da presente invenção são tecnologicamente possíveis. Ele irá ser aparentes àqueles de conhecimentos normais na técnica a partir da presente descrição como para implementá-los. Modalidades do sistema inventivo, método, e meio irá ser descrito com referência as figuras 1, 1 A, 2, 2 A, e 3-5.
[0038] O inventor tem observada que algum conteúdo de áudio de multicanais tem diferença, ainda conteúdo da fala relacionada no canal de fala e pelo menos um canal sem fala. Por exemplo, gravações de áudio de multicanais de algum estágio mostrado são misturadas de tal modo que a fala "seca" (isto é, fala sem reverberação notável) é colocado no canal de fala (tipicamente, o Canal central, C, do sinal) e a mesma fala, mas com um componente de verbalização significante (fala "molhada") é colocada nos canais sem fala do sinal. Em um cenário típico, a fala seca é o sinal a partir do microfone em que o estágio desempenha manter próximo a sua boca e a fala molhada é o sinal a partir de microfones colocados na plateia. A fala molhada é relacionada à fala seca uma vez que é o desempenho como pode ser ouvido pela plateia no local. Ainda que seja diferente a partir da fala seca. Tipicamente a fala molhada é relativa atrasada à fala seca, e tem um espectro diferente e diferentes componentes aditivos (por exemplo, resíduos da plateia e reverberação).
[0039] Dependendo sobre os níveis relativos de fala seca e molhada, é possível que a fala molhada máscaras de componentes da fala seca componente em um grau em que a atenuação de canais sem fala em circuito de ampliação (por exemplo, como no método descrito na supracitada WO 2010/011377) indesejavelmente atenua a fala molhada sinal. Ainda que os componentes de fala seca e molhada possam ser descritos como entidades separadas, um ouvinte perceptive une os dois e ouve que como um único fluxo de fala. Atenuando o componente da fala molhada (por exemplo, no circuito de ampliação) podem ter o efeito de redução da intensidade percebida do fluxo da fala unido ao longo com colapso na sua largura da imagem. O inventor tem reconhecido que para o sinal de multicanal de áudios tendo componentes de fala seca e molhada do tipo indicado, muitas vezes seria ser mais perceptive agradável assim como mais propício para inteligibilidade da fala se o nível da fala molhada componentes não foi alterado durante o aperfeiçoamento do processamento de sinais da fala.
[0040] A invenção é baseada em parte no reconhecimento de que , quando pelo menos um canal sem fala de um sinal multicanal de áudio inclui conteúdo que reforça a inteligibilidade (ou outra qualidade percebida) de conteúdo determinado da fala pelo sinal do canal da fala, filtragem do sinal do canal sem fala usando circuito de ampliação (por exemplo, de acordo com o método de WO 2010/011377) pode afetar negativamente a experiência de entretenimento de uma escuta para o sinal filtrado reproduzido. De acordo com modalidades típicas da invenção, atenuação (em circuito de ampliação) de pelo menos um canal sem fala de um sinal multicanal de áudio é suspensa ou modificada durante vezes quando o canal sem fala inclui conteúdo de reforço da fala (conteúdo que reforça a inteligibilidade ou outra qualidade percebida de conteúdo determinado da fala pelo sinal do canal da fala). Às vezes quando o canal sem fala não inclui conteúdo de reforço da fala (ou não inclui conteúdo de reforço da fala que atende um critério predeterminado), o canal sem fala é atenuado geralmente (a atenuação não é suspensa ou modificada).
[0041] Um sinal multicanal típico (tendo um canal da fala) para que filtragem convencional no circuito de ampliação seja inadequada é um incluindo pelo menos um canal sem fala que transporta sinais de fala que são substancialmente idênticos a sinais de fala no canal da fala. De acordo com modalidades típicas da presente invenção, uma sequência de características da fala relacionada no canal de fala é comparada a uma sequência de características da fala relacionada no canal sem fala. Uma semelhança substancial das duas sequências ca-racterísticas indica que o canal sem fala (isto é, o sinal no canal sem fala) contribui com informação útil para entendimento a fala no canal de fala e em que a canal de atenuação sem fala deve ser evitada.
[0042] Para apreciar o significado do exame da semelhança entre tais características das sequências da fala relacionada ao invés dos sinais próprios, é importante reconhecer que conteúdo da fala "seca" e "molhada" (determinada através da fala e canais sem fala) não é idêntico; os sinais indicativos dos dois tipos de conteúdo da fala são tipicamente temporalmente compensar, e tenham sofrido diferentes processos de filtragem e tiveram diferentes componentes adicionais es- tranhos. Por esse motivo, uma comparação direta entre os dois sinais renderá uma baixa similaridade, independentemente de se o canal sem fala contribui sinais de fala que são os mesmos como o canal de fala (como no caso de fala seca e molhada), não relacionada sinais de fala (como no caso de duas vozes não relacionadas na fala e canal sem fala [por exemplo, uma conversa alvo no canal de fala e murmúrio antecedente no canal sem fala]), ou nenhum sinal de fala em tudo (por exemplo, o canal sem fala transporta música e efeitos). Baseando a comparação nas características da fala (como em modalidades preferidas da presente invenção), um nível de abstração é obtido que diminui o impacto de aspectos de sinais relevantes, tais como pequenas quantidades de atraso, diferenças de espectro, e sinais estranhos adicionados. Assim, implementações preferidas da invenção tipicamente geram pelo menos dois fluxos de características da fala: um representando o sinal no canal da fala; e pelo menos um representando o sinal um canal sem fala.
[0043] Uma primeira modalidade (125) do sistema inventivo irá ser descrito com referência a figura 1. Em resposta a um sinal multicanal de áudio compreendendo um canal de fala 101 (canal central C) e dois canais sem fala 102 e 103 (canais direito e esquerdo L e R), a figura 1 filtros do sistema os canais sem fala para gerar um sinal multicanal de áudio de saída filtrado compreendendo canal de fala 101 e canais sem fala 118 e 119 filtrados (canais direito e esquerdo L' e R' filtrados). Alternativamente, um ou ambos os canais sem fala 102 e 103 podem ser outro tipo de canal sem fala de um sinal multicanal de áudio (por exemplo, canais esquerdo traseiro e/ou direito traseiro de um canal sinal de áudio 5.1) ou pode ser um canal sem fala derivado que está derivado a partir de (por exemplo, é uma combinação de) qualquer de muitos diferentes subconjuntos de canais sem fala de um sinal multicanal de áudio. Alternativamente, modalidade do sistema inventivo pode ser implementado para filtrar apenas um canal sem fala, ou mais que dois canais sem fala, de um sinal multicanal de áudio.
[0044] Com referência de novo afigura 1, canais sem fala 102 e 103 são afirmados para amplificadores de ampliação 117 e 116, respectivamente. Na operação, amplificador de ampliação 116 é dirigido para um sinal de controle S3 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S3) de saída a partir do elemento de multiplicação 114, e amplificador de ampliação 117 é sinal de controle dirigido S4 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S4) de saída a partir do elemento de multiplicação 115.
[0045] A potência de cada canal do sinal de entrada de multicanal é medido com um banco de estimadores de potência (104, 105, e 106) e expresso sobre uma escala logarítmica [dB]. Estes estimadores de potência podem implementar um mecanismo de suavização, tais como um integrador de gotas, de modo que o nível de potência medido reflete o nível de potência médio sobre a duração de uma sentença ou uma passagem inteira. O nível de potência do sinal no canal de fala é subtraído a partir do nível de potência em cada um dos canais sem fala (por elementos de subtração 107 e 108) para dar uma medida da razão da potência entre os dois tipos de sinais. A saída do elemento 107 é uma medida da razão da potência no canal sem fala 103 para potência no canal de fala 101. A saída de elemento 108 é uma medida da razão da potência no canal sem fala 102 a potência no canal de fala 101.
[0046] Circuito de comparação 109 determina para cada canal sem fala o número de decibéis (dB) através do qual o canal sem fala deve ser atenuada na ordem para seu nível de potência para permanecer pelo menos $ dB abaixo o nível de potência do sinal no canal de fala (onde o símbolo também conhecido como script teta, denota um valor limite predeterminado). Em uma implementação do circuito 109, elemento de adição 120 adiciona o valor limite $ (armazenado no elemento 110, que pode ser um registro) a diferença do nível de potência (ou "margem") entre canal sem fala 103 e canal de fala 101, e elemento de adição 121 adiciona o valor limite $ à diferença do nível de potência entre o canal sem fala 102 e o canal de fala 101. Elementos 111-1 e 112-1 mudança do sinal da saída de elementos de adição 120 e 121, respectivamente. Esta operação de mudança de sinal con-verte valores de atenuação em valores de ganho. Elementos 111 e 112 limita cada resultado para ser igual a ou menor que zero (a saída do elemento 111-1 é afirmada para o limitador 111 e a saída de elemento 112-1 é afirmado para limitar 112). O valor corrente C1 da saída do limitador 111 determina o ganho (atenuação negada) no dB que deve ser aplicado ao canal sem fala 103 para manter seu nível de potência ψ dB abaixo o nível de potência do canal de fala 101 (no tempo relevante, ou na janela de tempo relevante, do sinal de entrada de multicanal). O valor corrente C2 da saída do limitador 112 determina o ganho (atenuação negada) em dB que deve ser aplicado ao canal sem fala 102 para manter seu nível de potência $ dB abaixo o nível de potência do canal de fala 101 (no tempo relevante, ou na janela de tempo relevante, do sinal de entrada de multicanal). Um valor adequado típico para $ é 15 dB.
[0047] Porque existe um única relação entre a medida expresso sobre uma escala logarítmica (dB) e que a mesma medida expressa em uma escala linear, um circuito (ou programado ou de outra maneira configurado processador) que está equivalente a elementos 104, 105, 106, 107, 108, e 109 da figura 1 pode ser construído em que a potên-cia, ganho e todos os limites são expresso em uma escala linear. Em uma tal implementação toda diferença de nível é substituída através de razões das medidas lineares. Implementações alternativas podem substituir a medida da potência com medidas que são relacionadas à resistência do sinal, tais como o valor do sinal absoluto.
[0048] O sinal C1 da saída do limitador 111 é um sinal de controle de atenuação bruto para canal sem fala 103 (um sinal de controle do ganho para amplificador de ampliação 116) que poderia ser afirmado diretamente ao amplificador 116 para controlar a atenuação de ampli-ação do canal sem fala 103. O sinal C2 da saída do limitador 112 é um sinal de controle de atenuação bruto para o canal sem fala 102 (um sinal de controle do ganho para o amplificador de ampliação 117) que poderia ser afirmado diretamente ao amplificador 117 para controlar a atenuação de ampliação do canal sem fala 102.
[0049] De acordo com a invenção, contudo, sinais de controle de atenuação bruto C1 e C2 são escalados em elementos de multiplicação 114 e 115 para gerar sinais de controle de ganho S3 e S4 para controlar a atenuação de ampliação dos canais sem fala através de amplificadores 116 e 117. Sinal C1 é escalado em resposta a uma sequência de valores de controle de atenuação S1, e sinal C2 é escalado em resposta a uma sequência de valores de controle de atenuação S2. Cada valor de controle S1 é afirmado a partir da saída do elemento do processamento 134 (para ser descrito abaixo) a uma entrada de elemento de multiplicação 114, e sinal C1 (e assim cada valor de controle de ganho "bruto" C1 determinado desse modo) é afirmada a partir do limitador 111 para a outra entrada do elemento 114. Elemento 114 gradua o valor corrente C1 em resposta ao valor corrente S1 multiplicando estes valores juntamente para gerar o valor corrente S3, que é afirmado ao amplificador 116. Cada valor de controle S2 é afirmado a partir da saída do elemento do processamento 135 (para ser descrito abaixo) a uma entrada de elemento de multiplicação 115, e sinal C2 (e assim cada valor de controle de ganho "bruto" C2 determinada desse modo) é afirmada a partir do limitador 112 para a outra entrada de elemento 115. Elemento 115 gradua o valor corrente C2 em resposta ao valor corrente S2 multiplicando estes valores juntamente para gerar o valor corrente S4, que é afirmado ao amplificador 117.
[0050] Valores de controle S1 e S2 são gerados de acordo com a invenção como segue. Em elementos de processamento de probabilidade da fala 130, 131, e 132, um sinal de probabilidade da fala (cada um dos sinais P, Q, e T da figura 1) é gerado para cada canal do sinal de entrada de multicanal. Sinal de probabilidade da fala P é indicativo de uma sequência de valores de probabilidade de fala para canal sem fala 102; sinal de probabilidade da fala Q é indicativo de uma sequência de valores de probabilidade de fala para canal de fala 101, e sinal de probabilidade da fala T é indicativo de uma sequência de valores de probabilidade de fala para canal sem fala 103.
[0051] Sinal de probabilidade da fala Q é um valor monótono relacionado à probabilidade em que o sinal no canal de fala é de fato indicativo de fala. Sinal de probabilidade da fala P é um valor monótono relacionado à probabilidade em que o sinal no canal sem fala 102 é fala, e sinal de probabilidade da fala T é um valor monótono relacionado à probabilidade em que o sinal no canal sem fala 103 é fala. Processadores 130, 131, e 132 (que são tipicamente idênticos para cada outro, mas não é idênticos para cada outro em algumas modalidades) pode implementar qualquer dos diversos métodos para determinar automaticamente a probabilidade em que o sinal de entrada é afirmado neles indicativo de fala. Em uma modalidade, processadores de probabilidade da fala 130, 131, e 132 são idênticos a cada outro, processador 130 gera o sinal P (a partir da informação no canal sem fala 102) de tal modo que sinal P é indicativo de uma sequência de valores de probabilidade de fala, cada monótona relacionada à probabilidade em que o sinal no canal102 em um tempo diferente (ou janela de tempo) é fala, processador 131 gera o sinal Q (a partir da informação no canal 101) de tal modo que sinal Q é indicativo de uma sequência de valores de probabilidade de fala, cada monótona relacionada à probabilidade em que o sinal no canal 101 em um tempo diferente (ou janela de tempo) é fala, processador 132 gera o sinal T (a partir da informação no canal sem fala 103) de tal modo que sinal T é indicativo de uma sequência de valores de probabilidade de fala, cada monótona relacionada à probabilidade em que o sinal no canal 102 em um tempo diferente (ou janela de tempo) é fala, e cada um dos processadores 130, 131, e 132 assim através da implementação (sobre o relevante um dos canais 102, 101, e 103) o mecanismo descrito por Robinson e Vinton em "Fala Automatizada/ outra Discriminação para Monitoramento Loudness" (Sociedade de Engenharia de Áudio, número Preprint 6437 da Convenção 118, em maio 2005). Alternativamente, sinal P pode ser criado manualmente, por exemplo, pelo criador do conteúdo, e transmitido ao lado do sinal de áudio no canal 102 ao usuário final, e processador 130 pode simplesmente extrai tal sinal P criado previamente a partir de canal 102 (ou processador 130 pode ser eliminado e o sinal P criado previamente diretamente afirmado ao processador 134). Similarmente, sinal Q pode ser criado manualmente e transmitido ao sinal ao lado de áudio no canal 101, processador 131 pode simplesmente extrai tal sinal previamente criado Q a partir do canal 101 (ou processador 131 pode ser eliminado e o sinal previamente criado Q diretamente afirmado para processadores 134 e 135), sinal T pode ser criado manualmente e transmitido ao sinal ao lado de áudio no canal 103, e processador 132 pode simplesmente extrai tal sinal previamente criado T a partir do canal 103 (ou processador 132 pode ser eliminado e o sinal previamente criado T diretamente afirmado para o processador 135).
[0052] Em uma implementação típica do processador 134, valores de probabilidade de fala determinada por sinais P e Q são emparelhados comparados para determinar a diferença entre os valores correntes dos sinais P e Q para cada um de uma sequência de valores correntes do sinal P. Em uma implementação típica do processador 135, valores de probabilidade de fala determinada por sinais T e Q são emparelhados comparados para determinar a diferença entre os valores correntes de sinais T e Q para cada um de uma sequência de valores correntes do sinal Q. Como um resultado, cada um dos processadores 134 e 135 gera uma sequência de tempo de valores diferentes para um par de sinais de probabilidade da fala.
[0053] Processadores 134 e 135 são preferivelmente implementados para suavizar cada tal sequência de valor diferente por média de tempo, e opcionalmente para escalar cada sequência de valor diferente médio resultante. Dimensionamento das sequências de valor diferente médio pode ser necessário de modo que a saída de valores médios escalados a partir de processadores 134 e 135 está em uma tal faixa em que as saídas de elementos de multiplicação 114 e 115 são úteis para orientar os amplificadores de ampliação 116 e 117.
[0054] Em uma implementação típica, o sinal S1 de saída a partir do processador 134 é uma sequência de valores médios escalados diferentes (cada um destes valores médios escalados diferente sendo uma média escalada da diferença entre valores correntes de sinais P e Q valores diferentes em uma janela diferente de tempo). O sinal S1 é um sinal de controle de ganho de ampliação para canal sem fala 102, e é empregado para escalar o independentemente gerado sinal de controle bruto de ganho de ampliação C1 para canal sem fala 102. Similarmente, Em uma implementação típica, o sinal S2 de saída a partir do processador 135 é uma sequência de valores médios escalados diferentes (cada destas valores médios escalados diferentes sendo uma média escalada da diferença entre valores correntes de sinais T e Q em uma janela diferente de tempo). O sinal S2 é um sinal de controle de ganho de ampliação para canal sem fala 103, e é empregado para escalar o independentemente gerado sinal de controle bruto de ganho de ampliação C2 para canal sem fala 103.
[0055] Dimensionamento de sinal de controle bruto de ganho de ampliação C1 em resposta ao sinal de controle de ganho de ampliação S1 de acordo com a invenção pode ser realizado multiplicando (no elemento 114) cada valor de controle de ganho bruto do sinal C1 através de um correspondente um dos valores médios escalados diferentes do sinal S1, para gerar sinal S3. Dimensionamento do sinal de controle bruto de ganho de ampliação C2 em resposta ao sinal de controle de ganho de ampliação S2 de acordo com a invenção pode ser realizado multiplicando (no elemento 115) cada valor de controle de ganho bruto do sinal C2 através de um correspondente um dos valores médios escalados diferentes do sinal S2, para gerar sinal S4.
[0056] Outra modalidade (125') do sistema inventivo irá ser descrito com referência nas figuras 1A. Em resposta a um sinal multicanal de áudio compreendendo um canal de fala 101 (canal central C) e dois canais sem fala 102 e 103 (canais direito e esquerdo LeR), o sistema da figura 1A filtra os canais sem fala para gerar um sinal multicanal de áudio de saída filtrado compreendendo canal de fala 101 e canais sem fala 118 e 119 filtrados (canais direito e esquerdo L' e R' filtrados).
[0057] No sistema da figura 1 A (como na figura do sistema 1), canais sem fala 102 e 103 são afirmados para amplificadores de ampliação 117 e 116, respectivamente. Na operação, amplificador de ampliação 117 é dirigido um sinal de controle S4 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S4) de saída a partir do elemento de multiplicação 115, e amplificador de ampliação 116 é sinal de controle dirigido S3 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S3) de saída a partir do elemento de multiplicação 114. Elementos 104, 105, 106, 107, 108, 109 (incluindo elementos 110, 120, 121, 111-1, 112-1, 111, e 112), 114, 115, 130, 131, 132, 134, e 135 da figura 1A são idênticos a (e funcionam identicamente como) os elementos idênticos da figura 1 numerados, e a descrição de que acima não será repetida.
[0058] A figura 1 Um sistema difere a partir dessa figura 1 em que um sinal de controle VI (afirmado na saída do multiplicador 214) é usado para escalar o sinal de controle C1 (afirmado na saída do elemento limitador 111) ao invés de o sinal de controle S1 (afirmado na saída do processador 134), e um sinal de controle V2 (afirmado na saída do multiplicador 215) é usado para escalar o sinal de controle C2 (afirmado na saída do elemento limitador 112) ao invés de o sinal de controle S2 (afirmado na saída do processador 135). Na figura 1A, dimensionamento do sinal de controle bruto de ganho de ampliação C1 em resposta a sequência de valores de controle de atenuação VI de acordo com a invenção é realizada multiplicando (no elemento 114) cada valor de controle de ganho bruto do sinal C1 através de um correspondente a um dos valores de controle de atenuação VI, para gerar sinal S3, e dimensionamento do sinal de controle bruto de ganho de ampliação C2 em resposta a sequência de valores de controle de atenuação V2 de acordo com a invenção é realizada multiplicando (no elemento 115) cada valor de controle de ganho bruto do sinal C2 através de um correspondente a um dos valores de controle de atenuação V2, para gerar sinal S4.
[0059] Para gerar a sequência de valores de controle de atenuação VI, o sinal Q (afirmado na saída do processador 131) é afirmada a uma entrada do multiplicador 214, e o sinal de controle S1 (afirmado na saída do processador 134) é afirmada para a outra entrada do mul- tiplicador 214. A saída do multiplicador 214 é a sequência de valores de controle de atenuação VI. Cada dos valores de controle de atenuação VI é um dos valores de probabilidade de fala determinada através do sinal Q, escalado através de um correspondente a um dos valores de controle de atenuação S1.
[0060] Similarmente, para gerar a sequência de valores de controle de atenuação V2, o sinal Q (afirmado na saída do processador 131) é afirmado a uma entrada do multiplicador 215, e o sinal de controle S2 (afirmado na saída do processador 135) é afirmada para a outra entrada do multiplicador 215. A saída do multiplicador 215 é a sequência de valores de controle de atenuação V2. Cada dos valores de controle de atenuação V2 é um dos valores de probabilidade de fala determinada através do sinal Q, escalado através de um correspondente a um dos valores de controle de atenuação S2.
[0061] O sistema da figura 1 (ou que a figura 1A) pode ser implementado no software por um processador (por exemplo, processador 501 da figura 5) que tem sido programado para implementar as operações do sistema da figura 1 descritas (ou 1A). Alternativamente, ele pode ser implementado no hardware com elementos de circuito conectados como mostrados na figura 1 (ou 1 A).
[0062] Em variações na modalidade da figura 1 (ou que da figura 1A), dimensionamento do sinal de controle bruto de ganho de ampliação C1 em resposta ao sinal de controle de ganho de ampliação S1 (ou VI) de acordo com a invenção (para gerar um sinal de controle de ganho de ampliação para orientar o amplificador 116) pode ser realizado em uma maneira não linear. Por exemplo, tais dimensionamentos não lineares podem gerar um sinal de controle de ganho de ampliação (sinal de substituição S3) que não faz com que a ampliação através do amplificador 116 (isto é, a aplicação de unidade de ganho pelo amplificador 116 e assim nenhum canal de atenuação 103) quando o valor corrente do sinal S1 (ou VI) está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de ampliação (sinal de substituição S3) igual ao valor corrente do sinal C1 (de modo que sinal S1 (ou VI) não modifica o valor corrente de C1) quando o valor corrente do sinal S1 exceda o limite. Alternativamente, outro dimensionamento linear e não linear do sinal C1 (em resposta ao sinal de controle de ganho inventivo de ampliação S1 ou VI) pode ser realizado para gerar um sinal de controle de ganho de ampliação para orientar o amplificador 116. Por exemplo, tal dimensionamento do sinal C1 pode gerar um sinal de controle de ganho de ampliação (sinal de substituição S3) que não faz com que a ampliação através do amplificador 116 (isto é, aplicação da unidade de ganho por amplificador 116) quando o valor corrente do sinal S1 (ou VI) está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de ampliação (sinal de substituição S3) igual ao valor corrente do sinal C1 multiplicado pelo valor corrente do sinal S1 ou VI (ou algum outro valor determinado a partir deste produto) quando o valor corrente do sinal S1 (ou VI) exceda o limite.
[0063] Similarmente, nas variações sobre a modalidade da figura 1 (ou que da figura 1 A), dimensionamento do sinal de controle bruto de ganho de ampliação C2 em resposta ao sinal de controle de ganho de ampliação S2 (ou V2) de acordo com a invenção (para gerar um sinal de controle de ganho de ampliação para orientar o amplificador 117) pode ser realizados em uma maneira não linear. Por exemplo, tal dimensionamento não linear pode gerar um sinal de controle de ganho de ampliação (sinal de substituição S4) que não faz com que a ampliação através do amplificador 117 (isto é, aplicação da unidade de ganho por amplificador 117 e assim nenhum canal de atenuação 102) quando o valor corrente do sinal S2 (ou V2) está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de amplia- ção (sinal de substituição S4) igual ao valor corrente do sinal C2 (de modo que sinal S2 ou V2 não modifica o valor corrente de C2) quando o valor corrente do sinal S2 (ou V2) exceda o limite. Alternativamente, outro dimensionamento linear e não linear do sinal C2 (em resposta ao sinal de controle de ganho inventivo de ampliação S2 ou V2) pode ser realizados para gerar um sinal de controle de ganho de ampliação para orientar amplificador 117. Por exemplo, tal dimensionamento do sinal C2 pode gerar um sinal de controle de ganho de ampliação (sinal de substituição S4) que não faz com que a ampliação através do amplificador 117 (isto é, aplicação da unidade de ganho por amplificador 117) quando o valor corrente do sinal S2 (ou V2) está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de ampliação (sinal de substituição S4) igual ao valor corrente do sinal C2 multiplicado pelo valor corrente do sinal S2 ou V2 (ou algum outro valor determinado a partir deste produto) quando o valor corrente do sinal S2 (ou V2) exceda o limite.
[0064] Outra modalidade (225) do sistema inventivo irá ser descrito com referência as figuras 2. Em resposta a um sinal multicanal de áudio compreendendo um canal de fala 101 (canal central C) e dois canais sem fala 102 e 103 (canais direito e esquerdo L e R), a figura 2 filtros do sistema dos canais sem fala para gerar um sinal multicanal de áudio de saída filtrado compreendendo canal de fala 101 e canais sem fala 118 e 119 filtrados (canais direito e esquerdo L' e R' filtrados).
[0065] No sistema da figura 2 (como no sistema da figura 1), canais sem fala 102 e 103 são afirmados para amplificadores de ampliação 117 e 116, respectivamente. Na operação, amplificador de ampliação 117 é dirigido um sinal de controle S6 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S6) de saída a partir do elemento de multiplicação 115, e amplificador de ampliação 116 é sinal de controle dirigido S5 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S5) de saída a partir do elemento de multiplicação 114. Elementos 114, 115, 130, 131, 132, 134, e 135 da figura 2 são idênticos a (e função identicamente como) os elementos idênticos da figura 1 numerados, e a descrição de que acima não será repetida.
[0066] O sistema da figura 2 medidas a potência dos sinais em cada um dos canais 101, 102, e 103 com um banco de estimadores de potência, 201, 202, e 203. Ao contrário de suas contrapartes na figura 1, cada um dos estimadores de potência 201, 201, e 203 medidas a distribuição da potência do sinal através da frequência (isto é, potência em cada diferença de um conjunto de bandas de frequência do canal relevante), resultante em um espectro de potência ao invés de um número único para cada um canal. A resolução espectral de cada espectro de potência idealmente combina a resolução espectral de um modelo de previsão de inteligibilidade implementados através de elementos 205 e 206 (discutido abaixo).
[0067] O espectro de potência é alimentado no circuito de comparação 204. A finalidade do circuito 204 é para determinar a atenuação a ser aplicada a cada canal sem fala para garantir que o sinal no canal sem fala não reduz a inteligibilidade do sinal no canal de fala para ser menor que um critério predeterminado. Esta funcionalidade é obtida empregando um circuito de previsão de inteligibilidade (205 e 206) que prevê inteligibilidade da fala a partir do espectro de potência do sinal do canal de fala (201) e sinais do canal sem fala (202 e 203). Os circuitos de previsão de inteligibilidade 205 e 206 pode implementar um modelo de previsão de inteligibilidade adequado de acordo com escolhas de projeto e compensações. Exemplos são o índice de Inteligibilidade da Fala como especificado em ANSI S3. 5- 1997 ("Métodos para Cálculo do índice de Inteligibilidade da Fala") e a fala modelo de Sen- sibilidade de Reconhecimento de Muesch e Buus ("Usando teoria da decisão estatística para prever inteligibilidade da fala. I. Modelo da estrutura" Jornal da Sociedade Acústica da América, 2001, Vol. 109, p 2896-2909). É claro que a saída do modelo de previsão de inteligibilidade não tem significado quando o sinal no canal de fala é diferente da outra fala. Apesar disto, no que se segue a saída do modelo de previsão de inteligibilidade irá ser referido como a inteligibilidade da fala prevista. O erro percebido foi responsável no processamento subsequente através do dimensionamento dos valores de ganho de saída a partir do circuito de comparação 204 com parâmetros S1 e S2, cada um de que é relacionada à probabilidade do sinal no canal de fala sendo indicativo de fala.
[0068] Os modelos de previsão de inteligibilidade têm em comum o fato de prever ou aumentada ou inteligibilidade da fala inalterada como o resultado de redução do nível do sinal sem fala. Continuando no fluxo do processo da figura 2, os circuitos de comparação 207 e 208 compara a inteligibilidade prevista com um critério do valor predeterminado. Se o elemento 205 determina que o nível do canal sem fala 103 é tão baixa que a inteligibilidade prevista excede o critério, um parâmetro de ganho, que é inicializado a 0 dB, é recuperado a partir do circuito 209 e fornecido ao circuito 211 como a saída C3 do circuito de comparação 204. Se o elemento 206 determina que o nível do canal sem fala 102 é tão baixa que a inteligibilidade prevista excede o critério, um parâmetro de ganho, que é inicializado a 0 dB, é recuperado a partir de circuito 210 e fornecido ao circuito 212 como a saída C4 do circuito de comparação 204. Se o elemento 205 ou 206 determina que o critério não seja conhecido, o parâmetro de ganho (no relevante um dos elementos 209 e 210) é diminuído por uma quantidade fixada e a previsão de inteligibilidade é repetida. Um tamanho da etapa adequa-do para diminuir o ganho é 1 dB. A repetição como apenas descrita continua até a inteligibilidade prevista atende ou excede o valor do critério.
[0069] É claro que é possível em que o sinal no canal de fala é de tal modo que o critério inteligibilidade não pode ser alcançado mesmo na ausência de um sinal no canal sem fala. Um exemplo de uma tal situação é um sinal da fala de nível muito baixo ou com largura de banda severamente restringido. Se isso acontecer em um ponto irá ser alcançado onde qualquer redução adicional do ganho aplicado ao canal sem fala não afeta a inteligibilidade prevista da fala e o critério nunca é conhecido. Em uma tal condição, o ciclo formado por elementos 205, 207, e 209 (ou elementos 206, 208, e 210) continua indefinidamente, e lógica adicional (não mostrado) pode ser aplicado para parar o ciclo. Um exemplo particularmente simples de tal lógica é contar o número de repetições e sair do ciclo uma vez a cada número predeterminado de repetições tem sido excedido.
[0070] Dimensionamento do sinal de controle bruto de ganho de ampliação C3 em resposta ao sinal de controle de ganho de ampliação S1 de acordo com a invenção pode ser realizado multiplicando (no elemento 114) cada valor de controle de ganho bruto do sinal C3 através de um correspondente a um dos valores médios escalados diferentes do sinal S1, para gerar sinal S5. Dimensionamento do sinal de controle bruto de ganho de ampliação C4 em resposta ao sinal de controle de ganho de ampliação S2 de acordo com a invenção pode ser realizado multiplicando (no elemento 115) cada valor de controle de ganho bruto do sinal C4 através de um correspondente a um dos valores médios escalados diferentes do sinal S2, para gerar sinal S6.
[0071] A sistema da figura 2 pode ser implementado no software por um processador (por exemplo, processador 501 da figura 5) que tem sido programado para implementar as operações descritas do sistema na figura 2. Alternativamente, ele pode ser implementado no hardware com elementos de circuito conectados como mostrados na figura 2.
[0072] Nas variações na modalidade da figura 2, dimensionamento do sinal de controle bruto de ganho de ampliação C3 em resposta ao sinal de controle de ganho de ampliação S1 de acordo com a invenção (para gerar um sinal de controle de ganho de ampliação para orientar o amplificador 116) pode ser realizado em uma maneira não linear. Por exemplo, tal dimensionamento não linear pode gerar um sinal de controle de ganho de ampliação (sinal de substituição S5) que não faz com que a ampliação através do amplificador 116 (isto é, aplicação da unidade de ganho por amplificador 116 e assim nenhum canal de atenuação 103) quando o valor corrente do sinal S1 está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de ampliação (sinal de substituição S5) igual ao valor corrente do sinal C3 (de modo que sinal S1 não modifica o valor corrente de C3) quando o valor corrente do sinal S 1 exceda o limite. Alternativamente, outro dimensionamento linear e não linear do sinal C3 (em resposta ao sinal de controle de ganho inventivo de ampliação S1) pode ser realizados para gerar um sinal de controle de ganho de ampliação para orientar o amplificador 116. Por exemplo, tal dimensionamento do sinal C3 pode gerar um sinal de controle de ganho de ampliação (sinal de substituição S5) que não faz com que a ampliação através do amplificador 116 (isto é, aplicação da unidade de ganho por amplificador 116) quando o valor corrente do sinal S1 está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de ampliação (sinal de substituição S5) igual ao valor corrente do sinal C3 multiplicado pelo valor corrente do sinal S1 (ou algum outro valor determinado a partir deste produto) quando o valor corrente do sinal S1 exceda o limite.
[0073] Similarmente, nas variações na modalidade da figura 2, dimensionamento do sinal de controle bruto de ganho de ampliação C4 em resposta ao sinal de controle de ganho de ampliação S2 de acordo com a invenção (para gerar um sinal de controle de ganho de ampliação para orientar o amplificador 117) pode ser realizado em uma maneira não linear. Por exemplo, tal dimensionamento não linear pode gerar um sinal de controle de ganho de ampliação (sinal de substituição S6) que não faz com que a ampliação através do amplificador 117 (isto é, aplicação da unidade de ganho por amplificador 117 e assim nenhum canal de atenuação 102) quando o valor corrente do sinal S2 está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de ampliação (sinal de substituição S6) igual ao valor corrente do sinal C4 (de modo que sinal S2 não modifica o valor corrente de C4) quando o valor corrente do sinal S2 exceda o limite. Alternativamente, outro dimensionamento linear e não linear do sinal C4 (em resposta ao sinal de controle de ganho inventivo de ampliação S2) pode ser realizados para gerar um sinal de controle de ganho de ampliação para orientar amplificador 117. Por exemplo, tal dimensionamento do sinal C4 pode gerar um sinal de controle de ganho de ampliação (sinal de substituição S6) que não faz com que a ampliação através do amplificador 117 (isto é, aplicação da unidade de ganho por amplificador 117) quando o valor corrente do sinal S2 está abaixo de um limite, e faz com que o valor corrente do sinal de controle de ganho de ampliação (sinal de substituição 56) igual ao valor corrente do sinal C4 multiplicado pelo valor corrente do sinal S2 (ou algum outro valor determinado a partir deste produto) quando o valor corrente do sinal S2 exceda o limite.
[0074] Outra modalidade (225') do sistema inventivo irá ser descrito com referência as figuras 2A. Em resposta a um sinal multicanal de áudio compreendendo um canal de fala 101 (canal central C) e dois canais sem fala 102 e 103 (canais direito e esquerdo L e R), o sistema da figura 2A filtra os canais sem fala para gerar um sinal multicanal de áudio de saída filtrado compreendendo canal de fala 101 e canais sem fala 118 e 119 filtrados (canais direito e esquerdo L' e R' filtrados).
[0075] No sistema da figura 2A (como no sistema da figura 2), canais sem fala 102 e 103 são afirmados para amplificadores de ampliação 117 e 116, respectivamente. Na operação, amplificador de ampliação 117 é dirigido um sinal de controle S6 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S6) de saída a partir do elemento de multiplicação 115, e amplificador de ampliação 116 é o sinal de controle dirigido S5 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S5) de saída a partir do elemento de multiplicação 114. Elementos 201, 202, 203, 204, 114, 115, 130, e 134 da figura 2A são idênticos a (e a função identicamente como) os elementos numerados identicamente da figura 2, e a descrição de que acima não será repetida.
[0076] A figura 2A sistema difere a partir do que a figura 2 em dois aspectos principais. Primeiro, o sistema é configurado para gerar (isto é, derivar) um canal sem fala "derivado" (L + R) a partir de dois canais sem fala individuais (102 e 103) de um sinal de entrada de áudio, e para determinar valores de controle de atenuação (V3) em resposta a este canal derivado de sem fala. Em contraste, a sistema da figura 2 determina valores de controle de atenuação S1 em resposta a um canal sem fala (canal 102) de um sinal de áudio de entrada e determina valores de controle de atenuação S2 em resposta a outro canal sem fala (canal 103) de um sinal de áudio de entrada. Na operação, o sistema da figura 2A atenua cada canal sem fala de um sinal de áudio de entrada (cada um dos canais 102 e 103) em resposta à mesma definição de valores de controle de atenuação V3. Na operação, o sistema da figura 2 atenua canal sem fala 102 de um sinal de áudio de entrada em resposta aos valores de controle de atenuação S2, e atenua o canal sem fala 103 de um sinal de áudio de entrada em resposta à diferença definida de valores de controle de atenuação (valores S1).
[0077] O sistema da figura 2 A inclui elemento de adição 129 cujas entradas são acopladas para receber canais sem fala 102 e 103 de um sinal de entrada de áudio. O canal derivado de sem fala (L + R) é afirmada na saída de elemento 129. Elemento do processamento de probabilidade da fala 130 afirma sinal de probabilidade da fala P em resposta para o canal derivado de sem fala L + R a partir do elemento 129. Na figura 2A, sinal P é indicativo de uma sequência de valores de probabilidade de fala ao canal derivado de sem fala. Tipicamente, sinal de probabilidade da fala P da figura 2A é um valor monótono relacionado à probabilidade em que o sinal no canal derivado de sem fala é fala. Sinal de probabilidade da fala Q (gerado através do processador 131) da figura 2A é idênticos ao sinal de probabilidade da fala Q da figura 2 acima mencionada.
[0078] Um segundo maior respeito em que o sistema da figura 2A difere a partir dessa da figura 2 é como segue. Na figura 2A, o sinal de controle V3 (afirmado na saída do multiplicador 214) é usado (ao invés de o sinal de controle S1 afirmado na saída do processador 134) para escalar o sinal de controle bruto de ganho de ampliação C3 (afirmado na saída de elemento 211), e o sinal de controle V3 é também usado (ao invés de o sinal de controle S2 afirmado na saída do processador 135 da figura 2) para escalar o sinal de controle bruto de ganho de ampliação C4 (afirmado na saída de elemento 212). Na figura 2A, dimensionamento do sinal de controle bruto de ganho de ampliação C3 em resposta a uma sequência de valores de controle de atenuação indicado através do sinal V3 (para referido como valores de controle de atenuação V3) de acordo com a invenção é realizada multiplicando (no elemento 114) cada valor de controle de ganho bruto do sinal C3 através de um correspondente a um dos valores de controle de atenuação V3, para gerar sinal S5, e dimensionamento do sinal de controle bruto de ganho de ampliação C4 em resposta a sequência de valores de controle de atenuação V3 de acordo com a invenção é realizada multiplicando (no elemento 115) cada valor de controle de ganho bruto do sinal C4 através de um correspondente a um dos valores de controle de atenuação V3, para gerar sinal S6.
[0079] Na operação, a figura 2A sistema gera a sequência de valores de controle de atenuação V3 como segue. A fala probabilidade sinal Q (afirmado na saída do processador 131 da figura 2A) é afirmada a uma entrada do multiplicador 214, e o sinal de controle de atenuação S1 (afirmado na saída do processador 134) é afirmada para a outra entrada do multiplicador 214. A saída do multiplicador 214 é a sequência de valores de controle de atenuação V3. Cada dos valores de controle de atenuação V3 é um dos valores de probabilidade de fala determinada através do sinal Q, escalado através de um correspondente a um dos valores de controle de atenuação S1.
[0080] Outra modalidade (325) do sistema inventivo irá ser descrito com referência as figuras 3. Em resposta a um sinal multicanal de áudio compreendendo um canal de fala 101 (canal central C) e dois canais sem fala 102 e 103 (canais direito e esquerdo L e R), a figura 3 filtros do sistema dos canais sem fala para gerar um sinal multicanal de áudio de saída filtrado compreendendo canal de fala 101 e canais sem fala 118 e 119 filtrados (canais direito e esquerdo L' e R' filtrados).
[0081] No sistema da figura 3, cada um dos sinais nos três canais de entrada é dividido em seus componentes espectrais através do banco de filtro 301 (para canal 101), banco de filtro 302 (para canal 102), e banco de filtro 303 (para canal 103). A análise espectral pode ser obtida com no domínio de tempo N do canal de bancos de filtro. De acordo com uma modalidade, cada partições do banco de filtro da faixa de frequência em 1/3-bandas de oitava ou lembra a filtragem pre- sumida para ocorrer no interior do ouvido humano. O fato de que a saída do sinal a partir de cada banco de filtro consiste em subsinais N é ilustrado pelo uso de linhas pesadas.
[0082] No sistema da figura 3, os componentes de frequência dos sinais em canais sem fala 102 e 103 são afirmados para amplificadores de ampliação 117 e 116, respectivamente. Na operação, amplificador de ampliação 117 é dirigido um sinal de controle S8 (que é indicativo de uma sequência de valores de controle, e é assim também referido como sequência de valor de controle S8) de saída a partir do elemento de multiplicação 115', e o amplificador de ampliação 116 é o sinal de controle dirigido S7 (que é indicativo de uma sequência de va-lores de controle, e é assim também referido como sequência de valor de controle S7) de saída a partir do elemento de multiplicação 114'. Elementos 130, 131, 132, 134, e 135 da figura 3 são idênticos a (e função identicamente como) os elementos idênticos da figura 1 numerada, e a descrição de que acima não será repetida.
[0083] O processo da figura 3 pode ser reconhecido como um processo filial mais tarde. Em seguida o caminho do sinal mostrado na figura 3, os subsinais N gerados no banco 302 para canal sem fala 102 são todos escalados por um membro de um conjunto de N valores de ganho através do amplificador de ampliação 117, e os subsinais N gerado no banco 303 para canal sem fala 103 são todos escalados por um membro de um conjunto de valores de ganho N através do amplificador de ampliação 116. A derivação destes valores de ganho irá ser descrito mais tarde. Em seguida, os subsinais escalados são recombi- nados em um único sinal de áudio. Isso pode ser feito através da adição simples (através do circuito somatório 313 para o canal 102 e através do circuito somatório 314 para o canal 103). Alternativamente, uma síntese do banco de filtro que está combinado à análise do banco de filtro pode ser usada. Este processo resulta na modificação do sinal sem fala R' (118) e a modificação do sinal sem fala L'(119).
[0084] Descrevendo agora o caminho do ramo lateral do processo da figura 3, cada banco de filtro de saída é feito disponível a um banco correspondente de estimadores de potência N (304 305, e 306). O espectro de potência resultante para canais 101 e 102 serve como en-tradas para uma otimização do circuito 307 que tem como saída um vetor de ganho dimensional N C6. Os espectros de potência resultante para canais 101 e 103 servem como entradas a uma otimização do circuito 308 que tem como saída um vetor de ganho dimensional N C5. A otimização emprega tanto um circuito de previsão de inteligibilidade (309 e 310) e um circuito de cálculo de volume (311 e 312) para encontrar o vetor de ganho que maximiza o volume de cada canal sem fala enquanto mantém um nível predeterminado de inteligibilidade prevista no canal do sinal da fala 101. Modelos adequados para prever a inteligibilidade têm sido discutidos com referência às figuras 2. Os circuitos de cálculo do volume 311 e 312 pode implementar um modelo de previsão de volume adequado de acordo para escolhas de projeto e compensações. Exemplos de modelos adequados são Padrões Nacionais Americanos ANSI S3. 4-2007 "Procedimento para a Computação do Volume de Sons Estáveis" e os Padrões Alemães DIN 45631 " Cálculo do nível de volume e intensidade do Gerauschspektrum".
[0085] Dependendo dos recursos computacionais disponíveis e as restrições impostas, a forma e complexidade da otimização dos circuitos (307, 308) pode variar grandemente. De acordo com uma modalidade um iterativo, a otimização limitada multidimensional de N de parâmetros livres é usada. Cada parâmetro representa o ganho aplicado para uma das bandas de frequência do canal sem fala. Técnicas padrões, tais como em seguida a mais íngreme gradiente no espaço de busca dimensional de N pode ser aplicada para encontrar o máximo. Em outra modalidade, uma abordagem menos exigente computacional restringe as funções ganho vs. frequência para serem membros de um conjunto menor de possíveis funções ganho vs. frequência, tais como um conjunto de diferentes gradientes espectrais ou filtros plataforma. Com esta restrição adicional a otimização do problema pode ser reduzido a um número menor de uma otimização dimensional. Em outra modalidade adicional um busca exaustiva é feita sobre um conjunto muito menor de possíveis funções de ganho. Esta última abordagem talvez particularmente desejável em aplicações de tempo real onde uma carga computacional constante e velocidade de pesquisa são desejáveis.
[0086] Aqueles de conhecimentos normais na técnica vai reconhecer facilmente restrições adicionais que possam ser impostas sobre a otimização de acordo com modalidades da presente invenção adicional. Um exemplo é a limitação do volume do canal sem fala modificado para não ser maior que o volume antes da modificação. Outro exemplo é imposição de um limite sobre a diferença do ganho entre bandas de frequência adjacentes a fim de limitar o potencial para serrilhado temporal na reconstrução do banco de filtro (313, 314) ou para reduzir a possibilidade por modificações do timbre questionáveis. Limitações desejáveis dependem tanto da implementação técnica do banco de filtro e sobre a compensação escolhida entre inteligibilidade melhoramento e modificação do timbre. Para clareza da ilustração, estas restrições são omitidas a partir da figura 3.
[0087] Dimensionamento do Vetor de controle de ganho de ampliação dimensional de N C6 bruto em resposta ao sinal de controle de ganho de ampliação S2 de acordo com a invenção pode ser realizado multiplicando (no elemento 115') cada valor de controle de ganho bruto do vetor C6 através de um correspondente a um dos valores médios escalados diferentes do sinal S2, para gerar Vetor de controle de ganho de ampliação dimensional de N S8. Dimensionamento do Vetor de controle de ganho de ampliação dimensional de N C5 bruto em resposta ao sinal de controle de ganho de ampliação S1 de acordo com a invenção pode ser realizado multiplicando (no elemento 114') cada valor de controle de ganho bruto do vetor C5 através de um correspondente a um dos valores médios escalados diferentes do sinal S1, para gerar Vetor de controle de ganho de ampliação dimensional de N S7.
[0088] O sistema da figura 3 pode ser implementado no software por um processador (por exemplo, processador 501 da figura 5) que tem sido programado para implementar as operações descritas da sistema da figura 3. Alternativamente, ele pode ser implementado no hardware com elementos de circuito conectados como mostrados na figura 3.
[0089] Nas variações da modalidade da figura 3, dimensionamento do vetor de controle de ganho de ampliação C5 bruto em resposta ao sinal de controle de ganho de ampliação S 1 de acordo com a invenção (para gerar um vetor de controle de ganho de ampliação para ori-entar o amplificador 116) pode ser realizados em uma maneira não linear. Por exemplo, tal dimensionamento não linear pode gerar um vetor de controle de ganho de ampliação (vetor de substituição S7) que não faz com que a ampliação através do amplificador 116 (isto é, aplicação da unidade de ganho por amplificador 116 e assim nenhum canal de atenuação 103) quando o valor corrente do sinal S1 está abaixo de um limite, e faz com que os valores correntes do vetor de controle de ganho de ampliação (vetor de substituição S7) para igualar os valores correntes do vetor C5 (de modo que sinal S1 não modifica os valores correntes de C5) quando o valor corrente do sinal S1 exceda o limite. Alternativamente, outro dimensionamento linear ou não linear do vetor C5 (em resposta ao sinal de controle de ganho inventivo de ampliação S1) pode ser realizado para gerar um vetor de controle de ganho de ampliação para orientar o amplificador 116. Por exemplo, tal dimensionamento do vetor C5 pode gerar um vetor de controle de ganho de ampliação (vetor de substituição S7) que não faz com que a ampliação através do amplificador 116 (isto é, aplicação da unidade de ganho por amplificador 116) quando o valor corrente do sinal S1 está abaixo de um limite, e faz com que o valor corrente do vetor de controle de ganho de ampliação (vetor de substituição S7) igual ao valor corrente do vetor C5 multiplicado pelo valor corrente do sinal S1 (ou algum outro valor determinado a partir deste produto) quando o valor corrente do sinal S1 exceda o limite.
[0090] Similarmente, nas variações da modalidade da figura 3, dimensionamento do vetor de controle de ganho de ampliação C6 bruto em resposta ao sinal de controle de ganho de ampliação S2 de acordo com a invenção (para gerar um vetor de controle de ganho de ampliação para orientar o amplificador 117) pode ser realizado em uma maneira não linear. Por exemplo, tal dimensionamento não linear pode gerar um vetor de controle de ganho de ampliação (vetor de substituição S8) que não faz com que a ampliação através do amplificador 117 (isto é, aplicação da unidade de ganho por amplificador 117 e assim nenhum canal de atenuação 102) quando o valor corrente do sinal S2 está abaixo de um limite, e faz com que os valores correntes do vetor de controle de ganho de ampliação (vetor de substituição S8) para igualar os valores correntes do vetor C6 (de modo que sinal S2 não modifica os valores correntes de C6) quando o valor corrente do sinal S2 exceda o limite. Alternativamente, outro dimensionamento linear ou não linear do vetor C6 (em resposta ao sinal de controle de ganho inventivo de ampliação S2) pode ser realizados para gerar um vetor de controle de ganho de ampliação para orientar o amplificador 117. Por exemplo, tal dimensionamento do vetor C6 pode gerar um vetor de controle de ganho de ampliação (vetor de substituição S8) que não faz com que a ampliação através do amplificador 117 (isto é, aplicação da unidade de ganho por amplificador 117) quando o valor corrente do sinal S2 está abaixo de um limite, e faz com que o valor corrente do vetor de controle de ganho de ampliação (vetor de substituição S8) igual ao valor corrente do vetor C6 multiplicado pelo valor corrente do sinal S2 (ou algum outro valor determinado a partir deste produto) quando o valor corrente do sinal S2 exceda o limite.
[0091] Ele irá ser aparentes àqueles de conhecimentos normais na técnica a partir desta descrição como as figuras 1, 1A, 2, 2A, ou 3 sistema (e variações em qualquer deles) pode ser modificada para filtrar um sinal de entrada de áudio de multicanais tendo um canal de fala e qualquer número de canais sem fala. Um amplificador de ampliação (ou um software equivalente deste) seria fornecido para cada um canal sem fala, e um sinal de controle de ganho de ampliação seria gerado (por exemplo, dimensionar um sinal de controle bruto de ganho de ampliação) para orientar cada amplificador de ampliação (ou software equivalente destes).
[0092] Como descrito, o sistema da figura 1, 1A, 2, 2A, ou 3 (e cada uma das muitas variações neste) é operável para realizar modalidades do método inventivo para filtragem um sinal multicanal de áudio tendo um canal de fala e pelo menos um canal sem fala para melhorar a inteligibilidade da fala determinada pelo sinal. Em uma primeira classe de tais modalidades, o método inclui etapas de: determinação de pelo menos um valor de controle de atenuação (por exemplo, sinal S1 ou S2 da figura 1, 2, ou 3, ou sinal V1, V2, ou V3 da figura 1A ou 2A) indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada através de pelo menos um canal sem fala do sinal de áudio; e atenuação de pelo menos um canal sem fala do sinal de áudio em resposta a pelo menos um valor de controle de atenuação (por exemplo, no elemento 114 e amplificador 116, ou elemento 115 e amplificador 117, da figura 1, 1A, 2, 2A, ou 3).
[0093] Tipicamente, a etapa de atenuação compreende dimensionar um sinal de controle de atenuação bruto (por exemplo, sinal de controle de ganho de ampliação C1 ou C2 da figura 1 ou 1A, ou sinal C3 ou C4 da figura 2 ou 2A) para o canal sem fala em resposta a pelo menos um valor de controle de atenuação . Preferivelmente, o canal sem fala é atenuado a fim de para melhorar a inteligibilidade da fala determinada pelo canal sem fala indesejavelmente atenuando conteúdo de reforço da fala determinada pelo canal sem fala. Em algumas modalidades na primeira classe, etapa (a) inclui uma etapa de geração um sinal de controle de atenuação (por exemplo, sinal S1 ou S2 da figura 1, 2, ou 3, ou sinal V1, V2, ou V3 da figura 1A ou 2A) indicativo de uma sequência de valores de controle de atenuação, cada dos valores indicativos de controle de atenuação de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada através de pelo menos um canal sem fala do sinal de áudio em um tempo diferente (por exemplo, em um intervalo de tempo diferente), e etapa (b) inclui etapas de: dimensionar um sinal de controle de ganho de ampliação (por exemplo, sinal C1 ou C2 da figura 1 ou 1 A, ou sinal C3 ou C4 da figura 2 ou 2A) em resposta ao sinal de controle de atenuação para gerar um sinal de controle de ganho escalado (por exemplo, sinal S3 ou S4 da figura 1 ou 1 A, ou sinal S5 ou S6 da figura 2 ou 2A), e aplicação o sinal de controle de ganho escalado para atenuar o canal sem fala (por exemplo, afirmar o sinal de controle de ganho escalado ao circuito de ampliação 116 ou 117, da figura 1, 1 A, 2, ou 2A, para controlar a atenuação de pelo menos um canal sem fala pelo circuito de ampliação). Por exemplo, em algumas tais modalidades, etapa (a) inclui uma etapa de comparação de uma primeira sequência de características da fala relacionada indicativa (por exemplo, sinal Q da figura 1 ou 2) indicativo do conteúdo da fala relacionada determinada pelo canal de fala para uma segunda sequência de características da fala relacionada indicativa (por exemplo, sinal P da figura 1 ou 2) indicativo do conteúdo da fala relacionada determinada pelo canal sem fala para gerar o sinal de controle de atenuação, e cada dos valores de controle de atenuação indicado pelo sinal de controle de atenuação é indicativo de uma medida de semelhança entre a primeira sequência de características da fala relacionada indicativa e a segunda sequência de características da fala relacionada indicativa em um tempo diferente (por exemplo, em um intervalo de tempo diferente). Em algumas modalidades, cada valor de controle de atenuação é um valor de controle de ganho.
[0094] Em algumas modalidades na primeira classe, cada valor de controle de atenuação é monótono relacionado à probabilidade de que o canal sem fala é indicativo de conteúdo de reforço da fala que reforça a inteligibilidade (ou outra qualidade percebida) de conteúdo determinado da fala pelo canal da fala. Em algumas outras modalidades na primeira classe, cada valor de controle de atenuação é monótono relacionado a um valor reforçado da fala esperada do canal sem fala (por exemplo, uma medida de probabilidade que o canal sem fala é indicativo de conteúdo de reforço da fala, multiplicado por uma medida de qualidade percebida de aperfeiçoamento em que o conteúdo de reforço da fala determinada pelo canal sem fala seria fornecido para conteúdo determinado da fala pelo sinal multicanal). Por exemplo, onde etapa (a) inclui uma etapa de comparação (por exemplo, no elemento 134 ou 135 da figura 1 ou figura 2) a primeira sequência de características da fala relacionada indicativa indicativo de conteúdo da fala relacionada determinada pelo canal de fala para uma segunda sequência de características da fala relacionada indicativa indicativo de conteúdo da fala relacionada determinada pelo canal sem fala, a primeira sequên- cia de características da fala relacionada indicativa pode ser uma sequência de valores de probabilidade de fala , cada indicação a probabilidade em um tempo diferente (por exemplo, em um intervalo de tempo diferente) em que o canal de fala é indicativo de fala (ao invés de conteúdo de áudio outro do que a fala), e a segunda sequência de características da fala relacionada indicativa pode também ser uma sequência de valores de probabilidade de fala , cada indicação da probabilidade em um tempo diferente (por exemplo, em um intervalo de tempo diferente) em que o canal sem fala é indicativo da fala.
[0095] Como descrito, o sistema da figura 1, 1A, 2, 2A, ou 3 (e cada de muitas variações dos mesmos) é também operável para realizar uma segunda classe de modalidades do método inventivo para filtragem um sinal multicanal de áudio tendo um canal de fala e pelo menos um canal sem fala para melhorar a inteligibilidade da fala determinada pelo sinal. Na segunda classe das modalidades, o método inclui as etapas de: comparação de uma característica do canal de fala e uma característica do canal sem fala para gerar pelo menos um valor de atenuação (por exemplo, valores determinada através do sinal C1 ou C2 da figura 1, ou através do sinal C3 ou C4 da figura 2, ou através do sinal C5 ou C6 da figura 3) para controlar o canal de atenuação sem fala relativo ao canal da fala; e ajuste de pelo menos um valor de atenuação em resposta para pelo menos um valor de probabilidade de aperfeiçoamento da fala (por exemplo, sinal S1 ou S2 da figura 1, 2, ou 3) para gerar pelo menos um valor de atenuação ajustado (por exemplo, valores do sinal determinado S3 ou S4 da figura 1, ou através do sinal S5 ou S6 da figura 2, ou através do sinal S7 ou S8 da figura 3) para controlar o canal de atenuação sem fala relativa ao canal da fala. Tipicamente, a etapa de ajuste é ou inclui dimensionar (por exemplo, no elemento 114 ou 115 da figura 1, 2, ou 3) cada referido valor de atenuação em resposta a um referido valor de probabilidade de aperfeiçoamento da fala para gerar um referido valor de atenuação ajustado. Tipicamente, cada valor de probabilidade de aperfeiçoamento da fala é indicativo de (por exemplo, monótona relacionada à) uma probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala (conteúdo que reforça a inteligibilidade ou outro qualidade percebida de conteúdo determinado da fala pelo canal da fala). Em algumas modalidades, o valor de probabilidade de aperfeiçoamento da fala é indicativo de um valor reforçado da fala esperada do canal sem fala (por exemplo, uma medida de probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala multiplicado por uma medida de qualidade percebida de aperfeiçoamento em que o conteúdo de reforço da fala determinada pelo canal sem fala seria fornecido ao conteúdo determinado da fala pelo sinal multicanal de áudio). Em algumas modalidades nas segundas classes, o valor de probabilidade de aperfeiçoamento da fala é uma sequência de valores de comparação (por exemplo, valores de diferença) determinada por um método incluindo uma etapa de comparação uma primeira sequência de características da fala relacionada indicativa indicativo de conteúdo da fala relacionada determinada pelo canal de fala para uma segunda sequência de características da fala relacionada indicativa indicativo de conteúdo da fala relacionada determinada pelo canal sem fala , e cada do valores de comparação é uma medida de semelhança entre a primeira sequência de características da fala relacionada indicativa e a segunda sequência de características da fala relacionada indicativa em um tempo diferente (por exemplo, em um intervalo de tempo diferente). Em modalidades típicas nas segundas classes, o método também inclui a etapa de atenuação o canal sem fala (por exemplo, no amplificador 116 ou 117 da figura 1, 2, ou 3) em resposta a pelo menos um valor de atenuação ajustado. Etapa (b) pode compreender dimensionar pelo menos um valor de atenuação (por exemplo, cada valor de atenuação determinada através do sinal C1 ou C2 da figura 1), ou outro valor de atenuação determinada por um sinal de controle de ganho de ampliação ou outro sinal de controle bruto de atenuação) em resposta a pelo menos um valor de probabilidade de aperfeiçoamento da fala (por exemplo, o valor correspondente determinado através do sinal S1 ou S2 da figura 1).
[0096] Na operação da figura 1 sistema para realizar uma modalidade nas segundas classes, cada valor de atenuação determinada através do sinal C1 ou C2 é um primeiro fator indicativo de uma quantidade do canal de atenuação sem fala necessário para limitar a razão da potência do sinal no canal sem fala à potência do sinal no canal de fala para não exceder um de um limite predeterminado, escalado por um segundo fator monótono relacionado à probabilidade do canal de fala sendo indicativo de fala. Tipicamente, a etapa de ajuste nestas modalidades é (ou inclui) dimensionar cada valor de atenuação C1 ou C2 por um valor de probabilidade de aperfeiçoamento da fala (determinada através do sinal S1 ou S2) para gerar um valor de atenuação ajustado (determinada através do sinal S3 ou S4), onde o valor de probabilidade de aperfeiçoamento da fala é um fator monótono relacionado para um de: uma probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala (conteúdo que reforça a inteligibilidade ou outra qualidade percebida de conteúdo determinado da fala pelo sinal multicanal), e um valor reforçado da fala esperada do canal sem fala (por exemplo, uma medida da probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala multiplicado por uma medida da qualidade percebida de aperfeiçoamento em que o conteúdo de reforço da fala no canal sem fala seria fornecido ao conteúdo determinado da fala pelo sinal multicanal).
[0097] Na operação do sistema na figura 2 para realizar uma mo- dalidade nas segundas classes, cada valor de atenuação determinada através do sinal C3 ou C4 é um primeiro fator indicativo de uma quantidade (por exemplo, a quantidade mínima) de canal de atenuação sem fala suficiente para fazer com que a inteligibilidade prevista da fala determinada pelo canal de fala na presença de conteúdo determinada pelo canal sem fala para exceder um valor limite predeterminado, escalado por um segundo fator monótono relacionado à probabilidade do canal de fala sendo indicativo de fala. Preferivelmente, a inteligibilidade prevista da fala determinada pelo canal de fala na presença de conteúdo determinada pelo canal sem fala é determinada de acordo com um modelo previsto de inteligibilidade com base psico-acústica. Tipicamente, a etapa de ajuste nestas modalidades é (ou inclui) dimensionar cada referido valor de atenuação por um referido valor de probabilidade de aperfeiçoamento da fala (determinada através do sinal S1 ou S2) para gerar um valor de atenuação ajustado (determinada através do sinal S5 ou S6), onde o valor de probabilidade de aperfeiçoamento da fala é um fator monótono relacionado para um de: uma probabilidade em que o canal sem fala é indicativo de conteúdo de reforço da fala, e um valor reforçado da fala esperada do canal sem fala.
[0098] Na operação do sistema da figura 3 para realizar uma modalidade nas segundas classes, cada valor de atenuação determinado através do sinal C1 ou C2 é determinado por etapas incluindo determinação (no elemento 301, 302, ou 303) um espectro de potência indicativo da potência como uma função da frequência, de cada canal de fala 101 e canais sem fala 102 e 103, e execução a determinação de domínio de frequência do valor de atenuação, desse modo determinação atenuação como uma função de frequência para ser aplicada para componentes de frequência do canal sem fala.
[0099] Em uma classe das modalidades, a invenção é um método e sistema para melhorar a fala determinada por um sinal de entrada de áudio de multicanais. Em algumas tais modalidades, o sistema inventivo inclui um módulo de análise ou subsistema (por exemplo, elementos 130-135, 104-109, 114, e 115 da figura 1, ou elementos 130-135, 201-204, 114, e 115 da figura 2) configurado para analisar a entrada de sinal multicanal para gerar valores de controle de atenuação, e um subsistema de atenuação (por exemplo, amplificadores 116 e 117 da figura 1 ou figura 2). O subsistema de atenuação inclui circuito de ampliação (dirigido pelo menos alguns dos valores de controle de atenuação) acoplada e configurado para aplicar atenuação (ampliação) para cada canal sem fala de um sinal de entrada para gerar um sinal de saída de áudio filtrado. O circuito de ampliação é valor de controle dirigido no sentido de que a atenuação que se aplica aos canais sem fala é determinada por valores correntes dos valores de controle.
[00100] Em algumas modalidades, uma razão de canal de fala (por exemplo, canal central) potência para canal sem fala (por exemplo, canal ao lado e/ou canal traseiro) potência é usada para determinar como muita ampliação (atenuação) deve ser aplicada a cada canal sem fala. Por exemplo, na figura 1 a modalidade de ganho aplicada através de cada um dos amplificadores de ampliação 116 e 117 é reduzido em resposta a uma diminuição de um valor de controle de ganho (de saída a partir do elemento 114 ou elemento 115) que está in-dicativo de diminuição de potência (dentro dos limites) do canal de fala 101 relativa à potência de um canal sem fala (canal esquerdo 102 ou canal direito 103) determinada no módulo de análise (isto é, um amplificador de ampliação atenua um canal sem fala por mais relativa ao canal de fala quando o canal de fala potência diminui (dentro dos limites) relativa à potência do canal sem fala) assumindo que nenhuma mudança na probabilidade (como determinado no módulo de análise) em que o canal sem fala inclui conteúdo de reforço da fala que reforça conteúdo determinado da fala pelo canal da fala.
[00101] Em algumas modalidades alternativas, uma versão modificada do módulo de análise da figura 1 ou figura 2 processa individualmente cada uma de uma ou mais sub-bandas de frequência de cada canal de um sinal de entrada. Especificamente, o sinal em cada canal pode ser passado através de um banco de filtro de passa banda, produzindo três conjuntos de sub-bandas n: {Li, L2, Ln}, {Ci, C2, Cn}, e {%, R2,... , Rn}. Combinando sub-bandas são passadas a instâncias n do módulo de análise da figura 1 (ou figura 2), e os subsinais filtrados (as saídas dos amplificadores de ampliação para os canais sem fala, e os subsinais do canal de fala não filtrado) são recombinados por circuitos somatórios para gerar 0 sinal de saída de áudio de multicanais filtrado. Para realizar em cada sub-banda as operações realizadas pelo elemento 109 da figura 1, um valor limite separado ψη (correspondente ao valor limite $ do elemento 109) pode ser selecionado para cada uma sub-banda. Uma boa escolha é um conjunto em que <t>n é proporcional ao número médio de sinais de fala transportado na região de frequência correspondente isto é, bandas nos extremos do espectro de frequência são atribuídas limites menores que bandas correspondentes de frequências da fala dominante. Esta implementação da invenção pode oferecer uma troca muito boa entre complexidade computacional e desempenho.
[00102] Figura 4 é um diagrama de blocos de um sistema 420 (um áudio configurado DSP) que tem sido configurado para realizar uma modalidade do método inventivo. Sistema 420 inclui programável DSP circuito 422 (um módulo de aperfeiçoamento da fala ativa do sistema 420) acoplada para receber um sinal de entrada de áudio de multicanais. Por exemplo, canais sem fala Lin e Rin do sinal podem corresponder a canais 102 e 103 de um sinal de entrada descrito com referência às figuras 1, 1A, 2, 2A, e 3, 0 sinal pode também incluir canais sem fala adicionais (por exemplo, esquerda traseira e direita traseira canais), e canal de fala Cin do sinal pode corresponder a canal 101 de um sinal de entrada descrito com referência às figuras 1, 1A, 2, 2A, e 3. Circuito 422 é configurado em resposta para controlar os dados a partir da interface de controle 421 para realizar uma modalidade do método inventivo, para gerar um sinal de áudio de saída multicanal de fala melhorada em resposta ao sinal de entrada de áudio. Para o sistema do programa 420, software adequado é afirmado a partir de um processador externo para interface de controle 421, e a interface 421 afirma em resposta adequada de controle de dados para o circuito 422 para configurar o circuito 422 para realizar o método inventivo.
[00103] Na operação, um áudio DSP que tem sido configurado para realizar aperfeiçoamento da fala de acordo com a invenção (por exemplo, sistema 420 da figura 4) é acoplado para receber um sinal de entrada N-canal de áudio, e o DSP tipicamente executa uma variedade de operações sobre o áudio de entrada (ou uma versão processada do mesmo) além de (bem como) aperfeiçoamento da fala. Por exemplo, sistema 420 da figura 4 pode ser implementado para realizar outras operações (sobre a saída do circuito 422) no subsistema do processamento 423. De acordo com diversas modalidades da invenção, um áudio DSP é operável para realizar uma modalidade do método inventivo após sendo configurada (por exemplo, programado) para gerar um sinal de áudio de saída em resposta a um sinal de áudio de entrada através da execução do método sobre um sinal de entrada de áudio.
[00104] Em algumas modalidades, o sistema inventivo é ou inclui um processador de finalidade geral acoplada para receber ou para gerar dados de entrada indicativos de um sinal multicanal de áudio. O processador é programado com software (ou firmware) e/ou de outra maneira configurado (por exemplo, em resposta para controlar os dados) para realizar qualquer um de uma variedade de operações de dados de entrada, incluindo uma modalidade do método inventivo. O sis- tema de computador da figura 5 é um exemplo de um tal sistema. A figura 5 do sistema inclui processador de finalidade geral 501 que é programado para realizar qualquer um de uma variedade de operações sobre os dados de entrada, incluindo uma modalidade do método inventivo.
[00105] O sistema de computador da figura 5 também inclui dispositivo de entrada 503 (por exemplo, um mouse e/ou um teclado) acoplada ao processador 501, meio de armazenamento 504 acoplada ao processador 501, e dispositivo de exibição 505 acoplada ao processador 501. Processador 501 é programado para implementar o método inventivo em resposta para instruções e dados inseridos pela manipulação do usuário do dispositivo de entrada 503. Meio de armazenamento legível de computador 504 (por exemplo, um disco óptico ou outro objeto tangível) tem código de computador armazenado nele que é adequado para processador de programação 501 para realizar uma modalidade do método inventivo. Na operação, processador 501 executa o código de computador para processo de dados indicativos de um sinal de entrada de áudio de multicanais de acordo com a invenção para gerar dados de saída indicativos de um sinal de saída de áudio de multicanais.
[00106] O sistema acima descrito nas figuras 1, 1A, 2, 2A, ou 3 poderia ser implementado no processador de finalidade geral 501, com sinal de entrada canais 101, 102, e 103 sendo dados indicativos do centro (fala) e esquerda e direita (sem fala) canais de áudio de entrada (por exemplo, de um sinal de som surround), e sinal de canais de saída 118 e 119 sendo dados de saída indicativos de canais de saída de áudio esquerdo e direito de fala enfatizada (por exemplo, de um sinal de som surround de fala enfatizada). Um conversor digital para analógico convencional (DAC) poderia operar da saída dados para gerar versões analógicas de sinais do canal de áudio de saída para reprodu- ção através de alto-falantes físicos.
[00107] Aspectos da invenção são um sistema de computador programado para realizar qualquer modalidade do método inventivo, e um meio legível em computador que armazena código legível para computador para implementação de qualquer modalidade do método inventivo.
[00108] Enquanto modalidades específicas da presente invenção e aplicações da invenção têm sido descrito aqui, será aparente àqueles de conhecimentos normais na técnica em que muitas variações sobre as modalidades e aplicações descritas aqui é possível sem partir do escopo da invenção descrito e reivindicada aqui. Deve ser entendido que enquanto certas formas da invenção têm sido mostradas e descritas, a invenção não é para ser limitado para as modalidades específicas descritas e mostradas ou os métodos específicos descritos.
Claims (19)
1. Método para filtrar um sinal multicanal de áudio tendo um canal de fala (101) e pelo menos um canal sem fala (102,103) para melhorar a inteligibilidade da fala determinada pelo sinal, caracterizado pelo fato de que compreende as etapas de: (a) determinar pelo menos um valor de controle de atenuação indicativo de uma medida de semelhança entre conteúdo da fala relacionada determinada pelo canal de fala (101) e conteúdo da fala relacionada determinada através de pelo menos um canal sem fala (102,103) do sinal multicanal de áudio, em que o valor de controle de atenuação é gerado com base em pelo menos um valor de probabilidade de aprimoramento de fala para o canal sem fala (102,103), e o valor de probabilidade de aprimoramento de fala é indicativo de uma probabilidade de que o referido pelo menos um canal sem fala (102,103) seja indicativo de conteúdo que aprimora qualidade do conteúdo da fala determinada pelo canal de fala; e (b) atenuar pelo menos um canal sem fala (102,103) do sinal multicanal de áudio em resposta ao pelo menos um valor de controle de atenuação.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que cada valor de controle de atenuação determinado na etapa (a) é indicativo de uma medida de semelhança entre um conteúdo da fala relacionada determinado pelo canal de fala (101) e o conteúdo da fala relacionada determinado por um canal sem fala (102,103) do sinal de áudio, e a etapa (b) inclui uma etapa de atenuação do referido canal sem fala (102,103) em resposta ao referido valor de controle de cada atenuação.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa (a) inclui uma etapa de derivar um canal sem fala (102,103) derivado do pelo menos um canal sem fala (102,103) do sinal de áudio, e o pelo menos um valor de controle de atenuação é indicativo de uma medida de semelhança entre o conteúdo da fala relacionada determinado pelo canal de fala (101) e o conteúdo da fala relacionada determinado pelo canal sem fala (102,103) derivado.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o canal sem fala (102,103) derivado é derivado pela combinação de um primeiro canal sem fala (102,103) do sinal de áudio multicanal e um segundo canal sem fala (102,103) do sinal de áudio multicanal.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa (b) compreende a etapa de dimensionar um sinal de controle de atenuação bruto (C1 ,C2,C3,C4) para o canal sem fala (102,103) em resposta a pelo menos um valor de controle de atenuação (S1,S2,V3).
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa (a) compreende a etapa de gerar um sinal de controle de atenuação (S1,S2,V3) indicativo de uma sequência de valores de controle de atenuação, cada um dos valores indicativos de controle de atenuação de uma medida de semelhança em um tempo diferente entre conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada através de pelo menos um canal sem fala (102,103) do sinal multicanal de áudio, e a etapa (b) compreende as etapas de: dimensionar um sinal de controle de ganho de ampliação (C1,C2,C3,C4) em resposta ao sinal de controle de atenuação para gerar um sinal de controle de ganho dimensionado (S3,S4,S5,S6); e aplicar o sinal de controle de ganho dimensionado para atenuar pelo menos um canal sem fala (102,103) do sinal multicanal de áudio.
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que a etapa (a) compreende a etapa de comparar uma primeira sequência de características da fala relacionada (Q) indicativa do conteúdo da fala relacionada determinada pelo canal da fala, a uma segunda sequência de características da fala relacionada (P ou T) indicativa do conteúdo da fala relacionada determinada através de pelo menos um canal sem fala (102,103) do sinal multicanal de áudio para gerar o sinal de controle de atenuação, e cada um dos valores de controle de atenuação indicados pelo sinal de controle de atenuação (S1,S2,V3) é indicativo de uma medida de semelhança em um tempo diferente entre a primeira sequência de características da fala relacio-nada e a segunda sequência de característica da fala relacionada.
8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que cada valor de controle de atenuação é monotonica- mente relacionado à probabilidade de que pelo menos um canal sem fala (102,103) do sinal de áudio multicanal seja indicativo do conteúdo que melhora a qualidade percebida do conteúdo de fala determinado pelo canal de fala (101).
9. Método para filtrar um sinal multicanal de áudio tendo um canal de fala (101) e pelo menos um canal sem fala (102,103) para melhorar a inteligibilidade da fala determinada pelo sinal, caracterizado pelo fato de que compreende as etapas de: (a) comparar uma característica do canal de fala (101) e uma característica do canal sem fala (102,103) para gerar pelo menos um valor de atenuação (C1,C2,C3,C4,C5,C6) para controlar a atenuação do canal sem fala (102,103) relativa ao canal de fala (101), em que o valor de controle de atenuação (C1,C2,C3,C4,C5,C6) é gerado com base em pelo menos um valor de probabilidade de aprimoramento de fala para o canal sem fala (102,103) e o valor de probabilidade de aprimoramento de fala é indicativo de uma probabilidade de que pelo menos um canal sem fala (102,103) seja indicativo de conteúdo que aprimora a qualidade percebida do conteúdo de fala determinado pelo canal de fala (101); e (b) ajustar pelo menos um valor de atenuação em resposta a pelo menos um valor de probabilidade de aperfeiçoamento da fala (S1,S2,V3) para gerar pelo menos um valor de atenuação ajustado (S3,S4,S5,S6,S7,S8) para controlar a atenuação do canal sem fala (102,103) relativa ao canal de fala (101).
10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que a etapa (b) compreende a etapa de dimensionar cada valor de atenuação (C3,C4) em resposta a um valor de probabilidade de aperfeiçoamento da fala (V3) para gerar pelo menos um valor de atenuação ajustado (S5,S6).
11. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que cada valor de probabilidade de aperfeiçoamento da fala (S1,S2,V3) é monotonamente relacionado à probabilidade de que o canal sem fala é indicativo de conteúdo de reforço da fala que reforça uma qualidade percebida de conteúdo da fala determinado pelo canal da fala (101).
12. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que pelo menos um valor de probabilidade de aperfeiçoamento da fala é uma sequência de valores de comparação, e o método inclui uma etapa de: determinar a sequência de valores de comparação através de comparação de uma primeira sequência de características da fala relacionada (Q) indicativa de conteúdo da fala relacionada determinada pelo canal de fala para uma segunda sequência de características da fala relacionada (P ou T) indicativa do conteúdo da fala relacionada determinada pelo canal sem fala (102,103) onde cada dos valores de comparação é uma medida de semelhança em um tempo diferente entre a primeira sequência de características da fala relacionada e a segunda sequência de características da fala relacionada.
13. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que ainda compreende a etapa de: (c) atenuar o canal sem fala (102,103) em resposta a pelo menos um valor de atenuação ajustado.
14. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que cada valor de atenuação (C1,C2,C3,C4) gerado na etapa (a) é um primeiro fator indicativo de uma quantidade de atenuação do canal sem fala (102,103) necessária para limitar a razão de potência do sinal no canal sem fala para a potência do sinal no canal de fala (101) para não exceder um de um limite predeterminado, dimensionado por um segundo fator monotonamente relacionado à probabilidade do canal de fala sendo indicativo de fala.
15. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que cada valor de atenuação (C1,C2,C3,C4) gerado na etapa (a) é um primeiro fator indicativo de uma quantidade de atenuação do canal sem fala (102,103) suficiente para fazer com que a inteligibilidade prevista de fala determinada pelo canal de fala (101) na presença de conteúdo determinada pelo canal sem fala (102,103) para exceder um valor limite predeterminado, dimensionado por um segundo fator monotonamente relacionado à probabilidade do canal de fala sendo indicativo de fala.
16. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que a geração de cada valor de atenuação na etapa (a) inclui as etapas de: determinar um espectro de potência indicativo de potência como uma função de frequência do canal de fala e um segundo espectro de potência indicativo da potência como uma função de frequência do canal sem fala, e executar uma determinação no domínio de frequência do valor de atenuação em resposta ao espectro de potência e ao segundo espectro de potência.
17. Meio legível em computador (504), caracterizado pelo fato de que é um meio não transitório que compreende um método para fazer com que um processador (501) processe dados indicativos de um sinal multicanal de áudio tendo um canal de fala e pelo menos um canal sem fala para melhorar a inteligibilidade da fala determinada pelo sinal, o método incluindo as etapas de: (a) determinar pelo menos um valor de controle de atenuação (S1,S2,V3) indicativo de uma medida de semelhança entre o conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada pelo canal sem fala, em que o valor de controle de atenuação é gerado com base em pelo menos um valor de probabilidade de aprimoramento de fala para o canal sem fala (102,103) e o valor de probabilidade de aprimoramento de fala é indicativo de uma probabilidade de que o referido canal sem fala (102,103) seja indicativo de conteúdo que melhora a qualidade percebida do conteúdo de fala determinado pelo canal de fala (101); e (b) atenuar o canal sem fala (102,103) em resposta ao pelo menos um valor de controle de atenuação.
18. Meio legível por computador, de acordo com a reivindicação 17, caracterizado pelo fato de que compreendendo um método para fazer com que um processador dimensione dados indicativos de um sinal de controle de atenuação bruto (C1,C2,C3,C4,C5,C6) para o canal sem fala (102,103) em resposta a pelo menos um valor de controle de atenuação (S1,S2,V3).
19. Meio legível por computador, de acordo com a reivindicação 18, caracterizado pelo fato de que compreende um método para fazer com que um processador execute as ações de: gerar dados indicativos de uma sequência de valores de controle de atenuação (S1,S2,V3), cada um dos valores de controle de atenuação indicativos de uma medida de semelhança em um tempo diferente entre o conteúdo da fala relacionada determinada pelo canal de fala e conteúdo da fala relacionada determinada pelo canal sem fala; e dimensionar dados indicativos de um sinal de controle de ganho de submersão (C1,C2,C3,C4,C5,C6) em resposta aos valores de controle de atenuação em sequência para gerar dados indicativos de um sinal de controle de ganho dimensionado.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31143710P | 2010-03-08 | 2010-03-08 | |
US61/311,437 | 2010-03-08 | ||
BR112012022571-5A BR112012022571B1 (pt) | 2010-03-08 | 2011-02-28 | Método para filtrar um sinal multican al de áudio, sistema para aperfeiçoar a fala determinada por um sinal de entrada de áudio de multican al e meio legível em computador |
PCT/US2011/026505 WO2011112382A1 (en) | 2010-03-08 | 2011-02-28 | Method and system for scaling ducking of speech-relevant channels in multi-channel audio |
Publications (1)
Publication Number | Publication Date |
---|---|
BR122019024041B1 true BR122019024041B1 (pt) | 2020-08-11 |
Family
ID=43919902
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122019024041-8A BR122019024041B1 (pt) | 2010-03-08 | 2011-02-28 | Método para filtrar um sinal multicanal de áudio e meio legível em computador |
BR112012022571-5A BR112012022571B1 (pt) | 2010-03-08 | 2011-02-28 | Método para filtrar um sinal multican al de áudio, sistema para aperfeiçoar a fala determinada por um sinal de entrada de áudio de multican al e meio legível em computador |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112012022571-5A BR112012022571B1 (pt) | 2010-03-08 | 2011-02-28 | Método para filtrar um sinal multican al de áudio, sistema para aperfeiçoar a fala determinada por um sinal de entrada de áudio de multican al e meio legível em computador |
Country Status (9)
Country | Link |
---|---|
US (2) | US9219973B2 (pt) |
EP (1) | EP2545552B1 (pt) |
JP (1) | JP5674827B2 (pt) |
CN (2) | CN102792374B (pt) |
BR (2) | BR122019024041B1 (pt) |
ES (1) | ES2709523T3 (pt) |
RU (1) | RU2520420C2 (pt) |
TW (1) | TWI459828B (pt) |
WO (1) | WO2011112382A1 (pt) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2565394T3 (es) * | 2011-12-15 | 2016-04-04 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato, método y programa informático para evitar artefactos de recorte |
US9781529B2 (en) | 2012-03-27 | 2017-10-03 | Htc Corporation | Electronic apparatus and method for activating specified function thereof |
WO2013150340A1 (en) * | 2012-04-05 | 2013-10-10 | Nokia Corporation | Adaptive audio signal filtering |
US10156455B2 (en) | 2012-06-05 | 2018-12-18 | Apple Inc. | Context-aware voice guidance |
US9886794B2 (en) | 2012-06-05 | 2018-02-06 | Apple Inc. | Problem reporting in maps |
EP3957956A1 (en) * | 2012-06-05 | 2022-02-23 | Apple Inc. | Context-aware voice guidance |
US9516418B2 (en) | 2013-01-29 | 2016-12-06 | 2236008 Ontario Inc. | Sound field spatial stabilizer |
EP2760021B1 (en) * | 2013-01-29 | 2018-01-17 | 2236008 Ontario Inc. | Sound field spatial stabilizer |
SG11201507066PA (en) | 2013-03-05 | 2015-10-29 | Fraunhofer Ges Forschung | Apparatus and method for multichannel direct-ambient decomposition for audio signal processing |
MY197063A (en) * | 2013-04-05 | 2023-05-23 | Dolby Int Ab | Companding system and method to reduce quantization noise using advanced spectral extension |
US9271100B2 (en) | 2013-06-20 | 2016-02-23 | 2236008 Ontario Inc. | Sound field spatial stabilizer with spectral coherence compensation |
US9099973B2 (en) | 2013-06-20 | 2015-08-04 | 2236008 Ontario Inc. | Sound field spatial stabilizer with structured noise compensation |
US9106196B2 (en) | 2013-06-20 | 2015-08-11 | 2236008 Ontario Inc. | Sound field spatial stabilizer with echo spectral coherence compensation |
EP3503095A1 (en) | 2013-08-28 | 2019-06-26 | Dolby Laboratories Licensing Corp. | Hybrid waveform-coded and parametric-coded speech enhancement |
WO2015116687A1 (en) * | 2014-01-28 | 2015-08-06 | St. Jude Medical, Cardiology Division, Inc. | Elongate medical devices incorporating a flexible substrate, a sensor, and electrically-conductive traces |
US9654076B2 (en) * | 2014-03-25 | 2017-05-16 | Apple Inc. | Metadata for ducking control |
US8874448B1 (en) * | 2014-04-01 | 2014-10-28 | Google Inc. | Attention-based dynamic audio level adjustment |
US9615170B2 (en) * | 2014-06-09 | 2017-04-04 | Harman International Industries, Inc. | Approach for partially preserving music in the presence of intelligible speech |
AU2015326856B2 (en) * | 2014-10-02 | 2021-04-08 | Dolby International Ab | Decoding method and decoder for dialog enhancement |
JP6508491B2 (ja) | 2014-12-12 | 2019-05-08 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置 |
WO2016115622A1 (en) | 2015-01-22 | 2016-07-28 | Eers Global Technologies Inc. | Active hearing protection device and method therefore |
US9747923B2 (en) * | 2015-04-17 | 2017-08-29 | Zvox Audio, LLC | Voice audio rendering augmentation |
US9947364B2 (en) | 2015-09-16 | 2018-04-17 | Google Llc | Enhancing audio using multiple recording devices |
JP6567479B2 (ja) * | 2016-08-31 | 2019-08-28 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
EP3566229B1 (en) * | 2017-01-23 | 2020-11-25 | Huawei Technologies Co., Ltd. | An apparatus and method for enhancing a wanted component in a signal |
US10013995B1 (en) * | 2017-05-10 | 2018-07-03 | Cirrus Logic, Inc. | Combined reference signal for acoustic echo cancellation |
US11335357B2 (en) * | 2018-08-14 | 2022-05-17 | Bose Corporation | Playback enhancement in audio systems |
CN111354356B (zh) * | 2018-12-24 | 2024-04-30 | 北京搜狗科技发展有限公司 | 一种语音数据处理方法及装置 |
MX2021012309A (es) | 2019-04-15 | 2021-11-12 | Dolby Int Ab | Mejora de dialogo en codec de audio. |
US11335361B2 (en) * | 2020-04-24 | 2022-05-17 | Universal Electronics Inc. | Method and apparatus for providing noise suppression to an intelligent personal assistant |
CN115699172A (zh) * | 2020-05-29 | 2023-02-03 | 弗劳恩霍夫应用研究促进协会 | 用于处理初始音频信号的方法和装置 |
CN115881146A (zh) * | 2021-08-05 | 2023-03-31 | 哈曼国际工业有限公司 | 用于动态语音增强的方法及系统 |
WO2023208342A1 (en) * | 2022-04-27 | 2023-11-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for scaling of ducking gains for spatial, immersive, single- or multi-channel reproduction layouts |
Family Cites Families (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657422A (en) * | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
US5666429A (en) * | 1994-07-18 | 1997-09-09 | Motorola, Inc. | Energy estimator and method therefor |
JPH08222979A (ja) * | 1995-02-13 | 1996-08-30 | Sony Corp | オーディオ信号処理装置、およびオーディオ信号処理方法、並びにテレビジョン受像機 |
US5920834A (en) * | 1997-01-31 | 1999-07-06 | Qualcomm Incorporated | Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system |
US5983183A (en) * | 1997-07-07 | 1999-11-09 | General Data Comm, Inc. | Audio automatic gain control system |
US20020002455A1 (en) * | 1998-01-09 | 2002-01-03 | At&T Corporation | Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system |
US6226321B1 (en) * | 1998-05-08 | 2001-05-01 | The United States Of America As Represented By The Secretary Of The Air Force | Multichannel parametric adaptive matched filter receiver |
US6591234B1 (en) * | 1999-01-07 | 2003-07-08 | Tellabs Operations, Inc. | Method and apparatus for adaptively suppressing noise |
US6442278B1 (en) * | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
KR100304666B1 (ko) * | 1999-08-28 | 2001-11-01 | 윤종용 | 음성 향상 방법 |
ATE330818T1 (de) * | 1999-11-24 | 2006-07-15 | Donnelly Corp | Rückblickspiegel mit nutzfunktion |
WO2001041427A1 (en) * | 1999-12-06 | 2001-06-07 | Dmi Biosciences, Inc. | Noise reducing/resolution enhancing signal processing method and system |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
JP2001268700A (ja) * | 2000-03-17 | 2001-09-28 | Fujitsu Ten Ltd | 音響装置 |
US6523003B1 (en) * | 2000-03-28 | 2003-02-18 | Tellabs Operations, Inc. | Spectrally interdependent gain adjustment techniques |
US6766292B1 (en) * | 2000-03-28 | 2004-07-20 | Tellabs Operations, Inc. | Relative noise ratio weighting techniques for adaptive noise cancellation |
US20040096065A1 (en) * | 2000-05-26 | 2004-05-20 | Vaudrey Michael A. | Voice-to-remaining audio (VRA) interactive center channel downmix |
US20070233479A1 (en) * | 2002-05-30 | 2007-10-04 | Burnett Gregory C | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
JP4282227B2 (ja) * | 2000-12-28 | 2009-06-17 | 日本電気株式会社 | ノイズ除去の方法及び装置 |
US20020159434A1 (en) * | 2001-02-12 | 2002-10-31 | Eleven Engineering Inc. | Multipoint short range radio frequency system |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US20040148166A1 (en) * | 2001-06-22 | 2004-07-29 | Huimin Zheng | Noise-stripping device |
JP2005502247A (ja) * | 2001-09-06 | 2005-01-20 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ再生装置 |
JP2003084790A (ja) * | 2001-09-17 | 2003-03-19 | Matsushita Electric Ind Co Ltd | 台詞成分強調装置 |
WO2007106399A2 (en) * | 2006-03-10 | 2007-09-20 | Mh Acoustics, Llc | Noise-reducing directional microphone array |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP3810004B2 (ja) * | 2002-03-15 | 2006-08-16 | 日本電信電話株式会社 | ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム |
EP1520395B1 (en) * | 2002-07-01 | 2008-12-31 | Koninklijke Philips Electronics N.V. | Stationary spectral power dependent audio enhancement system |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
US7305097B2 (en) * | 2003-02-14 | 2007-12-04 | Bose Corporation | Controlling fading and surround signal level |
US8271279B2 (en) * | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US7127076B2 (en) * | 2003-03-03 | 2006-10-24 | Phonak Ag | Method for manufacturing acoustical devices and for reducing especially wind disturbances |
US8724822B2 (en) * | 2003-05-09 | 2014-05-13 | Nuance Communications, Inc. | Noisy environment communication enhancement system |
EP1509065B1 (en) * | 2003-08-21 | 2006-04-26 | Bernafon Ag | Method for processing audio-signals |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
US8170879B2 (en) * | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8306821B2 (en) * | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US8543390B2 (en) * | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
KR100679044B1 (ko) * | 2005-03-07 | 2007-02-06 | 삼성전자주식회사 | 사용자 적응형 음성 인식 방법 및 장치 |
US8280730B2 (en) * | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
JP4670483B2 (ja) * | 2005-05-31 | 2011-04-13 | 日本電気株式会社 | 雑音抑圧の方法及び装置 |
US8233636B2 (en) * | 2005-09-02 | 2012-07-31 | Nec Corporation | Method, apparatus, and computer program for suppressing noise |
US20070053522A1 (en) * | 2005-09-08 | 2007-03-08 | Murray Daniel J | Method and apparatus for directional enhancement of speech elements in noisy environments |
JP4356670B2 (ja) * | 2005-09-12 | 2009-11-04 | ソニー株式会社 | 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置 |
US7366658B2 (en) * | 2005-12-09 | 2008-04-29 | Texas Instruments Incorporated | Noise pre-processor for enhanced variable rate speech codec |
WO2007098258A1 (en) * | 2006-02-24 | 2007-08-30 | Neural Audio Corporation | Audio codec conditioning system and method |
JP4738213B2 (ja) * | 2006-03-09 | 2011-08-03 | 富士通株式会社 | 利得調整方法及び利得調整装置 |
US7555075B2 (en) * | 2006-04-07 | 2009-06-30 | Freescale Semiconductor, Inc. | Adjustable noise suppression system |
KR101061132B1 (ko) * | 2006-09-14 | 2011-08-31 | 엘지전자 주식회사 | 다이알로그 증폭 기술 |
US20080082320A1 (en) * | 2006-09-29 | 2008-04-03 | Nokia Corporation | Apparatus, method and computer program product for advanced voice conversion |
ATE425532T1 (de) * | 2006-10-31 | 2009-03-15 | Harman Becker Automotive Sys | Modellbasierte verbesserung von sprachsignalen |
US8615393B2 (en) * | 2006-11-15 | 2013-12-24 | Microsoft Corporation | Noise suppressor for speech recognition |
WO2008073487A2 (en) * | 2006-12-12 | 2008-06-19 | Thx, Ltd. | Dynamic surround channel volume control |
JP2008148179A (ja) * | 2006-12-13 | 2008-06-26 | Fujitsu Ltd | 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法 |
JP5140684B2 (ja) * | 2007-02-12 | 2013-02-06 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率 |
BRPI0807703B1 (pt) * | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
JP2008216720A (ja) * | 2007-03-06 | 2008-09-18 | Nec Corp | 信号処理の方法、装置、及びプログラム |
US20090010453A1 (en) * | 2007-07-02 | 2009-01-08 | Motorola, Inc. | Intelligent gradient noise reduction system |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
US8600516B2 (en) * | 2007-07-17 | 2013-12-03 | Advanced Bionics Ag | Spectral contrast enhancement in a cochlear implant speech processor |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
US8326617B2 (en) * | 2007-10-24 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement with minimum gating |
US8296136B2 (en) * | 2007-11-15 | 2012-10-23 | Qnx Software Systems Limited | Dynamic controller for improving speech intelligibility |
KR101444100B1 (ko) * | 2007-11-15 | 2014-09-26 | 삼성전자주식회사 | 혼합 사운드로부터 잡음을 제거하는 방법 및 장치 |
CN102017402B (zh) * | 2007-12-21 | 2015-01-07 | Dts有限责任公司 | 用于调节音频信号的感知响度的系统 |
CN101911182A (zh) * | 2008-01-01 | 2010-12-08 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
KR101147780B1 (ko) * | 2008-01-01 | 2012-06-01 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
KR101227876B1 (ko) * | 2008-04-18 | 2013-01-31 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치 |
US9373339B2 (en) * | 2008-05-12 | 2016-06-21 | Broadcom Corporation | Speech intelligibility enhancement system and method |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
US8983832B2 (en) | 2008-07-03 | 2015-03-17 | The Board Of Trustees Of The University Of Illinois | Systems and methods for identifying speech sound features |
US20100008520A1 (en) * | 2008-07-09 | 2010-01-14 | Yamaha Corporation | Noise Suppression Estimation Device and Noise Suppression Device |
EP2194526A1 (en) * | 2008-12-05 | 2010-06-09 | Lg Electronics Inc. | A method and apparatus for processing an audio signal |
US8185389B2 (en) * | 2008-12-16 | 2012-05-22 | Microsoft Corporation | Noise suppressor for robust speech recognition |
WO2010068997A1 (en) * | 2008-12-19 | 2010-06-24 | Cochlear Limited | Music pre-processing for hearing prostheses |
US8175888B2 (en) * | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
US8620008B2 (en) * | 2009-01-20 | 2013-12-31 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
EP2389773B1 (en) * | 2009-01-20 | 2017-05-03 | Widex A/S | Hearing aid and a method of detecting and attenuating transients |
US8428758B2 (en) * | 2009-02-16 | 2013-04-23 | Apple Inc. | Dynamic audio ducking |
US8538043B2 (en) * | 2009-03-08 | 2013-09-17 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
FR2948484B1 (fr) * | 2009-07-23 | 2011-07-29 | Parrot | Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile |
US8538042B2 (en) * | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8644517B2 (en) * | 2009-08-17 | 2014-02-04 | Broadcom Corporation | System and method for automatic disabling and enabling of an acoustic beamformer |
WO2011032024A1 (en) * | 2009-09-11 | 2011-03-17 | Advanced Bionics, Llc | Dynamic noise reduction in auditory prosthesis systems |
US8204742B2 (en) * | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
EP2486567A1 (en) * | 2009-10-09 | 2012-08-15 | Dolby Laboratories Licensing Corporation | Automatic generation of metadata for audio dominance effects |
US20110099596A1 (en) * | 2009-10-26 | 2011-04-28 | Ure Michael J | System and method for interactive communication with a media device user such as a television viewer |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
US20110125494A1 (en) * | 2009-11-23 | 2011-05-26 | Cambridge Silicon Radio Limited | Speech Intelligibility |
US9536529B2 (en) * | 2010-01-06 | 2017-01-03 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US8553892B2 (en) * | 2010-01-06 | 2013-10-08 | Apple Inc. | Processing a multi-channel signal for output to a mono speaker |
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
-
2011
- 2011-02-18 TW TW100105440A patent/TWI459828B/zh active
- 2011-02-28 CN CN201180012782.5A patent/CN102792374B/zh active Active
- 2011-02-28 EP EP11707537.4A patent/EP2545552B1/en active Active
- 2011-02-28 ES ES11707537T patent/ES2709523T3/es active Active
- 2011-02-28 BR BR122019024041-8A patent/BR122019024041B1/pt active IP Right Grant
- 2011-02-28 JP JP2012557079A patent/JP5674827B2/ja active Active
- 2011-02-28 BR BR112012022571-5A patent/BR112012022571B1/pt active IP Right Grant
- 2011-02-28 RU RU2012141463/08A patent/RU2520420C2/ru active
- 2011-02-28 WO PCT/US2011/026505 patent/WO2011112382A1/en active Application Filing
- 2011-02-28 CN CN201410830734.2A patent/CN104811891B/zh active Active
- 2011-02-28 US US13/583,204 patent/US9219973B2/en active Active
-
2015
- 2015-11-16 US US14/942,706 patent/US9881635B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN104811891A (zh) | 2015-07-29 |
US20160071527A1 (en) | 2016-03-10 |
BR112012022571A2 (pt) | 2016-08-30 |
RU2520420C2 (ru) | 2014-06-27 |
TWI459828B (zh) | 2014-11-01 |
US9881635B2 (en) | 2018-01-30 |
EP2545552B1 (en) | 2018-12-12 |
CN104811891B (zh) | 2017-06-27 |
RU2012141463A (ru) | 2014-04-20 |
CN102792374A (zh) | 2012-11-21 |
CN102792374B (zh) | 2015-05-27 |
US20130006619A1 (en) | 2013-01-03 |
WO2011112382A1 (en) | 2011-09-15 |
BR112012022571B1 (pt) | 2020-11-17 |
ES2709523T3 (es) | 2019-04-16 |
US9219973B2 (en) | 2015-12-22 |
JP5674827B2 (ja) | 2015-02-25 |
EP2545552A1 (en) | 2013-01-16 |
TW201215177A (en) | 2012-04-01 |
JP2013521541A (ja) | 2013-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR122019024041B1 (pt) | Método para filtrar um sinal multicanal de áudio e meio legível em computador | |
CN110473567B (zh) | 基于深度神经网络的音频处理方法、装置及存储介质 | |
RU2467406C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
JP4579273B2 (ja) | ステレオ音響信号の処理方法と装置 | |
EP2614586B1 (en) | Dynamic compensation of audio signals for improved perceived spectral imbalances | |
AU2012222491B2 (en) | Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal | |
ES2966063T3 (es) | Separación de fuentes mediante una estimación y control de la calidad de sonido | |
KR20130038857A (ko) | 오디오 재생을 위한 적응적 주변 소음 보상 | |
BR122020017207B1 (pt) | Método, sistema de processamento de mídia, aparelho e meio de armazenamento legível por computador não transitório | |
US10602275B2 (en) | Audio enhancement via beamforming and multichannel filtering of an input audio signal | |
Zarouchas et al. | An audio quantizer based on time domain auditory masking model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 28/02/2011, OBSERVADAS AS CONDICOES LEGAIS. |