BR112015007625B1 - Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador - Google Patents

Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador Download PDF

Info

Publication number
BR112015007625B1
BR112015007625B1 BR112015007625-4A BR112015007625A BR112015007625B1 BR 112015007625 B1 BR112015007625 B1 BR 112015007625B1 BR 112015007625 A BR112015007625 A BR 112015007625A BR 112015007625 B1 BR112015007625 B1 BR 112015007625B1
Authority
BR
Brazil
Prior art keywords
signal
test
interference
test interval
audio
Prior art date
Application number
BR112015007625-4A
Other languages
English (en)
Other versions
BR112015007625A2 (pt
Inventor
Patrick Kechichian
Original Assignee
Mediatek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mediatek Inc filed Critical Mediatek Inc
Publication of BR112015007625A2 publication Critical patent/BR112015007625A2/pt
Publication of BR112015007625B1 publication Critical patent/BR112015007625B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/007Electronic adaptation of audio signals to reverberation of the listening space for PA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

aparelho, método de geração de uma medida de interferência de áudio e produto de programa de computador. um aparelho compreende um receptor (203) que recebe um sinal de microfone de um microfone (201) em que o sinal de microfone compreende um componente de sinal de teste correspondente a um sinal de teste de áudio. um divisor (215) divide o sinal de microfone em uma pluralidade de componentes de sinal de intervalo de teste, cada um dos quais corresponde ao sinal de microfone em um intervalo de tempo. um processador de conjunto (217) gera conjuntos de componentes de sinal de intervalo de teste e um processador de semelhança (219) gera um valor de semelhança para cada conjunto. um estimador de interferência (221) determina uma medida de interferência para componentes de sinal de intervalo de teste individuais em resposta aos valores de semelhança. a medida de interferência pode ser utilizada para selecionar segmentos de sinal que podem ser utilizados para adaptar um algoritmo de processamento de áudio que é aplicado ao sinal de microfone, como, por exemplo, aprimoramento de fala ou cancelamento de eco. a abordagem por permitir que uma estimativa de interferência confiável seja gerada, enquanto mantém baixa complexidade.

Description

CAMPO DA INVENÇÃO
[001] A invenção se refere à estimativa de interferência de áudio e, em particular, mas não exclusivamente, à adaptação de processamento de áudio que inclui a consideração de estimativas de interferência para um sinal de microfone.
HISTÓRICO DA INVENÇÃO
[002] Sistemas de áudio são geralmente desenvolvidos sob determinadas suposições genéricas sobre o ambiente acústico em que são utilizados e sobre as propriedades dos equipamentos envolvidos. Entretanto, os ambientes reais em que são utilizados e, em muitos casos, as características dos equipamentos podem variar substancialmente. Da mesma forma, muitos sistemas e aplicações de áudio compreendem funcionalidade para se adaptarem às características de operação atuais. Especificamente, muitos sistemas de áudio compreendem funcionalidades para calibrar e adaptar o sistema, por exemplo, ao ambiente acústico específico em que são utilizados. Essa adaptação pode ser realizada de maneira regular, a fim de considerar variações com o tempo.
[003] De fato, em muitas aplicações e, em particular, as relacionadas a sistemas de aprimoramento de fala para comunicação de voz, parâmetros relacionados a um algoritmo são adaptados às características de um dispositivo específico e seu hardware, como, por exemplo, características de microfone(s), alto-falante(s) etc. Embora existam técnicas de processamento de sinal adaptativo para realizar essa adaptação durante a operação normal de um dispositivo, em muitos casos, determinados parâmetros (especialmente os quais dependem dessas técnicas adaptativas) têm de ser estimados durante a produção em uma sessão de calibração especial que é comumente realizada em um ambiente controlado, por exemplo, quieto, somente com sinais relevantes estando presentes.
[004] Essa calibração pode ser realizada sob condições próximas a ideal. Entretanto, o desempenho de sistema resultante pode degradar quando sua adaptação é realizada no ambiente de uso. Nesses ambientes, interferência local, como fala e ruído, podem estar geralmente presentes.
[005] Por exemplo, um acessório de comunicação contendo um ou mais microfones que podem ser afixados a uma televisão, e que é ainda disposto para utilizar alto-falantes de televisão e processamento interno, não pode ser sintonizado/adaptado/calibrado durante a produção, uma vez que o hardware relacionado depende da televisão específica com a qual é utilizado. Portanto, a adaptação deve ser realizada pelo usuário em sua própria casa, onde condições de ruído podem resultar em um sistema adequadamente adaptado.
[006] Como um exemplo específico, muitos sistemas de comunicação são geralmente utilizados em conjunto com outros dispositivos, ou em uma variação de diferentes ambientes acústicos. Um exemplo desse dispositivo é um acessório de comunicação sem contato manual com microfones incorporados para uma televisão com base em serviço de telefone de Internet. Esse dispositivo pode ser montado na ou próximo à televisão e também pode incluir uma câmera de vídeo e uma unidade de processamento de sinal digital, permitindo que se utilize o software diretamente por meio de uma televisão, a fim de conectar a outros dispositivos e conduzir comunicação de duas vias ou múltiplas partes. Um desafio ao desenvolver esse acessório é a ampla variação de televisões com as quais pode ser utilizado, assim como as variações nos ambientes acústicos em que deve ser capaz de liberar desempenho satisfatório.
[007] A cadeia de reprodução de áudio em conjuntos de televisão e os ambientes nos quais eles são utilizados afetam as características acústicas do som produzido. Por exemplo, algumas televisões utilizam componentes de fidelidade maior na cadeia de áudio, como alto-falantes melhores, capazes de operação linear por uma variação de entrada dinâmica ampla, enquanto outros aplicam processamento não linear aos sinais de áudio recebidos, como som surround simulado e reforço dinâmico de sons graves, ou compressão de variação dinâmica. Além disso, a saída de áudio de uma televisão pode ser alimentada em um sistema de áudio domiciliar com os alto-falantes da televisão mudos.
[008] Sistemas de aprimoramento de fala aplicam algoritmos de processamento de sinal, como cancelamento de eco acústico, supressão de ruído, e desreverberação ao(s) sinal(is) capturado(s) (microfone) e para transmitir um sinal de fala claro ao participante da chamada de extremidade distante. O aprimoramento de fala visa aprimorar a qualidade de som, por exemplo, a fim de reduzir fadiga de ouvinte associada a conversações longas. O desempenho desse aprimoramento de fala pode depender de diversas características dos equipamentos envolvidos e o ambiente de áudio.
[009] O fato de que esses dispositivos são utilizados nessa ampla variação de situações, torna difícil liberar um sistema de aprimoramento de fala que realiza de maneira consistentemente boa. Portanto, sistemas de aprimoramento de fala são comumente adaptados/ajustados durante a inicialização de dispositivo e/ou tempo de execução quando o sistema detectar esse desempenho de aprimoramento de fala. A maioria das rotinas de adaptação emprega um sinal de teste que é reproduzido pelo sistema de reprodução de som do dispositivo conectado e gravado pelo dispositivo de captura para estimar e ajustar valores de parâmetro acústico para o sistema de aprimoramento de fala.
[010] Como um simples exemplo de uma rotina de sintonização, a medição de uma resposta de impulso acústica de uma sala pode ser considerada. Ambientes de audição, como, por exemplo, salas de estar, são caracterizados por seu tempo de reverberação, que é definido como o tempo que leva para uma resposta de impulso acústico de uma sala decair em uma determinada quantidade. Por exemplo, T60 denota a quantidade de tempo para a resposta de impulso acústico do fundo de uma sala decair em 60 dB.
[011] Um sinal de teste, como ruído branco, pode ser interpretado por um alto-falante de dispositivo e o sinal de som resultante pode ser gravado com um microfone. Um filtro adaptativo é, então, utilizado para estimar a resposta de impulso acústico linear. Dessa resposta de impulso, diversos parâmetros, como T60, podem ser estimados e utilizados para aprimorar o desempenho do sistema de aprimoramento de fala, por exemplo, ao realizar desreverberação com base em tempo de reverberação. Como um exemplo específico, o tempo de reverberação é geralmente medido utilizando uma curva de decaimento de energia, dada como:
Figure img0001
onde h(t) é a resposta de impulso acústico. Uma resposta de impulso acústico e sua curva de decaimento de energia correspondente é apresentada na Figura 1.
[012] Entretanto, um problema significativo associado a procedimentos de adaptação com base em sinais de teste de áudio é que eles tendem a serem afetados pela presença de som de interferência. Especificamente, se houver uma fonte de som de interferência, isso fará com que o sinal capturado seja distorcido em relação ao sinal de áudio interpretado, com isso, degradando o processo de adaptação.
[013] Por exemplo, ao determinar uma resposta de impulso acústico de uma sala, o sinal capturado pelo microfone pode ser contaminado por fontes de som de interferência que podem resultar em erros na estimativa de resposta de impulso, ou que ainda podem resultar na estimativa de resposta de impulso cair para gerar qualquer estimativa (por exemplo, devido ao filtro adaptativo emular a resposta de impulso estimada que cai para convergir).
[014] Rotinas de adaptação para processamento de áudio, como, por exemplo, para sistemas de aprimoramento de fala, comumente presumem que somente fontes de som conhecidas e adequadas estejam presentes, como sons especificamente de teste que são utilizados para a adaptação. Por exemplo, para sintonizar um sistema de cancelamento de eco acústico, o sinal capturado pelo microfone deve somente conter o sinal produzido pelo alto-falante (eco). Qualquer interferência local, como fontes de ruído ou alto-falantes de extremidade próxima no ambiente local, deteriorará o desempenho resultante.
[015] Uma vez que é tipicamente impossível garantir que nenhuma outra fonte de som que não aquelas utilizadas na adaptação esteja presente, da mesma forma, é geralmente crucial que possa ser estimado se interferências estão presentes, e se sim, é geralmente vantajoso estimar quão forte a interferência é. Portanto, uma estimativa de interferência é geralmente crucial para adaptação de processamento de áudio e, especialmente, é desejável se uma estimativa de interferência relativamente precisa puder ser gerada sem sobreposição de processamento complexo. De fato, estimativas de interferência podem ser adequadas para muitos algoritmos e abordagens de processamento de áudio, e da mesma forma, há um desejo por abordagens aprimoradas para determinar uma estimativa de interferência de áudio.
[016] Com isso, uma abordagem aprimorada para gerar uma medida de interferência de áudio seria vantajosa e, em particular, uma abordagem que permite flexibilidade aumentada, complexidade reduzida, uso de recurso reduzido, operação facilitada, precisão aprimorada, confiabilidade aumentada e/ou desempenho aprimorado seria vantajoso.
SUMÁRIO DA INVENÇÃO
[017] Da mesma forma, a Invenção visa, preferencialmente, diminuir, aliviar ou eliminar uma ou mais das desvantagens acima isoladamente ou em qualquer combinação.
[018] De acordo com um aspecto da invenção, é provido um aparelho compreendendo: um receptor para receber um sinal de microfone de um microfone, o sinal de microfone compreendendo um componente de sinal de teste correspondente a um sinal de teste de áudio capturado pelo microfone; um divisor para dividir o sinal de microfone em uma pluralidade de componentes de sinal de intervalo de teste, cada componente de sinal de intervalo de teste correspondendo ao sinal de microfone em um intervalo de tempo; um processador de conjunto para gerar conjuntos de componentes de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste; um processador de semelhança para gerar um valor de semelhança para cada conjunto de componentes de sinal de intervalo de teste; um estimador de interferência para determinar uma medida de interferência para componentes de sinal de intervalo de teste individuais em resposta aos valores de semelhança.
[019] A invenção pode permitir uma determinação aprimorada e/ou facilitada de uma medida de interferência de áudio indicativa de um grau de interferência de áudio presente em um sinal de microfone. A abordagem pode permitir uma baixa complexidade e/ou detecção confiável da presença de interferência no ambiente acústico capturado pelo microfone. A medida de interferência pode ser uma entrada a outros algoritmos de processamento de áudio que utilizam ou operam no sinal de microfone.
[020] A abordagem permite uma determinação de interferência de baixa complexidade. Uma vantagem particular é que o sistema não precisa de conhecimento explícito dos detalhes do sinal de teste de áudio, uma vez que a medida de interferência pode ser determinada de uma comparação direta de diferentes partes do sinal de microfone e não precisa de comparação conhecida a um sinal de referência predeterminado, conhecido.
[021] A abordagem pode facilitar a interoperação com outros equipamentos e pode ser adicionada aos equipamentos existentes.
[022] Em algumas realizações, o aparelho pode ainda compreender um gerador de sinal de teste para gerar um sinal de teste para reprodução por um transdutor de áudio, gerando, com isso, o sinal de teste de áudio. O sinal de teste de áudio pode ter vantajosamente características de repetição e pode compreender ou consistir em diversas repetições de uma sequência de sinal fundamental.
[023] O aparelho pode assumir que o sinal de microfone compreenda o sinal de teste de áudio. Assim, a medida de interferência pode ser determinada sob a suposição do componente de sinal de teste estando presente no sinal de microfone. Não é necessário ou essencial que o aparelho determine, ou seja, provido de informações que indicam que o sinal de teste está presente.
[024] De acordo com um aspecto opcional da invenção, o aparelho ainda compreende uma unidade de calibração para adaptar um processamento de sinal em resposta aos componentes de sinal de intervalo de teste, a unidade de adaptação sendo disposta para ponderar pelo menos uma primeira contribuição de componente de sinal de intervalo de teste em resposta a uma estimativa de interferência para o primeiro intervalo de tempo.
[025] A invenção pode prover uma adaptação aprimorada de algoritmos de processamento de sinal de áudio. Em particular, a sensibilidade e a degradação causada por interferência de áudio não fixa podem ser substancialmente reduzidas.
[026] A ponderação pode, por exemplo, ser diretamente dos componentes de sinal de intervalo de tempo ou pode, por exemplo, ser dos parâmetros de adaptação gerados em resposta aos componentes de sinal de intervalo de tempo.
[027] De acordo com um aspecto opcional da invenção, o aparelho ainda compreende uma unidade de calibração para adaptar um processamento de sinal em resposta aos componentes de sinal de intervalo de teste, a unidade de adaptação sendo disposta para ponderar pelo menos uma primeira contribuição de componente de sinal de intervalo de teste em resposta a uma estimativa de interferência para o primeiro intervalo de tempo.
[028] Isso por aprimorar a adaptação. Em particular, por permitir baixa complexidade e ainda aprimorar o desempenho. A abordagem pode permitir que componentes de sinal de intervalo de tempo que apresentam interferência de áudio muito alta sejam descartados, impedindo, com isso, que introduzam degradações à adaptação.
[029] De acordo com um aspecto opcional da invenção, o aparelho ainda compreende um estimador de ruído fixo disposto para gerar uma estimativa de ruído fixo e para compensar pelo menos um dentre o limite e a estimativa de interferência em resposta à estimativa de ruído fixo.
[030] Isso pode permitir uma medida de interferência mais precisa e, especificamente, pode permitir uma detecção mais precisa de componentes de sinal de intervalo de tempo que apresentam muita interferência não fixa.
[031] A estimativa de ruído fixo pode ser especificamente uma estimativa de piso de ruído.
[032] De acordo com um aspecto opcional da invenção, o aparelho ainda compreende um estimador de sinal de teste disposto para gerar uma estimativa de nível para o componente de sinal de teste e para compensar pelo menos um do limite e a estimativa de interferência em resposta à estimativa de nível.
[033] Isso pode permitir uma medida de interferência mais precisa e, especificamente, pode permitir uma detecção mais precisa de componentes de sinal de intervalo de tempo que apresentam muita interferência não fixa.
[034] Muitas medidas de semelhança e, da mesma forma, medidas de interferência podem ser dependentes da energia de sinal e a compensação de energia de sinal de teste pode resultar em uma medida de interferência mais precisa.
[035] Especificamente, o componente de sinal de teste pode ser um componente de eco de um alto-falante do sistema, e ao compensar o eco, desempenho aprimorado pode ser alcançado.
[036] De acordo com um aspecto opcional da invenção, o divisor é disposto para dividir o sinal de microfone na pluralidade de componentes de sinal de intervalo de teste em resposta às características de repetição do sinal de teste de áudio.
[037] Isso pode prover desempenho aprimorado e facilitar operação. O divisor pode dividir especificamente o sinal de microfone na pluralidade de componentes de sinal de intervalo de teste em resposta a uma duração e/ou cronometragem das repetições do sinal de teste de áudio. Os componentes de sinal de intervalo de tempo podem ser sincronizados com repetições do sinal de teste de áudio.
[038] De acordo com um aspecto opcional da invenção, o sinal de teste de áudio compreende uma pluralidade de repetições de um componente de sinal de áudio, e uma cronometragem dos componentes de sinal de intervalo de teste corresponde a uma cronometragem das repetições.
[039] Isso pode permitir desempenho aprimorado e/ou operação facilitada. Cada componente de sinal de intervalo de tempo pode corresponder especificamente a um intervalo que se alinha a um número inteiro de repetições do componente de sinal de áudio.
[040] De acordo com um aspecto opcional da invenção, o estimador de interferência é disposto para, para um primeiro componente de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste, determinar um valor de semelhança máximo para valores de semelhança de conjuntos incluindo o primeiro componente de sinal de intervalo de teste; e para determinar a medida de interferência para o primeiro componente de sinal de intervalo de teste em resposta ao valor de semelhança máximo.
[041] Isso pode aprimorar o desempenho e/ou reduzir a complexidade. Em particular, pode aumentar a probabilidade de identificar componentes de sinal de intervalo de tempo que apresentam baixa interferência de áudio.
[042] De acordo com um aspecto opcional da invenção, o divisor é disposto para gerar pelo menos dois conjuntos compreendendo pelo menos um primeiro dos componentes de sinal de intervalo de teste.
[043] Isso pode aprimorar o desempenho e/ou reduzir a complexidade. Em particular, pode aumentar a probabilidade de identificar componentes de sinal de intervalo de tempo que apresentam baixa interferência de áudio.
[044] De acordo com um aspecto opcional da invenção, cada conjunto consiste em dois componentes de sinal de intervalo de teste.
[045] Isso pode aprimorar o desempenho e/ou reduzir a complexidade. Em particular, pode aumentar a probabilidade de identificar componentes de sinal de intervalo de tempo que apresentam baixa interferência de áudio.
[046] De acordo com um aspecto opcional da invenção, o divisor é disposto para gerar conjuntos correspondentes a todas as combinações de par dos componentes de sinal de intervalo de teste.
[047] Isso pode aprimorar o desempenho e/ou reduzir a complexidade. Em particular, pode aumentar a probabilidade de identificar componentes de sinal de intervalo de tempo que apresentam baixa interferência de áudio.
[048] De acordo com um aspecto da invenção, é provido um método de geração de uma medida de interferência de áudio, o método compreendendo: recepção de um sinal de microfone de um microfone, o sinal de microfone compreendendo um componente de sinal de teste correspondente a um sinal de teste de áudio capturado pelo microfone; divisão do sinal de microfone em uma pluralidade de componentes de sinal de intervalo de teste, cada componente de sinal de intervalo de teste correspondente ao sinal de microfone em um intervalo de tempo; geração de conjuntos de componentes de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste; geração de um valor de semelhança para cada conjunto de componentes de sinal de intervalo de teste; e determinação de uma medida de interferência por componentes de sinal de intervalo de teste individuais em resposta aos valores de semelhança.
[049] Esses e outros aspectos, características e vantagens da invenção serão aparentes a partir e elucidados com referência à(s) realização(ões) descrita(s) doravante.
BREVE DESCRIÇÃO DOS DESENHOS
[050] As realizações da invenção serão descritas, somente a título de exemplo, com referência aos desenhos, nos quaisA Figura 1 ilustra um exemplo de uma resposta de impulso acústico e sua curva de decaimento de energia correspondente para uma sala;A Figura 2 ilustra um exemplo de elementos de um sistema de processamento de áudio, de acordo com algumas realizações da invenção; eAs Figuras 3-10 ilustram resultados experimentais para um sistema de processamento de áudio, de acordo com algumas realizações da invenção.
DESCRIÇÃO DETALHADA DE ALGUMAS REALIZAÇÕES DA INVENÇÃO
[051] A descrição a seguir focaliza em realizações da invenção aplicáveis para gerar uma estimativa de interferência de áudio para uma aplicação de processamento de áudio adaptação, mas será apreciado que a invenção não é limitada a essa aplicação, mas pode ser aplicada a muitas outras aplicações de áudio.
[052] A Figura 2 ilustra um exemplo de um sistema de processamento de áudio, de acordo com algumas realizações da invenção.
[053] O sistema de áudio compreende um microfone 201 que é disposto para capturar o som em um ambiente acústico. O sinal de microfone gerado pelo microfone 201 pode representar especificamente o som em uma sala, conforme capturado na posição do microfone 201.
[054] O microfone 201 é acoplado a um receptor 203 que recebe o sinal de microfone. Na maioria das realizações, o receptor 203 pode compreender amplificação, filtração e, possivelmente, um conversor análogo para digital provendo uma versão digitalizada do sinal de microfone, permitindo, com isso, que o processamento subsequente seja realizado no domínio digital.
[055] No exemplo, o sistema de processamento de áudio ainda compreende um processador de aplicativo 205 que é disposto para suportar ou executar um aplicativo de áudio. O processador de aplicativo 205 recebe o sinal de microfone do receptor 203 e procede para processá-lo, de acordo com o aplicativo de áudio específico.
[056] O aplicativo de áudio pode, por exemplo, ser um aplicativo de comunicação que suporta comunicação de duas vias com uma entidade remota. Entretanto, será apreciado que os princípios descritos para estimativa de adaptação e interferência podem ser utilizados com qualquer aplicativo adequado. No exemplo, o processador de aplicativo 205 é disposto para receber o sinal de microfone e processá-lo para transmissão a uma unidade de comunicação remota. O processamento pode incluir aprimoramento de fala, cancelamento de eco, codificação de fala etc. O processador de aplicativo 205 é, além disso, disposto para receber dados de áudio da unidade de comunicação remota e para processá-los a fim de gerar um sinal que possa ser interpretado localmente. Assim, o processador de aplicativo 205 recebe dados de áudio da unidade remota e gera um sinal de saída de áudio correspondente.
[057] O sistema de processamento de áudio da Figura 2, portanto, compreende um acionador de alto-falante 207 e um transdutor de áudio, que, no exemplo específico, é um alto- falante 209. O acionador de alto-falante 207 recebe o sinal de áudio do processador de aplicativo 205 e procede para gerar um sinal de acionamento correspondente para o alto- falante 209. O acionador de alto-falante 207 pode compreender especificamente circuitos de amplificação, conforme será conhecido a um técnico no assunto.
[058] No exemplo, o processador de aplicativo 205 é disposto para realizar aprimoramento de fala e, especificamente, cancelamento de eco e/ou supressão do sinal de microfone recebido. O áudio interpretado pelo alto-falante 209 pode ser capturado pelo microfone 201 e se essa contribuição não for suprimida, isso resultará em a unidade remota receber uma cópia de seu próprio sinal. Isso soará como um eco na unidade de comunicação remota e, da mesma forma, o processador de aplicativo 205 inclui funcionalidade para atenuar o componente de sinal correspondente ao áudio interpretado do alto-falante 209 no sinal de microfone. Esse processamento é conhecido como cancelamento de eco.
[059] A fim que de o cancelamento de eco realize de maneira ideal, o algoritmo deve ser adaptado às características específicas de ambos os equipamentos utilizados e o ambiente acústico no qual é utilizado. Especificamente, o caminho de sinal do processador de aplicativo 205 por meio do acionador de alto-falante 207, o alto-falante 201, o caminho acústico do alto-falante 209 ao microfone 201, o microfone 201, e o receptor 203 de volta ao processador de aplicativo 205 deve ser preferencialmente conhecido, assim que possível, a fim de que o cancelamento de eco se adapte para cancelar o eco.
[060] Da mesma forma, o sistema da Figura 1 inclui um processador de calibração 211 que é disposto para adaptar o processamento de áudio do processador de aplicativo 205. No exemplo específico, o processador de calibração 211 é disposto para estimar a função de transferência do caminho de sinal do processador de aplicativo 205 por meio do alto- falante 209 e microfone 201 de volta ao processador de aplicativo 205, isto é, o caminho de sinal da entrada ao acionador de alto-falante 207 para a saída do receptor 203.
[061] O processador de calibração 211 estima a função de transferência utilizando um sinal de teste. O sistema de áudio, da mesma forma, compreende um gerador de sinal de teste 213 que gera um sinal de teste que é alimentado ao acionador de alto-falante 207. O sinal de teste é, da mesma forma interpretado pelo alto-falante 209 e parte do sinal de teste de áudio resultante é capturado pelo microfone 201. A saída do receptor 203 é alimentada ao processador de calibração 211 que pode proceder para caracterizar a função de transferência ao compará-la ao sinal de teste gerado. Os parâmetros de resposta de impulso/função de transferência resultantes são, então, alimentados ao processador de aplicativo 205 e utilizados para o cancelamento de eco.
[062] Será apreciado que diferentes sinais de teste e estimativas de resposta de impulso podem ser utilizados em diferentes realizações e que qualquer abordagem adequada pode ser utilizada. Por exemplo, o sinal de teste pode ser um pulso curto (correspondente a uma aproximação de um pulso Dirac) ou pode, por exemplo, ser uma varredura de frequência, ou pode, por exemplo, ser um sinal de fala artificial, que, embora ininteligível, contém características espectrais e de domínio de tempo semelhantes ao da fala real.
[063] A fim de que a calibração seja ideal, somente o som capturado pelo microfone 201 deve ser aquele do sinal de teste. Da mesma forma, o sistema de processamento de áudio tipicamente não interpreta qualquer outro som durante a operação de calibração. Entretanto, mesmo nesse caso, há provavelmente interferência de áudio causada por outras fontes de som no ambiente acústico. Por exemplo, pode haver pessoas falando na sala, outros dispositivos de áudio podem estar ativos etc. Essa interferência de áudio degradará a estimativa da resposta de impulso e, assim, resultará em desempenho de cancelamento de eco degradado.
[064] O sistema de processamento de áudio da Figura 2 compreende funcionalidade para gerar uma medida de interferência indicativa da quantidade e/ou presença de interferência de áudio. No exemplo, qualquer som que não resulte da interpretação do sinal de teste é interferência de áudio. Assim, o sistema de processamento de áudio gera uma medida indicativa do grau do som capturado que não é devido à interpretação do sinal de teste.
[065] A medida de interferência pode, por exemplo, ser utilizada para determinar quando a calibração é realizada pelo processador de calibração 211. Por exemplo, o processador de calibração 211 pode adaptar o processamento do processador de aplicativo 205 em resposta ao sinal de microfone somente nos intervalos de tempo para os quais a medida de interferência indica que a interferência de áudio está abaixo de um determinado nível. Em algumas realizações, a medida de interferência pode ser utilizada para gerar uma indicação de confiabilidade para os valores de calibração gerados e, por exemplo, a atualização de parâmetros existentes em dependência da calibração pode ser dependente dessa medida de confiabilidade. Por exemplo, quando a confiabilidade for baixa, somente adaptação marginal é empregada quando adaptação mais significativa for realizada quando a confiabilidade for alta.
[066] Em mais detalhes, o sistema de processamento de áudio compreende um divisor 215 que divide o sinal de microfone em uma pluralidade de componentes de sinal de intervalo de teste. Cada um dos componentes de sinal de intervalo de teste corresponde ao sinal de microfone em um intervalo de tempo.
[067] No exemplo da Figura 2, o sinal de teste é gerado, de modo que seja um sinal de repetição. Especificamente, o mesmo sinal pode ser repetido em diversos intervalos de tempo consecutivos. No sistema, o divisor 215 é disposto para dividir o sinal de microfone em intervalos de tempo que são sincronizados com esses intervalos de tempo de repetição. Especificamente, o divisor 215 divide o sinal de microfone em intervalos de tempo que têm uma duração que é um múltiplo da duração de repetição dos sinais de teste e que, além disso, têm tempos de início e parada alinhados com os tempos de início e parada dos intervalos de tempo de repetição. Especificamente, os intervalos de repetição e a divisão de intervalos de tempo podem ser substancialmente idênticos. Alternativamente, a divisão pode ser em intervalos de tempo que são (possivelmente, de maneira substancial) menores que os intervalos de repetição. Entretanto, se os intervalos de tempo menores da divisão forem sincronizados em relação aos intervalos de repetição, segmentos correspondentes em diferentes intervalos de repetição ainda podem ser idênticos na ausência de qualquer degradação ou ruído. A sincronização pode ser automática. Por exemplo, simplesmente pelo gerador de teste e o divisor de tempo utilizando os mesmos sinais de cronometragem ou podem ser, por exemplo, alcançados por um processo de sincronização (como, por exemplo, ao maximizar uma medida de correlação).
[068] O divisor é acoplado a um processador de conjunto 217 que recebe os componentes de sinal de intervalo de teste do divisor. O processador de conjunto 217 é disposto para gerar diversos conjuntos de componentes de sinal de intervalo de teste. No exemplo específico, cada conjunto compreende dois componentes de sinal de intervalo de teste e, assim, o processador de conjunto 217 gera diversos pares de componentes de sinal de intervalo de teste.
[069] Para brevidade de clareza, cada componente de sinal de intervalo de teste, a seguir, será mencionado como um bloco de sinal.
[070] Os pares de blocos de sinal são alimentados a um processador de semelhança 219 que é disposto para determinar um valor de semelhança para cada um dos conjuntos gerados pelo processador de conjunto 217. O valor de semelhança para um conjunto de blocos de sinal é indicativo de quão semelhantes os blocos de sinal são, isto é, indica quão semelhante o sinal de microfone é nos intervalos de tempo incluídos no conjunto individual.
[071] Será apreciado que qualquer valor de semelhança adequado para determinar quão semelhantes dois sinais são pode ser utilizado. Especificamente, um valor de correlação cruzada pode ser gerado e utilizado como um valor de semelhança. No caso de cada conjunto compreender mais de dois blocos de sinal, valores de semelhança podem ser determinados por par em par e um valor de semelhança para todo o conjunto pode ser determinado como um valor de semelhança médio ou acumulado.
[072] O processador de semelhança 219 é acoplado a um estimador de interferência 221 que é ainda acoplado ao processador de conjunto 217 e ao processador de calibração 211. O estimador de interferência 221 é disposto para gerar uma medida de interferência para os diferentes blocos de sinal com base nas medidas de semelhança geradas. Especificamente, uma estimativa de interferência para um primeiro bloco de sinal é gerada com base nos valores de semelhança determinados para conjuntos em que o primeiro bloco de sinal é incluído. Assim, no sistema da Figura 2, a medida de interferência para um bloco de sinal é determinada em resposta aos valores de semelhança para pelo menos um conjunto compreendendo esse bloco de sinal.
[073] Como um exemplo específico, a medida de interferência para o primeiro bloco de sinal pode ser gerado como um valor de semelhança médio para os conjuntos nos quais o bloco de sinal é incluído, possivelmente, em comparação a um valor de semelhança médio para conjuntos nos quais o primeiro bloco de sinal não é incluído. Como outro exemplo, a medida de interferência pode ser determinada para corresponder ao valor de semelhança máximo para um conjunto no qual o primeiro bloco de sinal é incluído.
[074] A medida de interferência é alimentada ao processador de calibração 211 que utiliza a medida de interferência no processo de calibração. Por exemplo, o processador de calibração pode utilizar a medida de interferência como um valor de confiabilidade para os parâmetros de adaptação gerados. Como outro exemplo, o processador de calibração 211 pode realizar a calibração utilizando somente blocos de sinal para os quais a medida de interferência é suficientemente alta, com isso, sendo indicativa da interferência de áudio ser suficientemente baixa.
[075] Os inventores perceberam que a interferência de áudio é tipicamente não fixa e que isso pode ser explorado para gerar uma estimativa de interferência. Na presença de uma interferência não fixa, o sinal de microfone capturado é provável por variar mais do que se a interferência não fixa não estiver presente. Isto é, no sistema da Figura 2 explorado para gerar uma medida de interferência. De fato, a semelhança entre blocos de sinal é provável por diminuir substancialmente na presença de uma fonte de interferência não fixa significativa. Para um determinado bloco de sinal, um valor de semelhança baixo para a comparação com um bloco de sinal em um momento diferente é, portanto, uma indicação de haver interferência presente, enquanto um valor de semelhança maior é tipicamente indicativo de nenhuma ou menos interferência estar presente.
[076] O efeito é particularmente significativo quando combinado com a geração e interpretação de um sinal de teste específico com aspectos de repetição que são sincronizados com intervalos de tempo dos blocos de sinal. Nesses cenários, se não houver ruído ou interferência, o sinal de microfone será (substancialmente) idêntico ao sinal de teste e, assim, os diferentes blocos de sinal também serão (substancialmente) idênticos, resultando no valor de semelhança ter um valor muito alto. Conforme a interferência (não fixa) aumenta, isso impactará o sinal de áudio capturado de maneira diferente em diferentes momentos e, assim, resultará nos blocos de sinal serem crescentemente diferentes. Da mesma forma, o valor de semelhança entre dois blocos de sinal diminui conforme a interferência aumenta.
[077] Os valores de semelhança para um determinado conjunto de blocos de sinal da mesma forma diminuem conforme a interferência aumenta. Assim, para um determinado bloco de sinal, o valor de semelhança para os conjuntos nos quais o bloco de sinal é incluído provê uma boa indicação do grau de interferência de áudio presente.
[078] A abordagem descrita pode prover adaptação aprimorada de algoritmos de processamento de áudio, como para aprimoramento de fala ou cancelamento de eco. Rotinas de adaptação, por exemplo, para aprimoramento de fala comumente presumem a presença de somente fontes de som relevantes. Por exemplo, para sintonizar um sistema de cancelamento de eco acústico, o sinal capturado pelo microfone é presumido por conter somente o sinal produzido pelo alto-falante (isto é, o eco). Quaisquer distúrbios locais, como fontes de ruído ou alto-falantes de extremidade próxima no ambiente local resultarão em uma deterioração do desempenho resultante. Na prática, a ausência de qualquer interferência não é tipicamente viável, mas, ao contrário, o sinal capturado é tipicamente contaminado pela interferência de áudio produzida no ambiente de extremidade próxima, como, por exemplo, usuários de extremidade próxima se movimentando ou falando, ou fontes de ruído locais como sistemas de ventilação. Portanto, os parâmetros de sistema determinados pela rotina de adaptação tipicamente não serão uma representação fidedigna do comportamento acústico dos dispositivos e ambientes locais.
[079] O sistema da Figura 2 é capaz de avaliar a interferência em segmentos de tempo individuais, tipicamente, de duração de tempo curta de maneira relativa. Em particular, pode prover um sistema de verificação de integridade de sinal eficiente que pode detectar interferência local em segmentos de tempo individuais. Da mesma forma, o processo de adaptação pode ser adaptado, por exemplo, ao utilizar o sinal somente nos segmentos para os quais há interferência suficientemente baixa. Assim, uma adaptação mais confiável e, assim, o desempenho aprimorado do processamento de áudio pode ser alcançado.
[080] Uma vantagem particular do sistema da Figura 2 é que a estimativa de interferência pode ser provida pela funcionalidade que é independente do algoritmo de adaptação de base e, de fato, do processo de áudio sendo adaptado. Isso pode facilitar a operação e implementação e pode, em particular, prover compatibilidade com versões anteriores aprimorada, assim como compatibilidade aprimorada com outros equipamentos que formam parte do sistema de áudio. Como um exemplo específico, a estimativa de interferência pode ser adicionada a um sistema de calibração existente, como, adicionalmente, a funcionalidade que descarta todos os blocos de sinal para os quais a estimativa de interferência é muito alta. Entretanto, para os blocos de sinal que são passados ao processo de adaptação, o mesmo procedimento como se nenhuma verificação de integridade fosse aplicada, pode ser utilizado e nenhuma modificação da operação de adaptação ou do processamento de áudio é necessária.
[081] Será apreciado que diferentes abordagens para gerar o sinal de teste podem ser utilizadas e que o sinal de teste pode ter diferentes características em diferentes realizações.
[082] No exemplo da Figura 3, o sinal de teste compreende um componente de sinal de repetição. Por exemplo, o sinal pode ter uma forma de onda específica que é repetida em intervalos regulares. Em algumas realizações, o sinal em cada intervalo de repetição pode ter sido projetado para permitir uma operação de calibração/estimativa completa. Por exemplo, cada intervalo de repetição pode incluir uma varredura de frequência completa ou pode compreender um único pulso como Dirac com os intervalos de repetição sendo suficientemente longos para permitir uma resposta de impulso antes do próximo. Em outras realizações, intervalos de repetição podem ser relativamente curtos e/ou o sinal de repetição pode ser um sinal simples. Por exemplo, em alguns exemplos, cada intervalo de repetição pode corresponder a um único período de onda senoidal. O sinal de teste, da mesma forma, tem características de repetição, embora as características de repetição exatas possam variar substancialmente entre diferentes realizações. O sinal de teste pode, em algumas realizações, ter somente duas repetições, mas, na maioria das realizações, o sinal de teste tem significativamente mais repetições e, de fato, podem ter geralmente dez ou mais repetições.
[083] Em algumas realizações, o sinal de teste pode ser um sinal pré-gravado na memória. O sinal armazenado já pode ser composto de N períodos, ou o sinal armazenado pode corresponder a uma repetição que é, então, repetida.
[084] Como outro exemplo, o sinal de teste é sintetizado utilizando um modelo, como, por exemplo, um modelo de produção de fala no qual os parâmetros de modelo são fixos ou estimados de aspectos dos sinais de extremidade distante e/ou de microfone que foram extraídos durante o tempo de execução. Esses aspectos podem incluir informações de tom, características de forma de onda de domínio de tempo, como fator de crista, amplitude, envelopes etc.
[085] Em muitas realizações, é desejável se o sinal de teste atender aos seguintes requisitos:1. A energia no espectro de interesse deve ser suficiente para permitir a adaptação adequada de parâmetros relevantes relacionados ao algoritmo de aprimoramento de fala. Para aplicações de fala, isso significaria energia no espectro de fala (por exemplo, entre 300 e 4000 Hz).2. O número de repetições deve ser suficientemente alto. Em algumas realizações, somente duas repetições serão necessárias, mas, em muitas realizações, um número substancialmente maior de repetições é utilizado. Isso pode aprimorar a robustez de ruído da operação.
[086] Será apreciado que o divisor 215 pode utilizar diferentes abordagens para dividir o sinal de microfone em blocos de sinal.
[087] O divisor 215 pode alinhar os blocos de sinal aos intervalos de repetição e, especificamente, pode alinhar os blocos de sinal, de modo que o sinal de teste seja idêntico para os intervalos de tempo que correspondem aos diferentes blocos de sinal.
[088] Será apreciado que o alinhamento pode ser aproximado e, por exemplo, que alguma incerteza na sincronização possa reduzir a precisão da estimativa de interferência gerada, mas ainda permitir que esta seja gerada (e seja suficientemente precisa).
[089] Em algumas realizações, os intervalos de tempo podem não ser alinhados aos intervalos de repetição e, por exemplo, a compensação de um momento de início para iniciar uma repetição do sinal de teste pode variar entre diferentes intervalos. Nessas realizações, a determinação do valor de semelhança pode levar em consideração essas possíveis compensações de tempo, por exemplo, ao compensar os dois blocos de sinal para maximizar o valor de semelhança. Por exemplo, as correlações cruzadas podem ser determinadas para uma pluralidade de compensações de tempo e a correlação cruzada resultante mais alta pode ser utilizada como o valor de semelhança. Nesses casos, os intervalos de tempo não podem ser maiores que os intervalos de repetição e os intervalos pelos quais a correlação é determinada podem ser iguais ou possivelmente menores que os intervalos de repetição. Em algumas realizações, a janela de correlação pode ser maior que o intervalo de repetição e pode incluir uma pluralidade de intervalos de repetição. Tipicamente, a janela pela qual o valor de semelhança é determinado será próxima à duração do intervalo de tempo correspondente a cada bloco de sinal, a fim de gerar uma estimativa o mais confiável possível.
[090] Será apreciado que os intervalos de tempo (também mencionados como segmentos de tempo) de blocos de sinal podem ser menores, maiores ou, de fato, os mesmos que os intervalos de repetição.
[091] Por exemplo, em algumas realizações, o sinal de teste pode ser uma sintonia fina e cada intervalo de repetição pode corresponder a uma única onda senoidal que é repetida. Nesse exemplo, os intervalos de tempo de repetição podem ser bastante curtos (possivelmente, aproximadamente 1 ms.), e os segmentos de tempo para cada bloco de sinal podem ser substancialmente maiores e incluírem um número possivelmente grande de repetições. Por exemplo, cada segmento de tempo pode ser de 20 ms e, assim, incluir 20 repetições para o sinal de áudio.
[092] Em outras realizações, os segmentos de tempo podem ser selecionados para serem substancialmente idênticos ao intervalo de repetição. Por exemplo, o sinal de teste pode incluir uma varredura de frequência com uma duração de 100 ms., com a varredura sendo repetida diversas vezes. Nesse exemplo, cada segmento de tempo pode ser selecionado para ter uma duração de 100 ms e, assim, corresponder diretamente ao intervalo de repetição.
[093] Ainda, em outras realizações, cada segmento de tempo pode ser substancialmente menor que os intervalos de repetição. Por exemplo, o sinal de teste pode ser uma amostra de música de 5 segundos de duração que é repetida, por exemplo, 3 vezes (provendo extensão total de 15 seg.). Nesse caso, os segmentos de tempo podem ser selecionados para corresponderem, por exemplo, a 32 ms (correspondendo a 512 amostras em uma taxa de amostra de 16 kHz). Embora esses pequenos blocos de sinal não contenham toda a sequência de repetição, eles podem, por exemplo, ser comparados a blocos de sinal correspondentes para outros intervalos de repetição. A duração mais curta não somente permite uma operação facilitada, mas também permite uma resolução temporal mais sintonizada da medida de interferência, e pode, em particular, permitir a seleção de quais segmentos de sinal para uso para a adaptação ser com resolução temporal mais sintonizada.
[094] O número de blocos de sinal gerados dependerá da realização específica e as preferências e requisitos da aplicação específica. Entretanto, em muitas realizações, a duração de cada bloco de sinal é tipicamente de não menos que 10 ms e não mais que 200 ms. Isso permite uma operação particularmente vantajosa, em muitas realizações.
[095] Também será apreciado que a abordagem utilizada pelo processador de conjunto 217 pode variar dependendo, particularmente, das preferências e requisitos da realização individual.
[096] Em muitas realizações, os blocos de sinal são dispostos em conjuntos compreendendo de somente dois blocos de sinal, isto é, pares de blocos de sinal são gerados. Em outras realizações, conjuntos de três, quatro ou ainda mais blocos de sinal podem ser gerados.
[097] Em algumas realizações, o processador de conjunto 217 pode ser disposto para gerar todos os conjuntos de combinações possíveis dos blocos de sinal. Por exemplo, todas as combinações de par de blocos de sinal possíveis podem ser geradas. Em outras realizações, somente um subconjunto de combinações possíveis de par é gerado. Por exemplo, somente metade ou um quarto das combinações de par possíveis pode ser gerado.
[098] Nas realizações nas quais somente um subconjunto de combinações é representado nos conjuntos gerados, o processador de conjunto 217 pode utilizar diferentes critérios em diferentes realizações. Por exemplo, em muitas realizações, os conjuntos podem ser gerados, de modo que a diferença de tempo entre os blocos de sinal em cada conjunto seja acima de um limite. De fato, ao comparar blocos de sinal com compensações de tempo maiores, é mais provável que a interferência de áudio não fixa não seja correlacionada entre os blocos de sinal e, da mesma forma, uma medida de interferência aprimorada pode ser gerada.
[099] Por exemplo, ao gerar pares, o processador de conjunto 217 pode não selecionar blocos de sinal que são consecutivos, mas ao contrário, selecionar blocos de sinal que têm pelo menos um determinado número de blocos de sinal intervenientes.
[0100] Em algumas realizações, cada bloco desinal é incluído em somente um conjunto. Entretanto, na maioria das realizações, cada bloco de sinal é incluído em pelo menos dois blocos de sinal e, de fato, em muitas realizações, cada bloco de sinal pode ser incluído em 2, 5, 10 ou mais conjuntos. Isso pode reduzir o risco de superestimar a interferência para alguns blocos de sinal. Por exemplo, se um valor de semelhança para um par de blocos de sinal for baixo, indicando, com isso, que há interferência de áudio substancial presente, isso pode resultar da interferência em somente um dos blocos de sinal. Por exemplo, se não houver interferência de áudio em um bloco de sinal do par, enquanto o outro apresentar um alto grau de interferência, isso resultará em um baixo valor de correlação e, assim, um baixo valor de semelhança. Entretanto, pode não ser possível determinar qual bloco de sinal apresenta a interferência de áudio e, da mesma forma, ambos os blocos de poderiam ser rejeitados com base nessa comparação.
[0101] Entretanto, se os blocos de sinal forem incluídos em mais pares, há uma chance aumentada de que o bloco de sinal limpo seja pareado a outro bloco de sinal relativamente limpo em pelo menos um dos pares. Da mesma forma, o valor de correlação para esse par será relativamente alto e, assim, o valor de semelhança será relativamente alto. Esse pareamento refletirá, da mesma forma, que ambos os blocos de sinal são limpos e podem ser utilizados para processamento adicional.
[0102] Será apreciado que o número de conjuntos pode ser escolhido para prover uma troca adequada entre demandas de recurso computacional, demandas de memória, desempenho e confiabilidade.
[0103] O processador de semelhança 219 pode utilizar qualquer abordagem adequada para determinar um valor de semelhança para um conjunto.
[0104] Por exemplo, para um par de blocos de sinal, um valor de correlação cruzada pode ser determinado e utilizado como um valor de semelhança.
[0105] Como um exemplo específico, uma semelhança correspondente à correlação cruzada normalizada entre os ith e jth blocos de sinal pode ser calculada como:
Figure img0002
onde zx(n) indica nth amostra do xth bloco de sinal e E{} indica o operador de valor esperado. O valor esperado pode ser computado pelos blocos de sinal ou subsegmentos de blocos de sinal, em cujo caso
Figure img0003
onde Zx(n) corresponde a um vetor de coluna de amostras de sinal contidas em um determinado subsegmento e T denota a operação de transposição de vetor.
[0106] O sinal de microfone pode ser considerado para consistir em três componentes, a saber, um componente de sinal de teste, um componente de ruído fixo (tipicamente, ruído Gaussiano branco aditivo), e interferência de áudio não fixa. A medida de interferência visa estimar o último componente.
[0107] Em algumas realizações, o processador de semelhança 219 e/ou o estimador de interferência 221 pode compreender funcionalidade para estimar o componente de sinal de teste e/ou o componente de ruído fixo. O valor de semelhança e/ou a medida de interferência pode ser, então, compensado em resposta a essas estimativas.
[0108] Por exemplo, o aumento da energia de sinal de teste pode reduzir o valor de correlação normalizado. Da mesma forma, se a energia de sinal de teste puder ser estimada, a medida de interferência gerada pode ser compensada da mesma forma. Por exemplo, uma tabela de consulta referente a um nível de energia a um valor de compensação pode ser utilizado com o valor de compensação, então, sendo aplicado a cada valor de semelhança ou à medida de interferência final.
[0109] A energia de sinal pode, por exemplo, ser estimada com base nos conjuntos de blocos de sinal. Por exemplo, o conjunto tendo o mais alto valor de semelhança para todos os conjuntos pode ser identificado. Isso é provável por ter a menor interferência de áudio possível e, da mesma forma, a energia de sinal do componente de sinal de teste pode ser estimada para corresponder à energia do bloco de sinal tendo a mais baixa energia.
[0110] De maneira semelhante, ruído fixo pode afetar os valores de semelhança e ao compensar os valores de semelhança e/ou medida de interferência com base em uma estimativa de ruído fixo, desempenho aprimorado pode ser alcançado. A estimativa de ruído fixo pode, especificamente, ser uma estimativa de piso de ruído. Uma estimativa de ruído fixo de piso de ruído pode, por exemplo, ser determinada ao decompor o sinal de domínio de tempo em uma multiplicidade de componentes de frequência e rastreamento do valor de invólucro mínimo de cada componente. A energia média pelas frequências pode ser utilizada como uma estimativa do piso de ruído no domínio de tempo.
[0111] A medida de interferência para um determinado bloco de sinal pode ser gerada especificamente ao identificar o mais alto valor de semelhança por conjuntos nos quais o bloco de sinal é incluído e, então, ajustando a medida de interferência a esse valor (ou uma função monotônica desse valor).
[0112] Isso garantirá que a medida de interferência reflita a melhor comparação que foi alcançada, que é provável por acontecer quando ambos os blocos de sinal apresentarem um mínimo de interferência. A abordagem pode refletir especificamente que se uma correspondência próxima puder ser encontrada para um bloco de sinal, é provável que ambos esses blocos de sinal apresentem baixa interferência.
[0113] Em outras realizações, medidas de interferência mais complexas podem ser determinadas. Por exemplo, uma média ponderada de todos os valores de semelhança para um determinado bloco de sinal pode ser utilizada quando a ponderação aumentar para aumento de valores de semelhança.
[0114] O processador de calibração 211 é disposto para levar em consideração a medida de interferência ao determinar os parâmetros de adaptação para o aplicativo de áudio. Especificamente, a contribuição de cada bloco de sinal pode ser ponderada em dependência da medida de interferência, de modo que os blocos de sinal, para os quais a medida de interferência é relativamente alta, tenham mais impacto nos parâmetros de adaptação gerado que os blocos de sinal para os quais a medida de interferência é relativamente baixa. Essa ponderação pode, por exemplo, em algumas realizações, ser realizada no sinal de entrada ao processador de calibração 211, isto é, nos blocos de sinal em si. Em outros exemplos, as estimativas de parâmetro de adaptação geradas para um determinado bloco de sinal podem ser ponderadas, de acordo com a medida de interferência antes de serem combinadas com as estimativas de parâmetro para outros blocos de sinal.
[0115] Em algumas realizações, uma ponderação binária pode ser realizada e, especificamente, blocos de sinal podem ser descartados ou utilizados na adaptação com base na medida de interferência. Assim, blocos de sinal para os quais a medida de interferência está abaixo de um limite (correspondente a um valor de semelhança acima de um limite) podem ser utilizados na adaptação, enquanto blocos de sinal para os quais a medida de interferência é acima do limite são descartados e não utilizados mais. O limite pode, em algumas realizações, ser um limite fixo e pode, em outras realizações, ser um limite adaptativo.
[0116] Por exemplo, conforme descrito anteriormente, o valor de correlação e, assim, a medida de interferência pode depender do componente de energia de sinal de teste e do ruído fixo. Ao invés de compensar os valores de semelhança ou a medida de interferência, o limite para descartar ou aceitar os blocos de sinal pode, ao contrário ser modificado em resposta à estimativa de energia de sinal de teste ou à estimativa de ruído fixo.
[0117] Uma abordagem semelhante de utilização de tabela de consulta de valores de compensação determinados durante teste de fabricação pode, por exemplo, ser utilizados com o valor de compensação resultante que é aplicado ao limite.
[0118] No exemplo anterior, o divisor 215 pode gerar um número grande de blocos de sinal que são armazenados em uma memória local para processamento combinado pelo processador de conjunto 217 e pelo processador de semelhança 219. Entretanto, será apreciado que muitas outras implementações podem ser utilizadas e, especificamente, que um processamento mais sequencial pode ser utilizado.
[0119] Assim, ao invés de gerar conjuntos para todos os blocos de sinal seguidos por valores de semelhança de todos os blocos etc. As etapas podem ser realizadas individualmente, por exemplo, para cada novo bloco.
[0120] Por exemplo, quando um processo de adaptação for iniciado, o gerador de teste 213 pode gerar um sinal de teste. Um primeiro bloco de sinal pode ser gerado e armazenado em memória local. Após um atraso adequado (por exemplo, que corresponde simplesmente a um intervalo de tempo de bloco de sinal), um segundo bloco de sinal pode ser gerado. Isso é, então, comparado ao bloco de sinal armazenado para gerar um valor de semelhança. Se o valor de semelhança for suficientemente alto, o novo bloco de sinal é alimentado ao processador de calibração 211 para processamento adicional.
[0121] Quando um bloco de sinal for recebido, que resulte em um valor de semelhança abaixo de um limite, o novo bloco de sinal pode substituir o bloco de sinal recebido e, assim, ser utilizado como a referência para os blocos de sinal posteriores. Em algumas realizações, uma decisão entre manter a referência armazenada ou substituí-la por um bloco de sinal recentemente recebido pode ser feita dinamicamente. Por exemplo, o bloco de sinal tendo a mais baixa energia de sinal pode ser armazenado, uma vez que é provavelmente o caso para o bloco de sinal com a mais baixa energia de interferência de áudio (em particular, se a interferência e o sinal de teste forem suficientemente descorrelacionados).
[0122] A seguir, um exemplo específico de uma operação de uma realização da invenção será descrito. O exemplo é aplicável ao sistema da Figura 2.
[0123] O exemplo se refere a um sistema de aprimoramento de fala para supressão de eco acústico com o sistema sendo adaptado com base em um sinal de áudio. Esse sistema comumente consiste em um cancelador de eco, seguido por um processador posterior que suprime quaisquer ecos remanescentes e tem também comumente base em modelo específico de eco não linear. O sinal de teste é reproduzido por meio do alto-falante do dispositivo e o sinal de microfone capturado é gravado.
[0124] Considere que o sinal de sintonia de tempo diferente x(n) de extensão de NT amostras seja periódico com período de T amostras,
Figure img0004
onde N é o número de períodos. Depois, a notação será simplificada e será presumido que o sinal é dividido em N partes contíguas e idênticas de extensão T, denotadas por xk(n) for k=1,.,N.
[0125] Presume-se que o caminho de eco acústico seja um sistema não linear, variante no tempo, em que somente a parte linear do caminho de eco é variante no tempo e segue a parte não linear invariante no tempo. O sinal de microfone correspondendo a cada repetição xk(n) é dado por
Figure img0005
onde o componente de eco ek(n) contém componentes tanto lineares quanto não lineares, sk(n) é presumido por ser uma interferência de áudio não fixa, como fala, e vk(n) é presumido por ser o ruído de fundo fixo que pode ser modelado como um processo de ruído branco. A interferência não fixa e o ruído fixo de fundo são presumidos por não serem correlacionados entre si e ao longo dos períodos,
Figure img0006
onde E{- } denota o valor esperado
[0126] Também é presumido queindependentes e de média zero (filtrados emE{ek(n)sk(n)} =0 e 1<i,j<N.os sinais sejam alta passagem),
Figure img0007
[0127] O sistema incluiintegridade de sinal que verifica o uma verificação desinal de microfonegravado e descarta os blocos/segmentos de sinal que apresentam muita interferência.
[0128] Isso é alcançado pela computação de uma medida de semelhança entre respectivos blocos de zk(n) para 1< k < N.
[0129] O número total de semelhanças computadasé, no exemplo específico,
Figure img0008
por bloco, onde
Figure img0009
[0130] Se dois blocos somente contiverem o eco/sinal de teste (e o componente de ruído fixo), eles serão semelhantes e podem ser utilizados para adaptar o sistema. Entretanto, se pelo menos um dos blocos na comparação por par contiver interferência significativa, então, outros pares de blocos são testados. Se nenhum dos dois blocos for semelhantes, então, o bloco não é utilizado na rotina de adaptação. Para robustez aumentada, é geralmente desejável escolher N>2 para aumentar a probabilidade de que pelo menos um par de blocos é semelhante.
[0131] Diferentes medidas de semelhança podem ser utilizadas. A seguir, algumas opções específicas são incluídas:
MEDIDA DE SEMELHANÇA COM BASE EM CORRELAÇÃO
[0132] A correlação cruzada normalizada entre o ith e jth bloco pode ser, conforme anteriormente mencionado, utilizada como um valor de semelhança. Isso pode ser especificamente dado como:
Figure img0010
[0133] A correlação cruzada pode, da mesma forma, ser dada como:
Figure img0011
[0134] Deve ser observado que a presença de uma interferência não fixa reduz o valor de p. . Portanto, .jpresumindo a ausência de qualquer interferência de áudio nos ith e jth blocos/segmentos de sinal, uma vinculação menor para o limite determinando se incluem ou descartam blocos para a adaptação pode ser dada por:
Figure img0012
uma vez que
Figure img0013
Observe que, embora oeco e(n) também contenha componentes não lineares, uma estimativa da correlação cruzada e termos de segundo momento podem ser computados utilizando o sinal de eco estimado por um filtro adaptativo linear. Dependendo do tamanho de etapa e extensão de filtro, o filtro adaptativo pode rastrear não linearidades em alguma medida.
[0135] Se for presumido que o sistema é invariante no tempo, isto é, ek(n)=e(n) para todo k, então, o limite ncorr reduz a
Figure img0014
onde ENR=E{e2(n)}/o2,v denota a proporção de eco para ruído.
MEDIDA DE SEMELHANÇA COM BASE EM DIFERENÇA DE QUADRADO MÉDIO
[0136] Uma medida de semelhança com base emdiferença de quadrado médio possível é dada por
Figure img0015
[0137] Presumindo a ausência de uma interferência de áudio (si(n)=sj(n)=0), isso pode ser simplificado por
Figure img0016
que pode ser utilizado como um limite para detectar se uma das duas estruturas contêm interferência de áudio, com
Figure img0017
[0138] Se for presumida uma invariância de tempo, isto é, ek(n)=e(n) para todo k, então, o limite ndiff reduz a
Figure img0018
MEDIDA DE SEMELHANÇA COM BASE EM ENERGIA
[0139] Uma medida que é menos sensível a uma estrutura afinada do sinal é dada por
Figure img0019
[0140] Expandindo os termos de sinal de microfone,
Figure img0020
[0141] Presumindo a ausência de interferência de áudio (si(n)=sj(n)=0), isso pode ser simplificado para
Figure img0021
[0142] Uma complicação com esse valor é que o sinal de E{s2,i(n)}-E{s2,j(n)} pode ser positivo ou negativo, tornando-o menos adequado como um limite.
Medida de diferença de contagem de cruzamento zero
[0143] A taxa ou contagem de cruzamento zero é um aspecto que é particularmente adequado para distinguir música de fala. A medida de diferença de contagem de cruzamento zero (ZCCD) pode ser definida como:
Figure img0022
onde ZCC( . ) conta o número de cruzamentos zero.
Índice de correlação cruzada de informações mútuas
[0144] O índice de correlação cruzada de informações mútuas (MICI) pode ser dado por
Figure img0023
que se iguala a zero quando zi(n) e zj(n) forem linearmente dependentes e aumentarem conforme a dependência diminuir. Essa medida também faz uso da função de correlação cruzada normalizada pij entre os dois sinais.
[0145] A abordagem pode operar como segue.
[0146] Primeiro, o sinal de teste é interpretado com o sinal de teste compreendendo N repetições. O sinal é capturado pelo microfone 201.
[0147] O sistema, então, procede para estimar o piso de ruído do sinal capturado.
[0148] O sinal de microfone é dividido em N partes contíguas de T amostras de extensão. A divisão pode ignorar no sinal de microfone por um período inicial após o início do sinal de teste, a fim de permitir que o efeito se estabeleça (em particular, a fim de permitir que reverberação do sinal de teste esteja presente nos primeiros blocos de sinal gerados).
[0149] Para cada segmento, um eco acústico linear é estimado utilizando um filtro adaptativo. Isso pode prover uma estimativa de nível para a energia de sinal do eco/sinal de teste, conforme capturado pelo microfone.
[0150] Para cada bloco, um limite que determina se o bloco deve ser aceito ou não é determinado utilizando a estimativa de eco e a estimativa de piso de ruído para derivar um limite. O limite pode ser atualizado para cada bloco/segmento.
[0151] Os valores de limite final por estrutura podem ter base no máximo (no caso de utilização de ) ou no mínimo (no caso de utilização de δij) por todas as estruturas.
[0152] Para cada par de blocos, o par é categorizado como semelhante ou não dependente de se a medida excede (no caso de utilização de ) ou está abaixo (no caso de utilização de δij) o determinado limite.
[0153] Com limites restritivos, é inevitável que alguns temporários na resposta de eco possam causar uma detecção ausente de um bloco limpo. Em outras palavras, o bloco pode ser categorizado como contendo interferência quando, na verdade, uma condição temporária, como um movimento, tiver feito com que uma grande diferença seja detectada. Para impedir isso, uma forma de suavização de detecção pode ser empregada, por exemplo, utilizando filtração mediana. Por exemplo, considere que o valor 1 denote que uma estrutura atual é semelhante a outra e 0 que seja diferente. Dado um armazenamento em buffer da detecção de estrutura atual e B-1 detecções anteriores, se o número de estruturas semelhantes estiver abaixo de um determinado limite, então, a estrutura média no armazenamento em buffer de detecção for ajustada para 0. Se o número de estruturas semelhantes for acima de um determinado limite, então, a estrutura média é ajustada para 1.
[0154] Outro aspecto a considerar é como derivar os limites com base na estimativa de eco produzida pelo cancelador de eco acústico. Se o valor limite for atualizado por cada bloco, então, a estimativa de eco produzida tem base nos coeficientes de filtro adaptativos anteriores. Portanto, após cada atualização dos coeficientes de filtro, uma nova estimativa de eco deve ser preferencialmente produzida para aprimorar a sincronicidade entre a medida de semelhança atual e o respectivo valor limite.
[0155] Uma vez que os limites apresentados acima são bastante restritivos, geralmente, será adequado relaxá- los, por exemplo, ao escalar como
Figure img0024
[0156] Dados experimentais para um cenário, no qual um sinal de teste consistindo em três períodos foi utilizado, são apresentados na Figuras 3-10.
[0157] No exemplo, o sinal de teste foi interpretado por meio dos alto-falantes de uma televisão. A extensão de bloco de sinal foi ajustada a 512 amostras e a extensão de filtro adaptativo para estimar o caminho de eco foi ajustada para 512 amostras. Um algoritmo NLMS foi empregado para estimar o eco linear. Além disso, os valores de ε e y nas fórmulas acima para escalar o limite foram ajustados para 0,98 e 3,0, respectivamente. Um filtro mediano de extensão 10 (detecções de bloco) também é utilizado para suavizar as detecções e corresponde a aproximadamente 320 ms para o determinado tamanho de estrutura.
[0158] De maneira ideal, a abordagem deve ser robusta a movimentos no ambiente local, que pode mudar a resposta de impulso de caminho de eco acústico. A seguir, o conjunto de resultados, uma pessoa de pé na sala se movimenta a uma localização diferente entre períodos do sinal de teste para mudar efetivamente o caminho de eco acústico. As Figuras 3-6 apresentam as medidas e resultados de semelhança utilizando as medidas de semelhança com base em correlação e diferença. Observe que ambas as medidas apresentam robustez contra movimentos no ambiente acústico local, que é importante, uma vez que alterações no caminho acústico não devem ser a causa de detecções falsas que uma interferência está presente.
[0159] Especificamente, a Figura 3 ilustra uma medida de semelhança com base em correlação e limite por três períodos de um sinal de teste somente com movimentos locais. As marcações de eixo y indicam os períodos de sinal de teste envolvidos na medida de semelhança, por exemplo, 12 denota a medida de semelhança entre o primeiro e o segundo período. Figura 4 ilustra o desempenho de detecção resultante utilizando uma medida de semelhança com base em correlação (com 1 denotando um bloco que é considerado limpo e 0 denota um bloco que é considerado por apresentar interferência). A Figura 5 ilustra uma medida de semelhança com base em diferença de quadrado médio e limite para os três períodos de um sinal de teste somente com movimentos locais. A Figura 6 ilustra o mesmo, mas para uma medida de semelhança com base em diferença de quadrado médio.
[0160] Nos exemplos a seguir, interferência de fala local é introduzida durante a gravação do sinal de teste durante a segunda metade de cada período de teste. Observe que, durante a segunda metade do período, a adaptação descarta as estruturas que contêm fala de interferência.
[0161] A Figura 7 ilustra uma medida de semelhança com base em correlação e limite para os três períodos de um sinal de teste com interferência de fala local. A Figura 8 ilustra o desempenho de detecção resultante utilizando uma medida de semelhança com base em correlação. A Figura 9 ilustra uma medida de semelhança com base em diferença de quadrado médio e limite para três períodos de um sinal de teste com interferência de fala local. A Figura 10 ilustra o mesmo, mas para uma medida de semelhança com base em diferença de quadrado médio.
[0162] Será apreciado que a descrição acima, para clareza, descreveu as realizações da invenção com referência a diferentes circuitos funcionais, unidades e processadores. Entretanto, será aparente que qualquer distribuição de funcionalidade adequada entre diferentes circuitos funcionais, unidades ou processadores pode ser utilizada sem prejudicar a invenção. Por exemplo, a funcionalidade ilustrada a ser realizada por processadores ou controladores separados pode ser realizada pelo mesmo processador ou controladores. Com isso, referências a unidades ou circuitos funcionais devem ser somente vistas como referências a meios adequados para prover a funcionalidade descrita, ao invés de indicativas de uma estrutura ou organização lógica ou física estrita.
[0163] A invenção pode ser implementada em qualquer forma adequada, incluindo hardware, software, firmware ou qualquer combinação destes. A invenção pode ser opcionalmente implementada, pelo menos parcialmente, como software de computador executando em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e componentes de uma realização da invenção podem ser física, funcional e logicamente implementados de qualquer maneira adequada. De fato, a funcionalidade pode ser implementada em uma única unidade, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Como tal, a invenção pode ser implementada em uma única unidade ou pode ser física e funcionalmente distribuída entre diferentes unidades, circuitos e processadores.
[0164] Embora a presente invenção tenha sido descrita em conexão com algumas realizações, não se pretende que seja limitada à forma específica estabelecida aqui. Ao contrário, o escopo da presente invenção é limitado somente pelas reivindicações anexas. Adicionalmente, embora um aspecto possa parecer ser descrito em conexão com realizações particulares, um técnico no assunto reconheceria que diversos aspectos das realizações descritas podem ser combinados, de acordo com a invenção. Nas reivindicações, o termo compreendendo não exclui a presença de outros elementos ou etapas.
[0165] Além disso, embora listados individualmente, uma pluralidade de meios, elementos, circuitos ou etapas de método pode ser implementada, por exemplo, por um único circuito, unidade ou processador. Adicionalmente, embora aspectos individuais possam ser incluídos em diferentes reivindicações, eles podem ser possivelmente combinados de maneira vantajosa e a inclusão em diferentes reivindicações não implica que uma combinação de aspectos não seja viável e/ou vantajosa. Também, a inclusão de um aspecto em uma categoria de reivindicações não implica uma limitação a essa categoria, mas, ao contrário, indica que o aspecto é igualmente aplicável a outras categorias de reivindicação, conforme adequado. Além disso, a ordem dos aspectos nas reivindicações não implica em qualquer ordem específica na qual os aspectos devem ser trabalhados e, em particular, a ordem de etapas individuais em uma reivindicação de método não implica que essas etapas devem ser realizadas nessa ordem. Ao contrário, as etapas podem ser realizadas em qualquer ordem adequada. Além disso, referências em singular não excluem uma pluralidade. Assim, referências a “um”, “uma”, “primeiro”, “segundo” etc. não impedem uma pluralidade. Sinais de referência nas reivindicações são providos meramente como um exemplo esclarecedor e não devem ser construídos como limitantes do escopo das reivindicações de qualquer maneira.

Claims (27)

1. APARELHO, caracterizado por compreender:um receptor (203) para receber um sinal de microfone de um microfone (201), o sinal de microfone compreendendo um componente de sinal de teste correspondente a um sinal de teste de áudio capturado pelo microfone;um divisor (215) para dividir o sinal de microfone em uma pluralidade de componentes de sinal de intervalo de teste, cada componente de sinal de intervalo de teste correspondendo ao sinal de microfone em um intervalo de tempo, em que o sinal de teste de áudio compreende uma pluralidade de repetições de um componente de sinal de áudio, e uma cronometragem dos componentes de sinal de intervalo de teste corresponde a uma cronometragem das repetições;um processador de conjunto (217) para gerar conjuntos de componentes de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste;um processador de semelhança (219) para gerar um valor de semelhança para cada conjunto de componentes de sinal de intervalo de teste;um estimador de interferência (221) para determinar uma medida de interferência para componentes de sinal de intervalo de teste individuais em resposta aos valores de semelhança.
2. APARELHO, de acordo com a reivindicação 1, caracterizado por ainda compreender uma unidade de calibração (211) para adaptar um processamento de sinal em resposta aos componentes de sinal de intervalo de teste, a unidade de adaptação sendo disposta para ponderar pelo menos uma primeira contribuição de componente de sinal de intervalo de teste em resposta uma estimativa de interferência para o primeiro intervalo de tempo.
3. APARELHO, de acordo com a reivindicação 2, caracterizado pela unidade de calibração (211) ser disposta para descartar componentes de sinal de intervalo de teste para os quais a estimativa de interferência está acima de um limite.
4. APARELHO, de acordo com a reivindicação 1, caracterizado por ainda compreender um estimador de ruído fixo disposto para gerar uma estimativa de ruído fixo e para compensar pelo menos um dentre o limite e a estimativa de interferência em resposta à estimativa de ruído fixo.
5. APARELHO, de acordo com a reivindicação 4, caracterizado pela estimativa de ruído fixo ser uma estimativa de piso de ruído.
6. APARELHO, de acordo com a reivindicação 1, caracterizado por ainda compreender um estimador de sinal de teste disposto para gerar uma estimativa de nível para o componente de sinal de teste e para compensar pelo menos um dentre o limite e a estimativa de interferência em resposta à estimativa de nível.
7. APARELHO, de acordo com a reivindicação 1, caracterizado pelo divisor (215) ser disposto para dividir o sinal de microfone na pluralidade de componentes de sinal de intervalo de teste em resposta em características de repetição do sinal de teste de áudio.
8. APARELHO, de acordo com a reivindicação 1, caracterizado pelo estimador de interferência (221) ser disposto para, para um primeiro componente de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste, determinar um valor de semelhança máximo para valores de semelhança de conjuntos incluindo o primeiro componente de sinal de intervalo de teste; e para determinar a medida de interferência para o primeiro componente de sinal de intervalo de teste em resposta ao valor de semelhança máximo.
9. APARELHO, de acordo com a reivindicação 1, caracterizado pelo divisor (215) ser disposto para gerar pelo menos dois conjuntos compreendendo pelo menos um primeiro dos componentes de sinal de intervalo de teste.
10. APARELHO, de acordo com a reivindicação 9, caracterizado por cada componente de sinal de intervalo de teste ter uma duração de não menos que 10 ms e não mais que 200 ms.
11. APARELHO, de acordo com a reivindicação 1, caracterizado por cada conjunto consistir em dois componentes de sinal de intervalo de teste.
12. APARELHO, de acordo com a reivindicação 11, caracterizado pelo divisor (215) ser disposto para gerar conjuntos correspondentes a todas as combinações de par dos componentes de sinal de intervalo de teste.
13. APARELHO, de acordo com a reivindicação 1, caracterizado por ainda compreender um processador de aplicativo disposto para receber o sinal de microfone e processar o sinal para transmissão a uma unidade de comunicação remota.
14. APARELHO, de acordo com a reivindicação 13, caracterizado por o processador de aplicativo ser ainda disposto para receber dados de áudio da unidade de comunicação remota e processar os dados de áudio recebidos para gerar um sinal a ser interpretado localmente.
15. APARELHO, de acordo com a reivindicação 13, caracterizado pela medida de interferência ser utilizada para determinar quando uma calibração é realizada pelo processador de calibração.
16. APARELHO, de acordo com a reivindicação 1, caracterizado por ainda compreender um processador de calibração disposto para adaptar o processamento de áudio do processador de aplicativo ao determinar os parâmetros de adaptação para o processamento de áudio.
17. APARELHO, de acordo com a reivindicação 1, caracterizado por os conjuntos de componentes de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste compreenderem componentes de sinal de intervalo de teste não consecutivos.
18. MÉTODO DE GERAÇÃO DE UMA MEDIDA DE INTERFERÊNCIA DE ÁUDIO, sendo o método caracterizado por compreender:recepção de um sinal de microfone de um microfone(201), o sinal de microfone compreendendo um componente de sinal de teste correspondente a um sinal de teste de áudio capturado pelo microfone;divisão do sinal de microfone em uma pluralidadede componentes de sinal de intervalo de teste, cada componente de sinal de intervalo de teste correspondendo ao sinal de microfone em um intervalo de tempo, em que o sinal de teste de áudio compreende uma pluralidade de repetições de um componente de sinal de áudio, e uma cronometragem dos componentes de sinal de intervalo de teste corresponde a uma cronometragem das repetições;geração de conjuntos de componentes de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste;geração de um valor de semelhança para cada conjunto de componentes de sinal de intervalo de teste; edeterminação de uma medida de interferência para componentes de sinal de intervalo de teste individuais em resposta aos valores de semelhança.
19. MÉTODO, de acordo com a reivindicação 18, caracterizado por a medida de interferência para um componente de sinal de intervalo de teste individual ser gerada ao identificar o mais alto valor de semelhança para apenas aqueles conjuntos de componentes de sinal de intervalo de teste em que o componente de sinal de intervalo de teste individual é incluído no conjunto.
20. MÉTODO, de acordo com a reivindicação 19, caracterizado por o método ainda compreender ajustar a medida de interferência para o mais alto valor de semelhança identificado.
21. MÉTODO, de acordo com a reivindicação 18, caracterizado por o método ainda compreender:gerar um primeiro componente de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste;armazenar o primeiro componente de sinal de intervalo de teste em uma memória local; gerar um segundo componente de sinal de intervalo de teste da pluralidade de componentes de sinal de intervalo de teste;comparar o segundo componente de sinal de intervalo de teste com o primeiro componente de sinal de intervalo de teste anteriormente armazenado para gerar um valor de semelhança;determinar se o valor de semelhança gerado excede um limite;determinar uma medida de interferência para o segundo componente de sinal de intervalo de teste.
22. MÉTODO, de acordo com a reivindicação 21, caracterizado por ainda compreender substituir o primeiro componente de sinal de intervalo de teste pelo segundo componente de sinal de intervalo de teste na memória local no caso onde é determinado que o valor de semelhança gerado não excede o limite.
23. MÉTODO, de acordo com a reivindicação 21, caracterizado por ainda compreender substituir o primeiro componente de sinal de intervalo de teste pelo segundo componente de sinal de intervalo de teste na memória local no caso onde é determinado que a energia de interferência de áudio do segundo componente de sinal de teste é menor do que a energia de interferência de áudio do primeiro componente de sinal de teste.
24. MÉTODO, de acordo com a reivindicação 21, caracterizado por o limite ser um limite fixo.
25. MÉTODO, de acordo com a reivindicação 21, caracterizado por o limite ser um limite adaptativo.
26. MÉTODO, de acordo com a reivindicação 21, caracterizado por o limite ser atualizado por cada intervalo de teste.
27. MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIO compreendendo instruções para execução em um processador, caracterizado por as instruções, quando executadas por um processador, fazerem com que o processador realize o método conforme definido em qualquer uma das reivindicações 18 a 26.
BR112015007625-4A 2012-10-09 2013-10-04 Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador BR112015007625B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261711249P 2012-10-09 2012-10-09
US61/711,249 2012-10-09
PCT/IB2013/059117 WO2014057406A1 (en) 2012-10-09 2013-10-04 Method and apparatus for audio interference estimation

Publications (2)

Publication Number Publication Date
BR112015007625A2 BR112015007625A2 (pt) 2017-07-04
BR112015007625B1 true BR112015007625B1 (pt) 2021-12-21

Family

ID=49517561

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015007625-4A BR112015007625B1 (pt) 2012-10-09 2013-10-04 Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador

Country Status (7)

Country Link
US (1) US9591422B2 (pt)
EP (1) EP2907323B1 (pt)
JP (1) JP6580990B2 (pt)
CN (1) CN104685903B (pt)
BR (1) BR112015007625B1 (pt)
RU (1) RU2651616C2 (pt)
WO (1) WO2014057406A1 (pt)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9412390B1 (en) * 2010-04-12 2016-08-09 Smule, Inc. Automatic estimation of latency for synchronization of recordings in vocal capture applications
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US11146901B2 (en) 2013-03-15 2021-10-12 Smule, Inc. Crowd-sourced device latency estimation for synchronization of recordings in vocal capture applications
US10284985B1 (en) 2013-03-15 2019-05-07 Smule, Inc. Crowd-sourced device latency estimation for synchronization of recordings in vocal capture applications
US9785706B2 (en) * 2013-08-28 2017-10-10 Texas Instruments Incorporated Acoustic sound signature detection based on sparse features
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
DE102015106114B4 (de) * 2015-04-21 2017-10-26 D & B Audiotechnik Gmbh Verfahren und einrichtung zur positionserkennung von lautsprecherboxen einer lautsprecherboxenanordnung
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
CN108028985B (zh) 2015-09-17 2020-03-13 搜诺思公司 用于计算设备的方法
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
CN107045874B (zh) * 2016-02-05 2021-03-02 深圳市潮流网络技术有限公司 一种基于相关性的非线性语音增强方法
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
CN106454670B (zh) * 2016-10-20 2020-06-02 海能达通信股份有限公司 一种啸叫检测方法及装置
US10375498B2 (en) 2016-11-16 2019-08-06 Dts, Inc. Graphical user interface for calibrating a surround sound system
CN106792414A (zh) * 2016-11-28 2017-05-31 青岛海信移动通信技术股份有限公司 一种终端的麦克风检测方法及终端
US10887712B2 (en) 2017-06-27 2021-01-05 Knowles Electronics, Llc Post linearization system and method using tracking signal
CN112272848B (zh) * 2018-04-27 2024-05-24 杜比实验室特许公司 使用间隙置信度的背景噪声估计
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
CN109087669B (zh) * 2018-10-23 2021-03-02 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
US10943599B2 (en) 2018-10-26 2021-03-09 Spotify Ab Audio cancellation for voice recognition
WO2020200595A1 (en) * 2019-03-29 2020-10-08 Sony Corporation Signal processing
WO2021021857A1 (en) 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Acoustic echo cancellation control for distributed audio devices
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
TWI740206B (zh) * 2019-09-16 2021-09-21 宏碁股份有限公司 訊號量測的校正系統及其校正方法
CN113225659A (zh) * 2020-02-06 2021-08-06 钉钉控股(开曼)有限公司 设备测试方法及电子设备
US20200243067A1 (en) * 2020-04-15 2020-07-30 Intel Corportation Environment classifier for detection of laser-based audio injection attacks
US11961535B2 (en) 2020-07-28 2024-04-16 Intel Corporation Detection of laser-based audio injection attacks using channel cross correlation
CN113077804B (zh) * 2021-03-17 2024-02-20 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质
US11776556B2 (en) * 2021-09-27 2023-10-03 Tencent America LLC Unified deep neural network model for acoustic echo cancellation and residual echo suppression
EP4228187B1 (en) * 2022-02-15 2024-06-19 Aptiv Technologies AG Integrity tests for mixed analog digital systems
CN115604613B (zh) * 2022-12-01 2023-03-17 杭州兆华电子股份有限公司 一种基于隔音箱实现的声干扰消除方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
JPH09292885A (ja) * 1996-04-30 1997-11-11 Oki Electric Ind Co Ltd 音響空間インパルス応答推定装置
US5937377A (en) * 1997-02-19 1999-08-10 Sony Corporation Method and apparatus for utilizing noise reducer to implement voice gain control and equalization
CN100337270C (zh) * 2004-08-18 2007-09-12 华为技术有限公司 一种语音通信终端背景噪声的消除装置及方法
US7970151B2 (en) * 2004-10-15 2011-06-28 Lifesize Communications, Inc. Hybrid beamforming
WO2007131815A1 (en) 2006-05-16 2007-11-22 Phonak Ag Hearing device and method for operating a hearing device
JP4725422B2 (ja) * 2006-06-02 2011-07-13 コニカミノルタホールディングス株式会社 エコーキャンセル回路、音響装置、ネットワークカメラ、及びエコーキャンセル方法
KR101427648B1 (ko) * 2007-10-12 2014-08-07 삼성전자주식회사 어레이 스피커 시스템에서 불균일 방사 패턴을 제거하는방법 및 장치
US8118712B2 (en) * 2008-06-13 2012-02-21 Gil Thieberger Methods and systems for computerized talk test
US8379873B2 (en) * 2009-04-29 2013-02-19 Bose Corporation Adaptive headset connection status sensing
CA2768142C (en) * 2009-07-15 2015-12-15 Widex A/S A method and processing unit for adaptive wind noise suppression in a hearing aid system and a hearing aid system
JP5493817B2 (ja) * 2009-12-17 2014-05-14 沖電気工業株式会社 エコーキャンセラ
WO2012069973A1 (en) 2010-11-24 2012-05-31 Koninklijke Philips Electronics N.V. A device comprising a plurality of audio sensors and a method of operating the same
JP5627440B2 (ja) * 2010-12-15 2014-11-19 キヤノン株式会社 音響装置及びその制御方法、プログラム

Also Published As

Publication number Publication date
US20150271616A1 (en) 2015-09-24
RU2015117617A (ru) 2016-12-10
EP2907323A1 (en) 2015-08-19
BR112015007625A2 (pt) 2017-07-04
CN104685903A (zh) 2015-06-03
JP2015535962A (ja) 2015-12-17
EP2907323B1 (en) 2017-09-06
US9591422B2 (en) 2017-03-07
JP6580990B2 (ja) 2019-09-25
CN104685903B (zh) 2018-03-30
WO2014057406A1 (en) 2014-04-17
RU2651616C2 (ru) 2018-04-23

Similar Documents

Publication Publication Date Title
BR112015007625B1 (pt) Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador
US11336987B2 (en) Method and device for detecting wearing state of earphone and earphone
US8126156B2 (en) Calibrating at least one system microphone
Huang et al. A multi-frame approach to the frequency-domain single-channel noise reduction problem
CN103238182B (zh) 具有远程噪声检测器的降噪系统
RU2605522C2 (ru) Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
US20140337021A1 (en) Systems and methods for noise characteristic dependent speech enhancement
BR112015020150B1 (pt) Aparelho para gerar um sinal de fala, e, método para gerar um sinal de fala
AU2018292422A1 (en) System, device and method for assessing a fit quality of an earpiece
BRPI0905760B1 (pt) Equipamento e método para a computação de informações de controle para um filtro de supressão de ecos e equipamento e método para a computação de um valor de retardo
CN109313909A (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
US10462581B2 (en) Method of detecting a defect in a hearing instrument, and hearing instrument
BR112015023897B1 (pt) Aparelho para determinar uma posição de um microfone, método para determinar uma posição de um microfone
BRPI0611649B1 (pt) Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador
CN110431624B (zh) 残余回声检测方法、残余回声检测装置、语音处理芯片及电子设备
US20200305769A1 (en) Method for hearing test and hearing test system
US8600037B2 (en) Audio quality and double talk preservation in echo control for voice communications
CN106161820B (zh) 一种用于立体声声学回声抵消的通道间去相关方法
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
BR112014009338B1 (pt) Aparelho de atenuação de ruído e método de atenuação de ruído
EP2572356A1 (en) Method and arrangement for processing of speech quality estimate
CN116456237A (zh) 耳机的声音泄漏检测方法、装置、设备及存储介质
Szwoch et al. A low complexity double-talk detector based on the signal envelope
US8675821B2 (en) Network audio testing system and network audio testing method thereof

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B25A Requested transfer of rights approved

Owner name: MEDIATEK INC. (TW)

B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B09Y Publication of grant cancelled [chapter 9.1.2 patent gazette]

Free format text: O PRESENTE PEDIDO TEVE UM PARECER DE DEFERIMENTO NOTIFICADO NA RPI NO 2635 DE 06/07/2021, TENDO SIDO CONSTATADO NA MENSAGEM FALE CONOSCO 947776 QUE ESTA NOTIFICACAO CONTEM ERRO DE DIGITACAO NA REIVINDICACAO DEPENDENTE 15, ERRO QUE PODE VIR A GERAR UMA POSSIVEL FALTA DE CLAREZA NA LEITURA DESTA REIVINDICACAO NA CARTA PATENTE. A ATUAL REIVINDICACAO 15 DIVULGA O SEGUINTE "(...) QUANDO UMA CALIBRACAO E REALIZADA PELO PROCESSADOR DE APLICACAO", TRECHO QUE DEVE SER CORRIGIDO PARA "(...) QUANDO UMA CALIBRACAO E REALIZADA PELO PROCESSADOR DE CALIBRACAO". O SUPORTE PARA ESTA CORRECAO PODE SER ENCONTRADO NA PAGINA 18, PARAGRAFO (065) DO RELATORIO DESCRITIVO CONFORME ORIGINALMENTE DEPOSITADO EM 06/04/2

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 04/10/2013, OBSERVADAS AS CONDICOES LEGAIS.