BR112014009647B1 - Aparelho de atenuação do ruído e método de atenuação do ruído - Google Patents

Aparelho de atenuação do ruído e método de atenuação do ruído Download PDF

Info

Publication number
BR112014009647B1
BR112014009647B1 BR112014009647-3A BR112014009647A BR112014009647B1 BR 112014009647 B1 BR112014009647 B1 BR 112014009647B1 BR 112014009647 A BR112014009647 A BR 112014009647A BR 112014009647 B1 BR112014009647 B1 BR 112014009647B1
Authority
BR
Brazil
Prior art keywords
noise
signal
candidates
candidate
codebook
Prior art date
Application number
BR112014009647-3A
Other languages
English (en)
Other versions
BR112014009647A2 (pt
Inventor
Sriram Srinivasan
Original Assignee
Koninklijke Philips N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips N.V. filed Critical Koninklijke Philips N.V.
Publication of BR112014009647A2 publication Critical patent/BR112014009647A2/pt
Publication of BR112014009647B1 publication Critical patent/BR112014009647B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

aparelho e método de atenuação do ruído, atenuação do ruído, e, produto de programa de computador um aparelho de atenuação do ruído recebe um sinal de áudio que compreende um componente de sinal desejado e do ruído. dois livros de código (109, 111) compreendem respectivamente candidatos de sinal desejado que representam um possível componente de sinal desejado e candidatos de contribuição de sinal do ruído que representam possíveis contribuições do ruído. um segmentador (103) segmenta o sinal de áudio nos segmentos de tempo e para cada segmento de tempo um atenuador do ruído (105) gera candidatos de sinal estimado por cada um dos candidatos de sinal desejado que geram um candidato de sinal estimado como uma combinação de uma versão reduzida do candidato de sinal desejado e uma combinação ponderada dos candidatos de contribuição de sinal do ruído. o atenuador do ruído (105) minimiza uma função de custo indicativa de uma diferença entre o candidato de sinal estimado e o sinal de áudio no segmento de tempo. um candidato de sinal é então determinado para o segmento de tempo dos candidatos de sinal estimado e o sinal de áudio é um ruído compensado com base neste candidato de sinal.

Description

CAMPO DA INVENÇÃO
[0001] A invenção refere-se à atenuação do ruído de sinal de áudio e, em particular, mas não exclusivamente, à atenuação do ruído para sinais da fala.
HISTÓRICO DA INVENÇÃO
[0002] A atenuação do ruído nos sinais de áudio é desejável em muitas aplicações para intensificar ou enfatizar ainda mais um componente de sinal desejado. Por exemplo, o aprimoramento da fala na presença do ruído anterior tem atraído muito interesse devido a sua relevância prática. Uma aplicação particularmente desafiante é a redução do ruído em um único microfone na telefonia móvel. Os altos custos de um dispositivo de único microfone tornam-se atrativos nos mercados emergentes. Por outro lado, a ausência de múltiplos microfones impede soluções baseadas em um formador de feixe para suprimir os altos níveis do ruído que podem estar presentes. Uma abordagem de um único microfone que trabalha bem sob condições não estacionárias é, portanto, comercialmente desejável.
[0003] Os algoritmos de atenuação do ruído de um único microfone também são relevantes nas aplicações de multimicrofones, onde a formação de feixe de áudio não é prática ou preferida, ou em adição a tal formação de feixe. Por exemplo, tais algoritmos podem ser úteis para sistemas de áudio viva-voz e de videoconferência em campos do ruído não estacionário sonoro e difuso ou onde existe um número de fontes de interferência presentes. Técnicas espaciais de filtragem tais como a formação de feixe podem alcançar apenas o sucesso limitado em tais cenários e a supressão adicional do ruído necessita ser realizada na saída do formador de feixe em uma etapa de pós-processamento.
[0004] Vários algoritmos de atenuação do ruído têm sido propostos incluindo sistemas que são baseados no conhecimento ou nas suposições acerca das características do componente de sinal desejado. Em particular, os métodos de aprimoramento de fala baseados no conhecimento tais como os esquemas orientados pelo livro de código (codebook) têm sido mostrados para um bom desempenho sob condições de ruído não estacionário, mesmo quando opera em um sinal de um único microfone. Exemplos de tais métodos são apresentados em: S. Srinivasan, J. Samuelsson, e W. B. Kleijn, “Estimativa de parâmetro de preditor a curto prazo orientado pelo livro de código para o aprimoramento da fala”, IEEE Trans. Speech, Audio and Language Processing, vol. 14, no. 1, pp. 163{176, Jan. 2006 e S. Srinivasan, J. Samuelsson, e W. B. Kleijn, “Aprimoramento da fala Bayesiano com base no livro de código para ambientes não estacionários,” IEEE Trans. Speech Audio Processing, vol. 15, no. 2, pp. 441-452, Feb. 2007.
[0005] Estes métodos dependem dos livros de código formados de formatos espectrais da fala e do ruído que são parametrizados por, por exemplo, coeficientes preditivos lineares (LP). O uso de um livro de código da fala é intuitivo e adapta-se facilmente a uma implementação prática. O livro de código da fala pode ser um alto-falante independente (formado usando dados de diversos alto-falantes) ou um alto-falante dependente. O último caso é útil para, por exemplo, aplicações em telefonia móvel quando esta tende a ser pessoal e muitas vezes predominantemente usada por um único alto-falante. O uso de livros de código do ruído em uma implementação prática é, entretanto, desafiante devido à variedade de tipos do ruído que podem ser encontrados na prática. Como resultado, um livro de código do ruído muito amplo é tipicamente usado.
[0006] Tipicamente, tais algoritmos baseados em livro de código buscam encontrar a entrada de livro de código da fala e a entrada de livro de código do ruído que quando combinadas se aproximam mais do sinal capturado. Quando as entradas de livro de código apropriadas forem encontradas, os algoritmos compensarão o sinal recebido com base nas entradas de livro de código. Entretanto, a fim de identificar as entradas de livro de código apropriadas, uma pesquisa é realizada sobre todas as possíveis combinações das entradas de livro de código da fala e das entradas de livro de código do ruído. Isto resulta em um processo de pesquisa computacionalmente muito exigente que frequentemente não é prático especialmente para dispositivos de muita complexidade. Além disso, os livros de código de muito ruído são incômodos para gerar e armazenar, e o grande número de possíveis candidatos do ruído pode aumentar o risco de uma estimativa falsa resultando em uma atenuação do ruído subótima.
[0007] Por isso, uma abordagem de atenuação do ruído melhorada deve ser vantajosa e em particular uma abordagem que permite flexibilidade aumentada, exigências computacionais reduzidas, implementação e/ou operação facilitada, custo reduzido e/ou desempenho melhorado deve ser vantajosa.
SUMÁRIO DA INVENÇÃO
[0008] Consequentemente, a Invenção busca preferivelmente mitigar, aliviar ou eliminar uma ou mais desvantagens acima mencionadas isoladamente ou em qualquer combinação.
[0009] De acordo com um aspecto da invenção é fornecido um aparelho de atenuação do ruído compreendendo: um receptor para receber um sinal de áudio compreende um componente de sinal desejado e um componente de sinal do ruído; um primeiro livro de código compreende uma pluralidade de candidatos de sinal desejado para o componente de sinal desejado, cada candidato de sinal desejado representa um possível componente de sinal desejado; um segundo livro de código compreende uma pluralidade de candidatos de contribuição de sinal do ruído, cada candidato de contribuição de sinal do ruído representa uma possível contribuição do ruído para o componente de sinal do ruído; um segmentador para segmentar o sinal de áudio nos segmentos de tempo; um atenuador do ruído disposto em, para cada segmento de tempo, realiza as etapas de: gerar uma pluralidade de candidatos de sinal estimado por cada um dos candidatos de sinal desejado do primeiro livro de código gerando um candidato de sinal estimado como uma combinação de uma versão reduzida do candidato de sinal desejado e uma combinação ponderada dos candidatos de contribuição de sinal do ruído, o dimensionamento do candidato de sinal desejado e os pesos da combinação ponderada sendo determinados para minimizar uma função de custo indicativa de uma diferença entre o candidato de sinal estimado e o sinal de áudio no segmento de tempo, gerar um candidato de sinal para o sinal de áudio no segmento de tempo dos candidatos de sinal estimado, e atenuar o ruído do sinal de áudio no segmento de tempo em resposta ao candidato de sinal.
[0010] A invenção pode fornecer a atenuação do ruído melhorada e/ou facilitada. Em muitas realizações, um recurso computacional substancialmente reduzido é exigido. A abordagem pode permitir a atenuação do ruído mais eficiente em muitas realizações que podem resultar em atenuação do ruído mais rápida. Em muitos cenários, a abordagem pode possibilitar ou permitir a atenuação do ruído em tempo real.
[0011] Um livro de código do ruído substancialmente menor (o segundo livro de código) pode ser usado em muitas realizações comparado às abordagens convencionais. Isto pode reduzir as necessidades de memória.
[0012] Em muitas realizações, a pluralidade de candidatos de contribuição de sinal do ruído pode não refletir qualquer conhecimento ou suposição acerca das características do componente de sinal do ruído. Os candidatos de contribuição de sinal do ruído podem ser candidatos de contribuição de sinal do ruído genéricos e podem ser especificamente fixados, predeterminados, estáticos, permanentes e/ou candidatos de contribuição de sinal do ruído não formados. Isto pode permitir a operação facilitada e/ou pode facilitar a geração e/ou a distribuição do segundo livro de código. Em particular, uma fase de treinamento pode ser evitada em muitas realizações.
[0013] Cada um dos candidatos de sinal desejado pode ter uma duração que corresponde à duração de segmento de tempo. Cada um dos candidatos de contribuição de sinal do ruído pode ter uma duração correspondente à duração do segmento de tempo.
[0014] Cada um dos candidatos de sinal desejado pode ser representado por um conjunto de parâmetros que caracteriza um componente de sinal. Por exemplo, cada candidato de sinal desejado pode compreender um conjunto de coeficientes de predição linear para um modelo de predição linear. Cada candidato de sinal desejado pode compreender um conjunto de parâmetros que caracteriza uma distribuição espectral, tal como por exemplo, uma Densidade Espectral de Potência (PSD).
[0015] Cada um dos candidatos de contribuição de sinal do ruído pode ser representado por um conjunto de parâmetros que caracteriza um componente de sinal. Por exemplo, cada candidato de contribuição de sinal do ruído pode compreender um conjunto de parâmetros que caracteriza uma distribuição espectral, tal como por exemplo, uma Densidade Espectral de Potência (PSD). O número de parâmetros para os candidatos de contribuição de sinal do ruído pode ser inferior ao número de parâmetros para os candidatos de sinal desejado.
[0016] O componente de sinal do ruído pode corresponder a qualquer componente de sinal não sendo parte do componente de sinal desejado. Por exemplo, o componente de sinal do ruído pode incluir ruído branco, ruído colorido, ruído determinista de fontes do ruído indesejadas, implementação do ruído, etc. O componente de sinal do ruído pode ser ruído não estacionário que pode alterar para diferentes segmentos de tempo. O processamento de cada segmento de tempo pelo atenuador do ruído pode ser independente para cada segmento de tempo.
[0017] O atenuador do ruído pode incluir especificamente um processador, um circuito, uma unidade funcional ou um meio para gerar uma pluralidade de candidatos de sinal estimado por cada um dos candidatos de sinal desejado do primeiro livro de código gerando um candidato de sinal estimado como uma combinação de uma versão reduzida do candidato de sinal desejado e uma combinação ponderada dos candidatos de contribuição de sinal do ruído, o dimensionamento do candidato de sinal desejado e os pesos da combinação ponderada sendo determinados para minimizar uma função de custo indicativa de uma diferença entre o candidato de sinal estimado e o sinal de áudio no segmento de tempo; um processador, um circuito, uma unidade funcional ou um meio para gerar um candidato de sinal para o sinal de áudio no segmento de tempo dos candidatos de sinal estimado; e um processador, um circuito, uma unidade funcional ou um meio para atenuar o ruído do sinal de áudio no segmento de tempo em resposta ao candidato de sinal.
[0018] De acordo com uma característica opcional da invenção, a função de custo é uma dentre uma função de custo de Probabilidade Máxima e uma função de custo de Média Quadrada de Erro Mínimo.
[0019] Isto pode fornecer uma determinação da representação particularmente eficiente e alta do dimensionamento e dos pesos.
[0020] De acordo com uma característica opcional da invenção, o atenuador do ruído é disposto para calcular o dimensionamento e os pesos das equações que refletem um derivado da função de custo com relação ao dimensionamento e aos pesos que são zero.
[0021] Isto pode fornecer uma determinação da representação particularmente eficiente e alta do dimensionamento e dos pesos. Em muitas realizações, isto pode permitir a operação em que o dimensionamento e os pesos podem ser diretamente calculados a partir das equações de forma fechada. Em muitas realizações, isto pode permitir um cálculo simples do dimensionamento e dos pesos sem necessitar de quaisquer iterações recursivas ou operações de pesquisa.
[0022] De acordo com uma característica opcional da invenção, os candidatos de sinal desejado têm uma resolução de frequência maior do que a combinação ponderada.
[0023] Isto pode permitir a atenuação prática do ruído com alto desempenho. Em particular, isto pode permitir a importância do candidato de sinal desejado para ser enfatizado com relação à importância do candidato de contribuição de sinal do ruído quando determina os candidatos de sinal estimado.
[0024] Os graus de liberdade na definição dos candidatos de sinal desejado podem ser maiores do que os graus de liberdade quando geram a combinação ponderada. O número de parâmetros que define os candidatos de sinal desejado pode ser maior do que o número de parâmetros que define os candidatos de contribuição de sinal do ruído.
[0025] De acordo com uma característica opcional da invenção, a pluralidade de candidatos de contribuição de sinal do ruído cobre uma faixa de frequência e com cada candidato de contribuição de sinal do ruído de um grupo de candidatos de contribuição de sinal do ruído fornecendo as contribuições em apenas uma subfaixa da faixa de frequência, as subfaixas de diferentes candidatos de contribuição de sinal do ruído do grupo de candidatos de contribuição de sinal do ruído sendo diferentes.
[0026] Isto pode permitir complexidade reduzida, operação facilitada e/ou desempenho melhorado em algumas realizações. Em particular, isto pode permitir uma adaptação facilitada e/ou melhorada do candidato de sinal estimado ao sinal de áudio por ajuste dos pesos.
[0027] De acordo com uma característica opcional da invenção, as subfaixas do grupo de candidatos de contribuição de sinal do ruído são não sobrepostas.
[0028] Isto pode permitir complexidade reduzida, operação facilitada e/ou desempenho melhorado em algumas realizações.
[0029] Em algumas realizações, as subfaixas do grupo de candidatos de contribuição de sinal do ruído podem ser sobrepostas.
[0030] De acordo com uma característica opcional da invenção, as subfaixas do grupo de candidatos de contribuição de sinal do ruído têm tamanhos desiguais.
[0031] Isto pode permitir complexidade reduzida, operação facilitada e/ou desempenho melhorado em algumas realizações.
[0032] De acordo com uma característica opcional da invenção, cada um dos candidatos de contribuição de sinal do ruído do grupo de candidatos de contribuição de sinal do ruído corresponde a uma distribuição de frequência substancialmente uniforme.
[0033] Isto pode permitir complexidade reduzida, operação facilitada e/ou desempenho melhorado em algumas realizações. Em particular, isto pode permitir uma adaptação facilitada e/ou melhorada do candidato de sinal estimado ao sinal de áudio por ajuste dos pesos.
[0034] De acordo com uma característica opcional da invenção, o aparelho de atenuação do ruído ainda compreende um estimador do ruído para gerar uma estimativa do ruído para o sinal de áudio em um intervalo de tempo pelo menos parcialmente externo ao segmento de tempo, e para gerar pelo menos um dos candidatos de contribuição de sinal do ruído em resposta à estimativa do ruído.
[0035] Isto pode permitir complexidade reduzida, operação facilitada e/ou desempenho melhorado em algumas realizações. Em particular, isto pode, em muitas realizações, permitir uma estimativa mais precisa do componente de sinal do ruído, em particular para sistemas em que o ruído pode ter um componente de variação estacionária ou lenta. A estimativa do ruído pode ser, por exemplo, uma estimativa do ruído gerada a partir do sinal de áudio em um ou mais segmentos anteriores de tempo.
[0036] De acordo com uma característica opcional da invenção, a combinação ponderada é uma soma ponderada.
[0037] Isto pode fornecer uma implementação particularmente eficiente e pode reduzir, em particular, complexidade e, por exemplo, permitir uma determinação facilitada dos pesos para a soma ponderada.
[0038] De acordo com uma característica opcional da invenção, pelo menos um dos candidatos de sinal desejado do primeiro livro de código e dos candidatos de contribuição de sinal do ruído do segundo livro de código é representado por um conjunto de parâmetros que compreende não mais do que 20 parâmetros.
[0039] Isto permite menor complexidade. A invenção pode em muitas realizações e cenários fornecer a atenuação do ruído eficiente mesmo para estimativas relativamente grosseiras do sinal e dos componentes de sinal do ruído.
[0040] De acordo com uma característica opcional da invenção, pelo menos um dos candidatos de sinal desejado do primeiro livro de código e dos candidatos de contribuição de sinal do ruído do segundo livro de código é representado por uma distribuição espectral.
[0041] Isto pode fornecer uma implementação particularmente eficiente e pode reduzir em particular a complexidade.
[0042] De acordo com uma característica opcional da invenção, o componente de sinal desejado é um componente de sinal da fala.
[0043] A invenção pode fornecer uma abordagem vantajosa para o aprimoramento da fala.
[0044] A abordagem pode ser particularmente adequada para o aprimoramento da fala. Os candidatos de sinal desejado podem representar componentes de sinal compatíveis com um modelo da fala.
[0045] De acordo com um aspecto da invenção é fornecido um método de atenuação do ruído compreendendo: recebimento de um sinal de áudio compreendendo um componente de sinal desejado e um componente de sinal do ruído; fornecendo um primeiro livro de código compreendendo uma pluralidade de candidatos de sinal desejado para o componente de sinal desejado, cada candidato de sinal desejado representa um possível componente de sinal desejado; fornecendo um segundo livro de código que compreende uma pluralidade de candidatos de contribuição de sinal do ruído, cada candidato de contribuição de sinal do ruído representando uma possível contribuição do ruído para o componente de sinal do ruído; segmentando o sinal de áudio em segmentos de tempo; e para cada segmento de tempo realiza as etapas de gerar uma pluralidade de candidatos de sinal estimado para cada um dos candidatos de sinal desejado do primeiro livro de código gerando um candidato de sinal estimado como uma combinação de uma versão reduzida do candidato de sinal desejado e uma combinação ponderada dos candidatos de contribuição de sinal do ruído, o dimensionamento do candidato de sinal desejado e os pesos da combinação ponderada sendo determinados para minimizar uma função de custo indicativa de uma diferença entre o candidato de sinal estimado e o sinal de áudio no segmento de tempo, que gera um candidato de sinal para o segmento de tempo a partir dos candidatos de sinal estimado e atenua o ruído do sinal de áudio no segmento de tempo em resposta ao candidato de sinal.
[0046] Estes e outros aspectos, características e vantagens da invenção serão evidentes de e elucidados com referência à(s) realização(ões) descritas a seguir.
BREVE DESCRIÇÃO DOS DESENHOS
[0047] As realizações da invenção serão descritas, por meio de exemplo apenas, com referência aos desenhos, em que
[0048] a Fig. 1 é uma ilustração de um exemplo de elementos de um aparelho de atenuação do ruído de acordo com algumas realizações da invenção;
[0049] a Fig. 2 é uma ilustração de um método de atenuação do ruído de acordo com algumas realizações da invenção; e
[0050] a Fig. 3 é uma ilustração de um exemplo de elementos de um atenuador do ruído para o aparelho de atenuação do ruído de Fig. 1.
DESCRIÇÃO DETALHADA DE ALGUMAS REALIZAÇÕES DA INVENÇÃO
[0051] A descrição seguinte foca nas realizações da invenção aplicadas ao aprimoramento da fala por atenuação do ruído. Entretanto, será apreciado que a invenção não é limitada a esta aplicação, mas pode ser aplicada a muitos outros sinais.
[0052] A Fig. 1 ilustra um exemplo de um atenuador do ruído de acordo com algumas realizações da invenção.
[0053] O atenuador do ruído compreende um receptor 101 que recebe um sinal que compreende tanto um componente desejado quanto um componente indesejado. O componente indesejado é referido como um sinal do ruído e pode incluir qualquer componente de sinal não sendo parte do componente de sinal desejado.
[0054] No sistema da Fig. 1, o sinal é um sinal de áudio que pode ser especificamente gerado de um sinal de microfone que captura um sinal de áudio em um determinado ambiente de áudio. A descrição a seguir focará em realizações em que o componente de sinal desejado é um sinal da fala de um alto-falante desejado. O componente de sinal do ruído pode incluir um ruído ambiente no ambiente, áudio de fontes de som indesejadas, implementação do ruído, etc.
[0055] O receptor 101 é acoplado a um segmentador 103 que segmenta o sinal de áudio nos segmentos de tempo. Em algumas realizações, os segmentos de tempo podem ser não sobrepostos, mas em outras realizações os segmentos de tempo podem ser sobrepostos. Adicionalmente, a segmentação pode ser realizada pela aplicação de uma função de janela adequadamente formada, e especificamente o aparelho de atenuação do ruído pode empregar a sobreposição bem-conhecida e adicionar a técnica de segmentação usando uma janela adequada, tal como uma janela Hanning ou Hamming. A duração de segmento de tempo dependerá da implementação específica, mas será em muitas realizações na ordem de 10-100 ms.
[0056] O segmentador 103 é alimentado por um atenuador do ruído 105 que realiza um segmento com base na atenuação do ruído para enfatizar o componente de sinal desejado com relação a um componente de sinal do ruído indesejado. Os segmentos atenuados do ruído resultantes são alimentados em um processador de saída 107 que fornece um sinal de áudio contínuo. O processador de saída pode especificamente realizar a perda de divisão em segmento, por exemplo, através da execução de uma função de sobrepor e adicionar. Será apreciado que em outras realizações, o sinal de saída pode ser fornecido como um sinal segmentado, por exemplo, em realizações onde o segmento adicional com base no processamento de sinal é realizado no sinal atenuado pelo ruído.
[0057] A atenuação do ruído é baseada na abordagem do livro de código que usa livros de código separados em relação ao componente de sinal desejado e ao componente de sinal do ruído. Consequentemente, o atenuador do ruído 105 é acoplado a um primeiro livro de código 109 que é um livro de código de sinal desejado, e no exemplo específico é um livro de código da fala. O atenuador do ruído 105 é ainda acoplado a um segundo livro de código 111 que é um livro de código de contribuição de sinal do ruído.
[0058] O atenuador do ruído 105 é disposto para selecionar as entradas de livro de código do livro de código da fala e do livro de código do ruído tais que a combinação dos componentes de sinal correspondam às entradas selecionadas que mais se assemelham ao sinal de áudio no que segmento de tempo. Uma vez que as entradas de livro de código apropriadas foram encontradas (com um dimensionamento destas), elas representam uma estimativa do componente de sinal da fala individual e do componente de sinal do ruído no sinal de áudio capturado. Especificamente, o componente de sinal correspondente à entrada selecionada de livro de código da fala é uma estimativa do componente de sinal da fala no sinal de áudio capturado e as entradas de livro de código do ruído fornecem uma estimativa do componente de sinal do ruído. Consequentemente, a abordagem usa uma abordagem de livro de código para estimar a fala e os componentes de sinal do ruído do sinal de áudio e uma vez que estas estimativas foram determinadas, elas podem ser usadas para atenuar o componente de sinal do ruído com relação ao componente de sinal da fala no sinal de áudio quando as estimativas tornam- se possíveis de diferenciar-se entre estas.
[0059] Mais especificamente, considera-se um modelo do ruído aditivo onde a fala e o ruído são adotados para ser independentes: y(n) = x(n) + w(n),
[0060] onde y(n); x(n) e w(n) representa a fala barulhenta amostrada (a entrada do sinal de áudio), a fala limpa (o componente de sinal da fala desejado) e o ruído (o componente de sinal do ruído respectivamente.
[0061] As pesquisas de abordagem do livro de código da técnica anterior através dos livros de código encontram uma entrada de livro de código para o componente de sinal e o componente do ruído tais que a combinação medida mais se assemelha ao sinal capturado desse modo fornecendo uma estimativa das PSDs da fala e do ruído para cada segmento de curta duração. Deixe Py(o) denotar a PSD do sinal barulhento observado y(n), Px(o) denotar a PSD do componente de sinal da fala x(n) e Pw(o) denotar a PSD do componente de sinal do ruído, então. Py(o)= Px(o)+ Pw(o)
[0062] Deixando A denotar a estimativa da PSD correspondente, um livro de código tradicional com base na atenuação do ruído pode reduzir o ruído pela aplicação de um filtro Wiener de domínio de frequência H(o) para o sinal capturado, isto é: Pna(o)= Py(o)H(o)
[0063] onde o Filtro Wiener é determinado por:
Figure img0001
[0064] Na abordagem da técnica anterior, os livros de código compreendem os candidatos de sinal da fala e os candidatos de sinal do ruído, respectivamente, e o problema crítico é identificar o par de candidato mais adequado.
[0065] A estimativa das PSDs da fala e do ruído, e, portanto, a seleção dos candidatos apropriados, pode seguir ou em uma abordagem de probabilidade máxima (ML) ou em uma abordagem de média quadrada de erro mínimo Bayesiano (MMSE).
[0066] A relação entre um vetor de coeficientes de predição linear e a PSD subjacente pode ser determinada por
Figure img0002
[0067] onde x ax0  ax p são os coeficientes de predição linear, =1 ax0 e p é a ordem do modelo de predição linear e
Figure img0003
[0068] Usando esta relação, a PSD estimada do sinal capturado é determinada por
Figure img0004
[0069] onde gx e gw são os ganhos de nível independentes de frequência associados com as PSDs da fala e do ruído. Estes ganhos são introduzidos para explicar a variação no nível entre as PSDs armazenadas no livro de código e aquelas encontradas na entrada do sinal de áudio.
[0070] A técnica anterior realiza uma pesquisa através de todos os pareamentos possíveis de uma entrada de livro de código da fala e uma entrada de livro de código do ruído para determinar o par que maximiza uma determinada medida de similaridade entre a PSD barulhenta observada e a PSD estimada como descrita a seguir.
[0071] Considera-se um par de PSDs da fala e do ruído, determinadas pela ith PSD do livro de código da fala e a jth PSD do livro de código do ruído. A PSD barulhenta correspondente a este par pode ser escrita como
Figure img0005
[0072] Nesta equação, as PSDs são conhecidas enquanto que os ganhos são desconhecidos. Portanto, para cada par possível de PSDs da fala e do ruído, os ganhos devem ser determinados. Isto pode ser feito com base em uma abordagem de probabilidade máxima. A estimativa de probabilidade máxima das PSDs desejadas da fala e do ruído pode ser obtida em um procedimento de duas etapas. O logaritmo da probabilidade, que um determinado par de
Figure img0006
tem resultado na PSD barulhenta observada, é representado pela equação a seguir:
Figure img0007
[0073] Na primeira etapa, os termos de nível desconhecido g x e g w que maximizam L (P (a), Pi (a)) são determinados. Uma maneira para fazer isto é pela diferenciação com relação a gix e gwi , ajustando o resultado a zero, e resolvendo o conjunto resultante das equações simultâneas. Entretanto, estas equações são não lineares e não passíveis de uma solução de forma fechada. Uma abordagem alternativa é baseada no fato da probabilidade ser maximizada quando P (a) = Pi (a) , e, portanto, os termos de ganho podem ser obtidos pela minimização da distância espectral entre estas duas entradas.
[0074] Uma vez que os termos de nível são ij conhecidos, o valor de L (P (®), Pi (®)) pode ser determinado como todas as entradas que são conhecidas. Este procedimento é repetido por todos os pares de entradas de livro de código da fala e do ruído, e o par que resulta na maior probabilidade é usado para obter as PSDs da fala e do ruído. Como esta etapa é realizada para segmento de tempo muito curto, o método pode precisamente estimar a PSD do ruído mesmo sob condições do ruído não estacionário.
[0075] Deixa {i*, j*} denotar o par resultando na * maior probabilidade para um determinado segmento, e deixa ge g denotar os termos de nível correspondentes. Então, as PSDs da fala e do ruído são determinadas por
Figure img0008
Figure img0009
[0076] Estes resultados definem, portanto, o filtro Weiner que é aplicado à entrada do sinal de áudio para gerar o sinal atenuado pelo ruído.
[0077] Portanto, a técnica anterior é baseada na descoberta de uma entrada adequada de livro de código de sinal desejado que é uma boa estimativa para o componente de sinal da fala e uma entrada adequada de livro de código de sinal do ruído que é uma boa estimativa para o componente de sinal do ruído. Uma vez que estas são encontradas, uma atenuação do ruído eficiente pode ser aplicada.
[0078] Entretanto, a abordagem é muito complexa e exige recursos. Em particular, todas as possíveis combinações das entradas de livro de código do ruído e da fala devem ser avaliadas para encontrar a melhor correspondência. Adicionalmente, uma vez que as entradas de livro de código devem representar uma grande variedade de possíveis sinais isto resulta nos livros de código muito amplos, e, portanto, em muitos pares possíveis que devem ser avaliados. Em particular, o componente de sinal do ruído pode ter frequentemente uma grande variação em características possíveis, por exemplo, dependendo dos ambientes específicos de uso etc. Portanto, um livro de código do ruído muito amplo é frequentemente exigido para garantir uma estimativa suficientemente fechada. Isto resulta em demandas computacionais muito altas bem como em muitas necessidades para o armazenamento dos livros de código. Além disso, a geração particularmente de livro de código do ruído pode ser muito incômoda ou difícil. Por exemplo, quando usando uma abordagem de preparação, o conjunto de amostra de preparação deve ser amplo o suficiente para suficientemente representar a possível variedade ampla em cenários do ruído. Isto pode resultar em um processo de consumo muito duradouro.
[0079] No sistema da Fig. 1, a abordagem de livro de código não é baseada em um livro de código do ruído dedicado que define candidatos possíveis para possíveis componentes do ruído muito diferentes. Preferivelmente, um livro de código do ruído é empregado onde as entradas de livro de código são consideradas ser contribuições para o componente de sinal do ruído em vez de necessariamente ser estimativas diretas do componente de sinal do ruído. A estimativa do componente de sinal do ruído é então gerada por uma combinação ponderada, e especificamente uma soma ponderada, das entradas de livro de código da contribuição do ruído. Portanto, no sistema da Fig. 1, a estimativa do componente de sinal do ruído é gerada pela consideração de uma pluralidade de entradas de livro de código juntas, e de fato o componente de sinal do ruído estimado é tipicamente determinado como uma combinação linear ponderada ou especificamente a soma das entradas de livro de código do ruído.
[0080] No sistema da Fig. 1, o atenuador do ruído 105 é acoplado a um livro de código de sinal 109 que compreende um número de entradas de livro de código, cada uma das quais compreende um conjunto de parâmetros que define um possível componente de sinal desejado, e no exemplo específico um sinal de fala desejado.
[0081] As entradas de livro de código para o componente de sinal desejado, portanto, correspondem aos candidatos potenciais para o componente de sinal desejado. Cada entrada compreende um conjunto de parâmetros que caracteriza um possível componente de sinal desejado. No exemplo específico, cada entrada compreende um conjunto de parâmetros que caracteriza um possível componente de sinal da fala. Portanto, o sinal caracterizado por uma entrada de livro de código é aquele tem as características de um sinal de fala e, portanto, as entradas de livro de código introduzem o conhecimento das características da fala na estimativa do componente de sinal da fala.
[0082] As entradas de livro de código para o componente de sinal desejado podem ser baseadas em um modelo de fonte de áudio desejado, ou podem ser adicionalmente ou alternativamente determinadas por um processo de preparação. Por exemplo, as entradas de livro de código podem ser parâmetros para um modelo de fala desenvolvido para representar as características da fala. Como outro exemplo, um grande número de amostras da fala pode ser gravado e estatisticamente processado para gerar um número adequado de candidatos potenciais da fala que são armazenados no livro de código.
[0083] Especificamente, as entradas de livro de código podem ser baseadas em um modelo de predição linear. De fato, no exemplo específico, cada entrada do livro de código compreende um conjunto de parâmetros de predição linear. As entradas de livro de código podem ter sido especificamente geradas por um processo de preparação em que os parâmetros de predição linear têm sido gerados pelo ajuste a um grande número amostras da fala.
[0084] As entradas de livro de código podem ser em algumas realizações representadas como uma distribuição de frequência e especificamente como uma Densidade Espectral de Potência (PSD). A PSD pode corresponder diretamente aos parâmetros de predição linear.
[0085] O número de parâmetros para cada entrada de livro de código é típica e relativamente pequeno. De fato, tipicamente, existem não mais do que 20, e frequentemente não mais do que 10 parâmetros especificando cada entrada de livro de código. Portanto, uma estimativa relativamente grosseira do componente de sinal desejado é usada. Isto permite uma complexidade reduzida e um processamento facilitado, mas ainda foi verificado fornecer uma atenuação do ruído eficiente em mais casos.
[0086] O atenuador do ruído 105 ainda é acoplado a um livro de código de contribuição do ruído 111. Entretanto, em contraste ao livro de código de sinal desejado, as entradas do livro de código de contribuição do ruído 109 geralmente não definem os componentes de sinal do ruído tais como, mas, preferivelmente definem possíveis contribuições à estimativa de componente de sinal do ruído. O atenuador do ruído 105 gera, dessa forma, uma estimativa para o componente de sinal do ruído pela combinação destas possíveis contribuições.
[0087] O número de parâmetros para cada entrada de livro de código do livro de código de contribuição do ruído 111 também é típica e relativamente pequeno. De fato, tipicamente, existem não mais do que 20, e frequentemente não mais do que 10 parâmetros especificando cada entrada de livro de código. Portanto, uma estimativa relativamente grosseira do componente de sinal do ruído é usada. Isto permite complexidade reduzida e processamento facilitado, mas ainda foi verificado fornecer a atenuação eficiente do ruído em mais casos. Adicionalmente, o número de parâmetros que define as entradas de livro de código de contribuição do ruído é frequentemente menor do que o número de parâmetros que definem as entradas desejadas de livro de código de sinal.
[0088] Especificamente, para uma determinada entrada de livro de código da fala denotada pela letra i, o atenuador do ruído 105 gera uma estimativa do sinal de áudio no segmento de tempo como:
Figure img0010
[0089] onde Nw é o número de entradas no livro de código de contribuição do ruído 111, Pw(o) é a PSD da entrada e Px(w) é a PSD da entrada no livro de código da fala.
[0090] Para a ith entrada de livro de código da fala, o atenuador do ruído 105, portanto, determina a melhor estimativa para o sinal de áudio pela determinação de uma combinação das entradas de livro de código de contribuição do ruído. O processo é então repetido para todas as entradas do livro de código da fala.
[0091] A Fig. 2 ilustra o processo em mais detalhe. O método será descrito com referência à Fig. 3 que ilustra os elementos de processamento do atenuador do ruído 105. O método inicia-se na etapa 201, em que o sinal de áudio no próximo segmento é selecionado.
[0092] O método continua, então, na etapa 203, em que a primeira (próxima) entrada de livro de código da fala é selecionada do livro de código da fala 109.
[0093] A etapa 203 é seguida pela etapa 205, em que os pesos aplicados a cada entrada de livro de código do livro de código de contribuição do ruído 111 são determinados bem como o dimensionamento da entrada de livro de código da fala. Portanto, na etapa 205 gx e gw para cada k é determinada a entrada de livro de código da fala.
[0094] Os ganhos (dimensionamento/pesos) podem ser, por exemplo, determinados usando a abordagem da probabilidade máxima apesar de ser apreciado que em outras realizações outras abordagens e critérios podem ser usados, tais como por exemplo, uma abordagem de média quadrada de erro mínimo.
[0095] Como um exemplo específico, o logaritmo da probabilidade, que um determinado par de g'JxPx (o) e gjpj (o) tem resultado na PSD barulhenta observada P(o) determinado por:
Figure img0011
[0096] A função de probabilidade de log pode ser considerada como uma função de custo recíproca, isto é, o maior valor da menor diferença (no sentido de probabilidade máxima) entre o candidato de sinal estimado e a entrada de sinal de áudio.
[0097] Os valores de ganho desconhecidos gi e gk que maximizam L (P (o), Pi (o)) são determinados. Isto pode ser feito, por exemplo, pela diferenciação com relação a gi e gk e ajuste do resultado a zero seguido pela resolução das equações resultantes para prover os ganhos (correspondente à descoberta da máxima da função de probabilidade de log e, portanto, do mínimo da função de custo da probabilidade de log).
[0098] Especificamente, a abordagem pode ser baseada no fato da probabilidade ser maximizada (e, portanto, a função de custo correspondente minimizada) quando P (o) iguala Pi (o) . Portanto, os termos de ganho podem ser obtidos pela minimização da distância espectral entre estas duas entradas.
[0099]Primeiro, para conveniência de notação e do ruído e os termos de ganho são renomeados como a seguir:
Figure img0012
[0100] de modo que
Figure img0013
[0101] Uma função de custo é minimizada pela maximização da função inversa de custo de:
Figure img0014
[0102] o derivado parcial do qual com relação a gl; 1<l ≤ Nw+1 pode ser ajustado a zero para resolver os termos de ganho:
Figure img0015
[0103] Isto resulta no sistema linear a seguir, cuja solução produz os termos de ganho desejados:
[0104] Ag = b,
[0105] onde
Figure img0016
[0106] Deve ser notado que os ganhos determinados por estas equações podem ser negativos. Entretanto, para assegurar que apenas as contribuições do ruído mundial real são consideradas, os ganhos podem ser exigidos ser positivos, por exemplo, pela aplicação das condições modificadas de Karush Kuhn Tucker.
[0107] Portanto, a etapa 205 continua a gerar um candidato de sinal estimado para a entrada de livro de código da fala ser processada. O candidato de sinal estimado é determinado como:
Figure img0017
[0108] onde os ganhos têm sido calculados como descritos.
[0109] Seguindo a etapa 205, o método continua na etapa 207, onde é avaliado se todas as entradas da fala do livro de código da fala têm sido processadas. Se não, o método retorna para a etapa 203 em que a próxima entrada do livro de código da fala é selecionada. Isto é repetido para todas as entradas de livro de código da fala.
[0110] As etapas 201 a 207 são realizadas pelo estimador301 da Fig. 3. Portanto, o estimador 301 é uma unidade de processamento, um circuito ou um elemento funcional que determina um candidato de sinal estimado para cada entrada do primeiro livro de código 109.
[0111] Se todas as entradas de livro de código são estabelecidas ter sido processadas na etapa 207, o método continua na etapa 209 em que um processador 303 continua a gerar um candidato de sinal para o segmento de tempo com base nos candidatos de sinal estimado. O candidato de sinal é, portanto, gerado pela consideração de Pi (o) para todos i.Especificamente, para cada entrada no livro de código da fala 109, a melhor aproximação da entrada de sinal de áudio é gerada na etapa 205 por determinação do ganho relativo para a entrada da fala e para cada contribuição do ruído no livro de código de contribuição do ruído 111. Além disso, o valor da probabilidade de log é calculado para cada entrada da fala, desse modo fornecendo uma indicação da probabilidade que o sinal de áudio resultado dos componentes de sinal da fala e do ruído corresponde ao candidato de sinal estimado.
[0112] A etapa 209 pode determinar especificamente o candidato de sinal com base nos valores determinados de probabilidade de log. Como um exemplo de baixa complexidade, o sistema pode simplesmente selecionar o candidato de sinal estimado que tem o valor de probabilidade de log mais alto. Em mais realizações complexas, o candidato de sinal pode ser calculado por uma combinação ponderada, e especificamente a soma, de todos os candidatos de sinal estimado em que a ponderação de cada candidato de sinal estimado depende do valor de probabilidade de log.
[0113] A etapa 209 é seguida pela etapa 211, em que uma unidade de atenuação do ruído 303 continua a compensar o sinal de áudio com base no candidato de sinal calculado. Em particular, pela filtragem do sinal de áudio com o filtro Wiener:
Figure img0018
[0114] Será apreciado que outras abordagens para a redução do ruído com base no sinal estimado e nos componentes do ruído podem ser usadas. Por exemplo, o sistema pode simplesmente subtrair o candidato do ruído estimado da entrada de sinal de áudio.
[0115] Portanto, a etapa 211 gera um sinal de saída da entrada de sinal no segmento de tempo em que o componente de sinal do ruído é atenuado com relação ao componente de sinal da fala. O método retorna, então, para a etapa 201 e processa o próximo segmento.
[0116] A abordagem pode fornecer a atenuação muito eficiente do ruído enquanto reduz significantemente a complexidade. Especificamente, uma vez que as entradas de livro de código do ruído correspondem às contribuições do ruído em vez de necessariamente a entrada do componente de sinal do ruído, um número de entradas muito inferior é necessário. Uma grande variação nas possíveis estimativas do ruído é possível por ajuste da combinação das contribuições individuais. Também, a atenuação do ruído pode ser alcançada com complexidade substancialmente reduzida. Por exemplo, em contraste com a abordagem convencional que envolve uma pesquisa através de todas as combinações de entradas de livro de código da fala e do ruído, a abordagem da Fig. 1 inclui apenas um único circuito, a saber sobre as entradas de livro de código da fala.
[0117] Será apreciado que o livro de código de contribuição do ruído 111 pode conter diferentes entradas correspondentes a diferentes candidatos de contribuição do ruído em diferentes realizações.
[0118] Em particular, em algumas realizações, alguns ou todos os candidatos de contribuição de sinal do ruído podem juntamente cobrir uma faixa de frequência na qual a atenuação do ruído é realizada, enquanto os candidatos individuais apenas cobrem um subconjunto desta faixa. Por exemplo, um grupo de entradas pode cobrir juntamente um intervalo de frequência de, diz-se, 200Hz-4kHz, mas cada entrada do conjunto compreende apenas uma subfaixa (isto é, uma parte) deste intervalo de frequência. Portanto, cada candidato pode cobrir diferentes subfaixas. De fato, em algumas realizações, cada uma das entradas pode cobrir uma subfaixa diferente, isto é, as subfaixas do grupo de candidatos de contribuição de sinal do ruído podem ser substancialmente não sobrepostas. Por exemplo, a densidade espectral dentro de uma subfaixa de frequência de um candidato pode ser pelo menos 6 dB maior do que a densidade espectral de qualquer outro candidato naquela subfaixa. Será apreciado que em tais exemplos, as subfaixas podem ser separadas por faixas de transição. Tais faixas de transição podem ser preferivelmente menores que 10% da largura de banda das subfaixas.
[0119] Em outras realizações, alguns ou todos os candidatos de contribuição de sinal do ruído podem ser sobrepostos tais que mais de um candidato forneça uma contribuição significante para a intensidade do sinal em uma determinada frequência.
[0120] Será também apreciado que a distribuição espectral de cada candidato pode ser diferente em realizações diferentes. Entretanto, em muitas realizações, a distribuição espectral de cada candidato pode ser substancialmente uniforme dentro da subfaixa. Por exemplo, a variação da amplitude pode ser menor que 10%. Isto pode facilitar a operação em muitas realizações e pode particularmente permitir o processamento da complexidade reduzida e/ou as necessidades reduzidas de armazenamento.
[0121] Como um exemplo específico, cada candidato de contribuição de sinal do ruído pode definir um sinal com uma densidade espectral uniforme em uma determinada faixa de frequência. Adicionalmente, o livro de código de contribuição do ruído 111 pode compreender um conjunto de tais candidatos (possivelmente, além disso, outros candidatos) que cobre a faixa total de frequência desejada, em que a compensação é para ser realizada.
[0122] Especificamente, para subfaixas de largura igual, as entradas de livro de código de contribuição do ruído 111 podem ser definidas como
Figure img0019
[0123] para 1 < k < Nw e 0 < ® < π .
[0124] Portanto, em algumas abordagens, o componente de sinal do ruído é neste caso moldado como uma soma ponderada de PSDs uniformes limitadas à banda. Nota-se que neste exemplo, o livro de código de contribuição do ruído 111 pode ser simplesmente implementado por uma equação simples que define todas as entradas e não há necessidade de exemplos de sinal individual de armazenamento de memória de livro de código dedicado.
[0125] Nota-se que uma tal abordagem de soma ponderada é capaz de moldar o ruído colorido. A resolução da frequência com que a estimativa do ruído pode ser adaptada ao sinal de áudio é determinada pela largura de cada subfaixa, que por sua vez é determinada pelo número de entradas de livro de código Nw. Entretanto, os candidatos de contribuição de sinal do ruído são tipicamente dispostos para ter uma resolução menor do que a resolução da frequência da soma ponderada (que resulta do ajuste dos pesos). Portanto, os graus de liberdade disponíveis para corresponder à estimativa do ruído são menores do que os graus de liberdade disponíveis para definir cada candidato de sinal desejado no livro de código de sinal desejado 109.
[0126] Isto é usado para assegurar que a estimativa do componente de sinal desejado baseado no livro de código de sinal desejado é central à estimativa da entrada do sinal, e especificamente reduzir o risco de um candidato de sinal desejado falso ou impreciso ser selecionado devido aos erros serem cancelados por uma adaptação da soma ponderada para o sinal de áudio com base no candidato de sinal desejado errado. De fato, se a liberdade de adaptação da estimativa do componente do ruído é tão alta, os termos de ganho podem ser ajustados tais que qualquer entrada de livro de código da fala poderia resultar em uma probabilidade igualmente alta. Portanto, uma resolução de frequência grosseira (tendo um único termo de ganho para uma banda de frequência que armazena os candidatos de sinal desejado) no livro de código do ruído garante que as entradas de livro de código da fala que estão perto da fala limpa subjacente resultem em uma maior probabilidade e vice-versa.
[0127] Em algumas realizações, as subfaixas podem ter larguras de banda vantajosamente desiguais. Por exemplo, a largura de banda de cada candidato pode ser selecionada de acordo com os princípios psicoacústicos. Por exemplo, cada subfaixa pode ser selecionada para corresponder a e banda ERB ou Bark.
[0128] Será apreciado que a abordagem de usar um livro de código de contribuição do ruído 111 compreendendo um número de PSDs limitadas à banda não sobreposta de igual largura de banda é meramente um exemplo e que um número de outros livros de código pode alternativamente ou adicionalmente ser usado. Por exemplo, como anteriormente mencionado, a largura desigual e/ou as larguras de banda sobrepostas para cada entrada de livro de código podem ser consideradas. Além disso, uma combinação de larguras de banda sobrepostas e não sobrepostas pode ser usada. Por exemplo, o livro de código de contribuição do ruído 111 pode conter um conjunto de entradas, onde a largura de banda de interesse é dividida em um primeiro número de bandas e outro conjunto de entradas onde a largura de banda de interesse é dividida em diferentes números de bandas.
[0129] Em algumas realizações, o sistema pode compreender um estimador do ruído que gera uma estimativa do ruído para o sinal de áudio, onde a estimativa do ruído é gerada considerando um intervalo de tempo que é pelo menos parcialmente externo ao segmento de tempo que é processado. Por exemplo, a estimativa do ruído pode ser gerada com base em um intervalo de tempo que é substancialmente mais longo do que o segmento de tempo. Esta estimativa do ruído pode ser, então, incluída como um candidato de contribuição de sinal do ruído no livro de código de contribuição do ruído 111 quando processando o intervalo de tempo.
[0130] Isto pode fornecer o algoritmo com uma entrada de livro de código que é provável que esteja perto do componente do ruído médio a longo prazo enquanto permite uma adaptação usando os outros candidatos modificar isto para estimar a seguir as variações do ruído a curto prazo. Por exemplo, uma entrada do livro de código do ruído pode ser dedicada para armazenar a estimativa mais recente da PSD do ruído obtida a partir de uma estimativa diferente do ruído, tais como por exemplo, o algoritmo descrito em R. Martin, “Estimativa de densidade espectral de potência do ruído com base em ótimas estatísticas de suavização e mínima” IEEE Trans. Fala e Processamento de Áudio, vol. 9, no. 5, pp. 504512, Jul. 2001. Desta maneira, espera-se que o algoritmo execute, pelo menos, tão bem quanto os algoritmos existentes, e execute melhor sob condições difíceis.
[0131] Como outro exemplo, o sistema pode calcular a média das estimativas de contribuição do ruído resultantes e armazenar a média a longo prazo como uma entrada no livro de código de contribuição do ruído 111.
[0132] O sistema pode ser usado em muitas aplicações diferentes incluindo, por exemplo, aplicações que exigem uma redução do ruído de um único microfone, por exemplo, telefonia móvel e telefones DECT. Como outro exemplo, a abordagem pode ser usada em sistemas de aprimoramento da fala de múltiplos microfones (por exemplo, aparelhos auditivos, sistemas de viva-voz com base na matriz, etc.), que usualmente têm um pós-processador de um único canal para a redução adicional do ruído.
[0133] Será apreciado que a descrição acima para maior clareza tem realizações descritas da invenção com referência a diferentes circuitos funcionais, unidades e processadores. Entretanto, será evidente que qualquer distribuição adequada da funcionalidade entre os diferentes circuitos funcionais, as unidades ou os processadores pode ser usada sem depreciação da invenção. Por exemplo, a funcionalidade ilustrada a ser realizada por processadores separados ou controladores pode ser executada pelo mesmo processador ou controladores. Por isso, referências a unidades funcionais ou circuitos específicos são apenas para ser vistas como referências a meios adequados para fornecer a funcionalidade descrita em vez de indicativa de uma organização ou estrutura lógica ou física restrita.
[0134] A invenção pode ser implementada em qualquer forma adequada incluindo hardware, software, firmware ou qualquer combinação destes. A invenção pode ser opcionalmente implementada pelo menos parcialmente como software de computador em execução em um ou mais processadores de dados e/ou processadores de sinal digital. Os elementos e os componentes de uma realização da invenção podem ser fisicamente, funcionalmente e logicamente implementados de qualquer maneira adequada. De fato, a funcionalidade pode ser implementada em uma única unidade, em uma pluralidade de unidades ou como parte de outras unidades funcionais. Bem como, a invenção pode ser implementada em uma única unidade ou pode ser fisicamente e funcionalmente distribuída entre unidades, circuitos e processadores diferentes.
[0135] Apesar de a presente invenção ter sido descrita em conexão com algumas realizações, não é destinada a ser limitada ao conjunto de forma específica neste relatório. Preferivelmente, o escopo da presente invenção é limitado apenas pelas reivindicações em anexo. Adicionalmente, apesar de uma característica poder parecer ser descrita em conexão com as realizações particulares, um técnico no assunto reconheceria que várias características das realizações descritas podem ser combinadas de acordo com a invenção. Nas reivindicações, o termo compreendendo não exclui a presença de outros elementos ou etapas.
[0136] Além disso, apesar de individualmente listada, uma pluralidade de etapas de meio, elementos, circuitos ou método pode ser implementada por, por exemplo, um único circuito, uma unidade ou um processador. Adicionalmente, apesar de características individuais poderem ser incluídas em diferentes reivindicações, estas podem ser possível e vantajosamente combinadas, e a inclusão em diferentes reivindicações não implica que uma combinação de características não é possível e/ou vantajosa. Também a inclusão de uma característica em uma categoria de acordo com a reivindicação não implica uma limitação a esta categoria, mas preferivelmente indica que a característica é igualmente aplicável a outras categorias de reivindicação como apropriado. Além disso, a ordem das características nas reivindicações não implica qualquer ordem específica em que as características devem ser trabalhadas e em particular a ordem das etapas individuais em um método da reivindicação não implica que as etapas devem ser realizadas nesta ordem. Preferivelmente, as etapas podem ser realizadas em qualquer ordem adequada. Além disso, referências no singular não excluem uma pluralidade. Portanto, referências a “um”, “uma”, “primeiro”, “segundo”, etc. não impedem uma pluralidade. Os sinais de referência nas reivindicações que são fornecidos meramente como um exemplo esclarecedor não devem ser interpretados como limitando o escopo das reivindicações de qualquer forma.

Claims (14)

1. APARELHO DE ATENUAÇÃO DO RUÍDO, caracterizado por compreender:- um receptor (101) para receber um sinal de áudio que compreende um componente de sinal desejado e um componente de sinal do ruído;- um primeiro livro de código (109) compreendendo uma pluralidade de candidatos de sinal desejado para o componente de sinal desejado, cada candidato de sinal desejado representando um possível componente de sinal desejado;- um segundo livro de código (111) compreendendo uma pluralidade de candidatos de contribuição de sinal do ruído, cada candidato de contribuição de sinal do ruído representando uma possível contribuição do ruído para o componente de sinal do ruído;- um segmentador (103) para segmentar o sinal de áudio nos segmentos de tempo;- um atenuador do ruído (105) disposto para cada segmento de tempo, realiza as etapas de:gerar uma pluralidade de candidatos de sinal estimado por cada um dos candidatos de sinal desejado do primeiro livro de código gerando um candidato de sinal estimado como uma combinação de uma versão reduzida do candidato de sinal desejado e uma combinação ponderada dos candidatos de contribuição de sinal do ruído, o dimensionamento do candidato de sinal desejado e os pesos da combinação ponderada são determinados para minimizar uma função de custo indicativa de uma diferença entre o candidato de sinal estimado e o sinal de áudio no segmento de tempo, gerar um candidato de sinal para o sinal de áudio no segmento de tempo dos candidatos de sinal estimado, eatenuar o ruído do sinal de áudio no segmento de tempo em resposta ao candidato de sinal.
2. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado pela função de custo ser uma dentre uma função de custo de Probabilidade Máxima e uma função de custo de Média Quadrada de Erro Mínimo.
3. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado pelo atenuador do ruído (105) estar disposto a calcular o dimensionamento e os pesos das equações que refletem um derivado da função de custo com relação ao dimensionamento e aos pesos que são zero.
4. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado pelos candidatos de sinal desejado terem uma resolução de frequência maior do que a combinação ponderada.
5. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado pela pluralidade de candidatos de contribuição de sinal do ruído cobrir uma faixa de frequência e com cada candidato de contribuição de sinal doruído de um grupo de candidatos de contribuição de sinal doruído fornece contribuições em apenas uma subfaixa da faixade frequência, as subfaixas de diferentes candidatos de contribuição de sinal do ruído do grupo de candidatos de contribuição de sinal do ruído são diferentes.
6. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com areivindicação 5, caracterizado pelas subfaixas do grupo de candidatos de contribuição de sinal do ruído serem não sobrepostas.
7. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 5, caracterizado pelas subfaixas do grupo de candidatos de contribuição de sinal do ruído terem tamanhos desiguais.
8. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 5, caracterizado por cada um dos candidatos de contribuição de sinal do ruído do grupo de candidatos de contribuição de sinal do ruído corresponder a uma distribuição de frequência substancialmente uniforme.
9. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado por ainda compreender um estimador do ruído para gerar uma estimativa do ruído para o sinal de áudio em um intervalo de tempo pelo menos parcialmente externo ao segmento de tempo, e para gerar pelo menos um dos candidatos de contribuição de sinal do ruído em resposta à estimativa do ruído.
10. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado pela combinação ponderada ser uma soma ponderada.
11. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado por pelo menos um dos candidatos de sinal desejado do primeiro livro de código e dos candidatos de contribuição de sinal do ruído do segundo livro de código ser representado por um conjunto de parâmetros que compreende não mais do que 20 parâmetros.
12. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado por pelo menos um dentre os candidatos de sinal desejado do primeiro livro de código e dos candidatos de contribuição de sinal do ruído do segundo livro de código ser representado por uma distribuição espectral.
13. APARELHO DE ATENUAÇÃO DO RUÍDO, de acordo com a reivindicação 1, caracterizado pelo componente de sinal desejado ser um componente de sinal da fala.
14. MÉTODO DE ATENUAÇÃO DO RUÍDO, caracterizado por compreender:- o recebimento de um sinal de áudio compreendendoum componente de sinal desejado e um componente de sinal do ruído;- o fornecimento de um primeiro livro de código(109) compreendendo uma pluralidade de candidatos de sinal desejado para o componente de sinal desejado, cada candidato de sinal desejado representando um possível componente de sinal desejado;- o fornecimento de um segundo livro de código(111) compreendendo uma pluralidade de candidatos de contribuição de sinal do ruído, cada candidato de contribuição de sinal do ruído representando uma possível contribuição do ruído para o componente de sinal do ruído;- a segmentação do sinal de áudio nos segmentos de tempo; epara cada segmento de tempo realizar as etapas de:gerar uma pluralidade de candidatos de sinal estimado por cada um dos candidatos de sinal desejado do primeiro livro de código que gera um candidato de sinal estimado como uma combinação de uma versão reduzida do candidato de sinal desejado e uma combinação ponderada dos candidatos de contribuição de sinal do ruído, o dimensionamento do candidato de sinal desejado e os pesos da combinação ponderada sendo determinados para minimizar uma função de custo indicativa de uma diferença entre o candidato de sinal estimado e o sinal de áudio no segmento de tempo,gerar um candidato de sinal para o segmento detempo dos candidatos de sinal estimado, eatenuar o ruído do sinal de áudio no segmento de tempo em resposta ao candidato de sinal.
BR112014009647-3A 2011-10-24 2012-10-22 Aparelho de atenuação do ruído e método de atenuação do ruído BR112014009647B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161550512P 2011-10-24 2011-10-24
US61/550,512 2011-10-24
PCT/IB2012/055792 WO2013061232A1 (en) 2011-10-24 2012-10-22 Audio signal noise attenuation

Publications (2)

Publication Number Publication Date
BR112014009647A2 BR112014009647A2 (pt) 2017-05-09
BR112014009647B1 true BR112014009647B1 (pt) 2021-11-03

Family

ID=47324238

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112014009647-3A BR112014009647B1 (pt) 2011-10-24 2012-10-22 Aparelho de atenuação do ruído e método de atenuação do ruído

Country Status (8)

Country Link
US (1) US9875748B2 (pt)
EP (1) EP2774147B1 (pt)
JP (1) JP6190373B2 (pt)
CN (1) CN103999155B (pt)
BR (1) BR112014009647B1 (pt)
IN (1) IN2014CN03102A (pt)
RU (1) RU2616534C2 (pt)
WO (1) WO2013061232A1 (pt)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10013975B2 (en) * 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN104952458B (zh) * 2015-06-09 2019-05-14 广州广电运通金融电子股份有限公司 一种噪声抑制方法、装置及系统
US10565336B2 (en) 2018-05-24 2020-02-18 International Business Machines Corporation Pessimism reduction in cross-talk noise determination used in integrated circuit design
CN112466322B (zh) * 2020-11-27 2023-06-20 华侨大学 一种机电设备噪声信号特征提取方法
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3275247B2 (ja) * 1991-05-22 2002-04-15 日本電信電話株式会社 音声符号化・復号化方法
JPH11122120A (ja) * 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
EP1155561B1 (de) * 1999-02-26 2006-05-24 Infineon Technologies AG Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
WO2002080148A1 (fr) * 2001-03-28 2002-10-10 Mitsubishi Denki Kabushiki Kaisha Dispositif eliminateur de bruit
EP1414024A1 (en) * 2002-10-21 2004-04-28 Alcatel Realistic comfort noise for voice calls over packet networks
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
WO2006089055A1 (en) * 2005-02-15 2006-08-24 Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
US7590530B2 (en) * 2005-09-03 2009-09-15 Gn Resound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
ATE425532T1 (de) * 2006-10-31 2009-03-15 Harman Becker Automotive Sys Modellbasierte verbesserung von sprachsignalen
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
EP2081405B1 (en) * 2008-01-21 2012-05-16 Bernafon AG A hearing aid adapted to a specific type of voice in an acoustical environment, a method and use
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
EP4372745A1 (en) * 2008-07-11 2024-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
EP2246845A1 (en) 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
US20120072207A1 (en) * 2009-06-02 2012-03-22 Panasonic Corporation Down-mixing device, encoder, and method therefor
US20110096942A1 (en) * 2009-10-23 2011-04-28 Broadcom Corporation Noise suppression system and method
EP2363853A1 (en) * 2010-03-04 2011-09-07 Österreichische Akademie der Wissenschaften A method for estimating the clean spectrum of a signal
WO2011114192A1 (en) * 2010-03-19 2011-09-22 Nokia Corporation Method and apparatus for audio coding
JP6265903B2 (ja) 2011-10-19 2018-01-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号雑音減衰
US20130297299A1 (en) * 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
US9336212B2 (en) * 2012-10-30 2016-05-10 Slicethepie Limited Systems and methods for collection and automatic analysis of opinions on various types of media

Also Published As

Publication number Publication date
RU2014121031A (ru) 2015-12-10
US20140249809A1 (en) 2014-09-04
CN103999155A (zh) 2014-08-20
EP2774147A1 (en) 2014-09-10
EP2774147B1 (en) 2015-07-22
IN2014CN03102A (pt) 2015-07-03
RU2616534C2 (ru) 2017-04-17
WO2013061232A1 (en) 2013-05-02
CN103999155B (zh) 2016-12-21
JP6190373B2 (ja) 2017-08-30
BR112014009647A2 (pt) 2017-05-09
JP2014532891A (ja) 2014-12-08
US9875748B2 (en) 2018-01-23

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN106663446B (zh) 知晓用户环境的声学降噪
Cauchi et al. Combination of MVDR beamforming and single-channel spectral processing for enhancing noisy and reverberant speech
US10127919B2 (en) Determining noise and sound power level differences between primary and reference channels
WO2019112468A1 (en) Multi-microphone noise reduction method, apparatus and terminal device
CA2210490C (en) Spectral subtraction noise suppression method
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
WO2013085801A1 (en) Harmonicity-based single-channel speech quality estimation
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
Oo et al. Phase and reverberation aware DNN for distant-talking speech enhancement
Dash et al. Speech intelligibility based enhancement system using modified deep neural network and adaptive multi-band spectral subtraction
EP2745293B1 (en) Signal noise attenuation
US10332541B2 (en) Determining noise and sound power level differences between primary and reference channels
Routray et al. A context aware-based deep neural network approach for simultaneous speech denoising and dereverberation
Mohanan et al. Speech dereverberation using NMF with regularized room impulse response
US20150162014A1 (en) Systems and methods for enhancing an audio signal
Delcroix et al. Multichannel speech enhancement approaches to DNN-based far-field speech recognition
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
Odelowo et al. A noise prediction and time-domain subtraction approach to deep neural network based speech enhancement
Korvel et al. Investigating Noise Interference on Speech Towards Applying the Lombard Effect Automatically
Lu et al. Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition
Jiang et al. Dual-Channel Speech Enhancement Using Neural Network Adaptive Beamforming
Gudmalwar et al. Single Channel Speech Enhancement Using Masking Based on Sinusoidal Modeling

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 22/10/2012, OBSERVADAS AS CONDICOES LEGAIS.