BRPI0816792B1 - método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo - Google Patents

método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo Download PDF

Info

Publication number
BRPI0816792B1
BRPI0816792B1 BRPI0816792A BRPI0816792A BRPI0816792B1 BR PI0816792 B1 BRPI0816792 B1 BR PI0816792B1 BR PI0816792 A BRPI0816792 A BR PI0816792A BR PI0816792 A BRPI0816792 A BR PI0816792A BR PI0816792 B1 BRPI0816792 B1 BR PI0816792B1
Authority
BR
Brazil
Prior art keywords
sub
speech
audio signal
gain
subband
Prior art date
Application number
BRPI0816792A
Other languages
English (en)
Inventor
Phillip Brown C
Yu Rongshan
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40076697&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0816792(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of BRPI0816792A2 publication Critical patent/BRPI0816792A2/pt
Publication of BRPI0816792B1 publication Critical patent/BRPI0816792B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

melhoramento de fala com clareza de voz a invenção refere-se a um método para melhorar os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído que processa as sub-bandas do sinal de áudio, o processamento incluindo controlar o ganho do sinal de áudio em umas das ditas sub-bandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que conduzem ou diferenças aditivas i subtrativas em ganho ou razões multiplicativas de ganho de modo a reduzir o ganho em uma sub-banda conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda e aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio, os processos cada um responde a sub-bandas do sinal de áudio e controlando o ganho independentemente um do outro para prover um sinal de áudio de sub-banda processado.

Description

Relatório Descritivo da Patente de Invenção para MÉTODO PARA MELHORAR COMPONENTES DE FALA DE UM SINAL DE ÁUDIO COMPOSTO DE COMPONENTES DE FALA E RUÍDO E APARELHO PARA REALIZAR O MESMO.
CAMPO DA TÉCNICA [001] A presente invenção refere ao processamento de sinal de áudio. Mais especificamente, esta refere a um processador ou método de processamento para o melhoramento de fala e clarificação de um sinal de fala de áudio ruidoso. A invenção também refere a programas de computador para praticar tais métodos ou controlar tal aparelho. INCORPORAÇÃO POR REFERÊNCIA [002] As seguintes publicações estão por meio disto incorporadas por referência, cada uma na sua totalidade.
[1] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,”
IEEE Trans. Acoust., Speech. Signal Processing, vol. 27, pp. 113-120, Apr. 1979.
[2] Y. Ephraim, H. Lev-Ari and W. J. J. Roberts, “A brief survey of Speech Enhancement,” The Electronic Handbook, CRC Press, April 2005.
[3] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error short time spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109-1121, Dec. 1984.
[4] Thomas, I. and Niedeqohn, R., “Preprocessing of Speech for Added Intelligibility in High Ambient Noise”, 34th Audio Engineering Society Convention, March 1968.
[5] Villchur, E., “Signal Processing to Improve Speech Intelligibility for the Hearing Impaired”, 99th Audio Engineering Society Convention, September 1995.
[6] N. Virag, “Single channel speech enhancement based on masking properties of the human auditory system, IEEE Tran. Speech and Audio Processing, vol. 7, pp. 126-137, Mar. 1999.
[7] R. Martin, “Spectral subtraction based on minimum statistics,” in Proc.
EUSIPCO, 1994, pp. 1182-1185.
[8] P. J. Wolfe and S. J. Godsill, “Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement,” EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043-1051,2003.
[9] B. Widrow and S. D. Steams, Adaptive Signal Processing. Englewood Cliffs, NJ: Prentice Hall, 1985.
Petição 870190114206, de 07/11/2019, pág. 5/28
2/17 [10] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error Log-spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443-445, Dec. 1985.
[11] E. Terhardt, “Calculating Virtual Pitch,” Hearing Research, pp. 155-182, 1, 1979.
[12] ISO/IEC JTC1/SC29/WG11, Information technology— Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s - Part3: Audio, IS 11172-3, 1992 [13] J. Johnston, “Transform coding of audio signals using perceptual noise criteria,” IEEE J. Select. Areas Comrnun., vol. 6, pp. 314-323, Feb. 1988.
[14] S. Gustafsson, P. Jax, P Vary,, “A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics,” Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1998. ICASSP '98.
[15] Yi Hu, and P. C. Loizou, “Incorporating a psychoacoustic model in frequency domain speech enhancement,” IEEE Signal Processing Letter, pp. 270 - 273, vol. 11, no. 2, Feb. 2004.
[16] L. Lin, W. H. Holmes, and E. Ambikairajah, “Speech denoising using perceptual modification of Wiener filtering,” Electronics Letter, pp 1486-1487, vol. 38, Nov, 2002.
[17] A.M. Kondoz, “Digital Speech: Coding for Low Bit Rate Communication Systems,”
John Wiley & Sons, Ltd., 2nd Edition, 2004, Chichester, England, Chapter 10: Voice Activity Detection, pp. 357-377.
DESCRIÇÃO DA INVENÇÃO [003] De acordo com um primeiro aspecto da invenção, os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído são melhorados. Um sinal de áudio é mudado do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência. As sub-bandas do sinal de áudio são subsequentemente processadas. O processamento inclui controlar o ganho do sinal de áudio em umas das ditas sub-bandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que conduzem ou diferenças aditivas / subtrativas em ganho ou razões multiplicativas de ganho de modo a (1) reduzir o ganho em uma sub-banda conforme o nível de
Petição 870190114206, de 07/11/2019, pág. 6/28
3/17 componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda e (2) aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. Os processos cada um responde a sub-bandas do sinal de áudio e controlar o ganho independentemente um do outro para prover um sinal de áudio de sub-banda processado. O sinal de áudio de sub-banda processado é mudado do domínio de frequência para o domínio de tempo para prover um sinal de áudio no qual os componentes de fala são melhorados.
[004] Os processos podem incluir um processo de melhoramento de fala que responde a sub-bandas do sinal de áudio para reduzir o ganho em tais sub-bandas conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala em tais subbandas.
[005] Os processos podem incluir um processo de clareza de voz que responde a sub-bandas do sinal de áudio para aumentar o ganho em umas das sub-bandas quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. O aumento de ganho pode ser reduzido de acordo com a suavização de tempo quando de uma transição da presença de componentes de fala para componentes de fala não estando presentes.
[006] Os processos podem também incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente em um sinal de fala ruidoso o processo de clareza de voz também respondendo ao dito processo de detecção de atividade de voz.
[007] Quando os processos incluem um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de
Petição 870190114206, de 07/11/2019, pág. 7/28
4/17 voz pode também responder ao processo de detecção de atividade de voz.
[008] De acordo com outro aspecto da invenção, os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído são melhorados. Um sinal de áudio é mudado do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência. As sub-bandas do sinal de áudio são subsequentemente processadas. O processamento inclui aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio para prover um sinal de áudio de sub-banda processado. As sub-bandas do sinal de áudio de sub-banda processado são processadas, o processamento incluindo controlar o ganho do sinal de áudio de sub-banda processado em uma das ditas sub-bandas, em que o ganho em uma sub-banda é reduzido conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda para prover um sinal de áudio de sub-banda adicionalmente processado. O sinal de áudio de sub-banda adicionalmente processado é mudado do domínio de frequência para o domínio de tempo para prover um sinal de áudio no qual os componentes de fala estão melhorados.
[009] O processamento pode incluir um processo de melhoramento de fala que responde a sub-bandas processadas do sinal de áudio para reduzir o ganho em tais sub-bandas conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala em tais sub-bandas.
[0010] O processamento adicional pode incluir um processo de clareza de voz que responde a sub-bandas do sinal de áudio para aumentar o ganho em umas das sub-bandas quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. O aumento de ganho pode ser reduzido de acordo com a suavização de tempo quan
Petição 870190114206, de 07/11/2019, pág. 8/28
5/17 do de uma transição da presença de componentes de fala para componentes de fala não estando presentes.
[0011] O processamento e/ou o processamento adicional podem incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente em um sinal de fala ruidoso, o processo de clareza de voz também respondendo ao processo de detecção de atividade de voz.
[0012] O processamento e/ou o processamento adicional podem incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de voz também respondendo ao processo de detecção de atividade de voz.
[0013] O processamento pode incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de voz também respondendo ao dito processo de detecção de atividade de voz.
DESCRIÇÃO DOS DESENHOS [0014] Figura 1 é um diagrama de blocos funcional que mostra uma modalidade exemplar da invenção.
[0015] Figura 2 é um diagrama de blocos funcional que mostra uma modalidade exemplar alternativa da invenção.
[0016] Figura 3 é um gráfico que mostra o valor de GVCk(m) como uma função de Ek(m)/Emax(m).
[0017] Figura 4 é um fluxograma relativo à modalidade exemplar da Figura 1.
[0018] Figura 5 é um fluxograma relativo à modalidade exemplar da Figura 2.
Petição 870190114206, de 07/11/2019, pág. 9/28
6/17
MELHOR MODO PARA EXECUTAR A INVENÇÃO [0019] A Figura 1 mostra uma modalidade exemplar de aspectos da presente invenção de acordo com uma primeira disposição funcional topológica. A entrada é gerada pela digitalização de um sinal de fala analógico que contém tanto fala limpa quanto ruído. Este sinal de áudio inalterado y(n) (Fala Ruidosa), onde n = 0, 1, .... é o índice de tempo, é então enviado para um dispositivo ou função de banco de filtros de análise (Bando de Filtros de Análise) 2, que produz K múltiplos sinais de sub-banda, Yk(m), k = 1, ..., K, m = 0, 1, ... », onde k é o número de sub-bandas, e m é o índice de tempo de cada sinal de subbanda. O Banco de Filtros de Análise 2 muda o sinal de áudio do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência.
[0020] Os sinais de sub-banda são aplicados a um dispositivo ou função de redução de ruído (Melhoramento de Fala) 4, um detector ou função de detecção de atividade de voz (VAD) 6, e um aperfeiçoador ou função de aperfeiçoamento de clareza de voz (Clareza de Voz) 8.
[0021] Em resposta aos sinais de sub-banda de entrada e, opcionalmente, em resposta ao VAD 6, o Melhoramento de Fala 4 controla um fator de escala de ganho GNRk(m) que escala a amplitude dos sinais de sub-banda. Tal aplicação de um fator de escala de ganho para um sinal de sub-banda está mostrado simbolicamente por um símbolo de multiplicador 10. Para clareza na apresentação, os números mostram os detalhes de geração e aplicação de um fator de escala de ganho a somente um de múltiplos sinais de sub-banda (k).
[0022] O valor de fator de escala de ganho GNRk(m) é controlado pelo Melhoramento de Fala 4 de modo que as sub-bandas que são dominadas por componentes de ruído (baixo sinal para ruído (SNR)) são fortemente suprimidas enquanto que aquelas dominadas por fala
Petição 870190114206, de 07/11/2019, pág. 10/28
UM (alta SNR) são preservadas. O valor de GNRk(m) diminui (supressão mais forte) em regiões de frequência (sub-bandas) nas quais a razão de sinal para ruído (SNR) diminui e vice-versa.
[0023] Em resposta aos sinais de sub-banda de entrada, o VAD 6 determina quando a fala está presente em um sinal de fala ruidoso y(n), provendo, por exemplo, uma saída de VAD=1 quando a fala está presente uma saída de VAD=0 quando a fala não está presente.
[0024] Em resposta aos sinais de sub-banda de entrada e em resposta ao VAD 6, a Clareza de Voz 8 controla um fator de escala de ganho GVC'k(m) que escala a amplitude dos sinais de sub-banda. Tal aplicação de um fator de escala de ganho a um sinal de sub-banda está mostrada simbolicamente por um símbolo de multiplicador 12. O valor de fator de escala de ganho GVC'k(m) é controlado pela Clareza de Voz 8 de modo a intensificar as sub-bandas importantes para a inteligibilidade de fala. A Clareza de Voz 8 é controlada pelo VAD 6 de modo que o fator de ganho GVC'k(m) provê a intensificação em pelo menos parte de um espectro de frequência de voz quando a voz está presente.
[0025] Como adicionalmente abaixo explicado, uma suavização pode ser aplicada para minimizar a introdução de artefatos audíveis quando a intensificação é desligada na ausência de fala.
[0026] Assim, os sinais de fala de sub-banda melhorados Yk(m) são providos pela aplicação de fatores de escala de ganho GNRk(m) e GVC'k(m) aos sinais de sub-banda de entrada não-melhorados Yk(m). Isto pode ser representado como yt (m) = GNRt (m)-GKC, (m) (1) [0027] O símbolo de ponto (·) indica multiplicação. Os fatores de escala de ganho GNRk(m) e GVC'k(m) podem ser aplicados aos sinais de sub-banda de entrada não-melhorados Yk(m) em qualquer ordem Petição 870190114206, de 07/11/2019, pág. 11/28
8/17 o Melhoramento de Voz 4 e a Clareza de Voz 8 são desacoplados um do outro e operam independentemente nos sinais de sub-banda.
[0028] Os sinais de sub-banda processados Yk(m) podem então ser convertidos para o domínio de tempo pela utilização de um dispositivo ou processo de banco de filtros de síntese (Banco de Filtros de Síntese) 14 que produz o sinal de fala melhorado y(n). O banco de filtros de síntese muda o sinal de áudio processado do domínio de frequência para o domínio de tempo. O fluxograma da Figura 4 mostra o processo subjacente à modalidade exemplar da Figura 1. A etapa final indica que o índice de tempo m é então avançado por 1 (m ^m+1) e o processo da Figura 4 é repetido.
[0029] Os dispositivos e processos de áudio de sub-banda podem utilizar as técnicas analógicas ou digitais, ou um híbrido das duas técnicas. Um banco de filtros de sub-banda pode ser implementado por um banco de filtros de passagem de banda digitais ou por um banco de filtros de passagem de banda analógicos. Para os filtros de passagem de banda digitais, o sinal de entrada é amostrado antes da filtragem. As amostras são passadas através de um banco de filtros digitais e então diminuídos em resolução para obter os sinais de sub-banda. Cada sinal de sub-banda compreende amostras as quais representam uma porção do espectro de sinal de entrada. Para os filtros de passagem de banda analógicos, o sinal de entrada é dividido em diversos sinais analógicos cada um com uma largura de banda que corresponde a uma largura de banda de filtro de passagem de banda de banco de filtros. Os sinais analógicos de sub-banda podem ser mantidos em forma analógica ou convertidos em forma digital por amostragem e quantização.
[0030] Os sinais de áudio de sub-banda podem também ser derivados utilizando um codificador de transformada que implementa qualquer uma de diversas transformadas de domínio de tempo para
Petição 870190114206, de 07/11/2019, pág. 12/28
9/17 domínio de frequência que funcione como um banco de filtros de passagem de banda digitais. O sinal de entrada amostrado é segmentado em blocos de amostras de sinal antes da filtragem. Um ou mais coeficientes de transformada adjacentes ou bins podem ser agrupados juntos para definir as sub-bandas que têm larguras de banda efetivas que são somas de larguras de banda de coeficientes de transformada individuais.
[0031] Apesar da invenção poder ser implementada utilizando técnicas analógicas ou digitais ou mesmo uma disposição híbrida de tais técnicas, a invenção é mais convenientemente implementada utilizando as técnicas digitais e as modalidades preferidas aqui descritas são implementações digitais. Assim, o Banco de Filtros de Análise 2 e o Banco de Filtros de Síntese 14 podem ser implementados por qualquer banco de filtros adequado e banco de filtros inverso ou transformada e transformada inversa, respectivamente.
[0032] A Figura 2 mostra uma modalidade exemplar da presente invenção de acordo com uma disposição funcional topológica alternativa. Os dispositivos e funções que correspondem àqueles na Figura 2 empregam os mesmos números de referência.
[0033] A Figura 2 difere da Figura 1 pelo fato de que o Melhoramento de Fala 4 e a Clareza de Voz 8 não estão desacoplados um do outro e não operam independentemente sobre os sinais de sub-banda. Os sinais de sub-banda são aplicados primeiro à Clareza de Voz 8 ao VAD 6. O fator de escala de ganho de Clareza de Voz GVC'k(m) é aplicado ao multiplicador 12. Como na topologia da Figura 1, a Clareza de Voz 8 é controlada pelo VAD 6 de modo que o fator de ganho GVC'k(m) seletivamente provenha uma intensificação quando a fala está presente. Ao contrário da topologia da Figura 1, o Melhoramento de Fala 4 recebe e opera sobre os sinais de sub-banda processados por Clareza de Voz Yk(m)= GVC'k(m)*Yk(m) na saída do multiplicador
Petição 870190114206, de 07/11/2019, pág. 13/28
10/17 ao invés de sobre os sinais de sub-banda não-melhorados Yk(m). Isto pode ser representado como:
(2) [0034] O símbolo de ponto (·) indica multiplicação.
[0035] Ambas as topologias da Figura 1 e da Figura 2 permitem a utilização de supressão de ruído e melhoramento de fala de intensificação de sinal sem a intensificação de sinal desfazer a supressão de ruído.
[0036] Apesar dos fatores de escala de ganho serem mostrados controlando as amplitudes de sub-banda multiplicativamente nas Figuras 1 e 2, será aparente para aqueles versados na técnica que disposições aditivas / subtrativas equivalentes podem ser empregadas. [0037] O fluxograma da Figura 5 mostra o processo subjacente à modalidade exemplar da Figura 2. Como no fluxograma da Figura 4, a etapa final indica que o índice de tempo m é então avançado por 1 (m +m+1) e o processo da Figura 5 é repetido.
MELHORAMENTO DE FALA 4 [0038] Vários dispositivos e funções de melhoramento espectral podem ser úteis na implementação de Melhoramento de Fala 4 em modalidades práticas da presente invenção. Entre tais dispositivos e funções de melhoramento espectral estão aqueles que empregam os estimadores de nível de ruído baseados em VAD e aqueles que empregam os estimadores de nível de ruído estatisticamente baseados. Tais dispositivos e funções de melhoramento espectral podem incluir aqueles descritos nas referências 1, 2, 3, 6 e 7, acima listados e nos quatro Pedidos de Patente Provisória dos Estados Unidos seguintes:
(1) Estimador de Variância de Ruído Para Melhoramento de Fala, de Rongshan Yu, S.N. 60/918.964, depositado em 19 de Março de 2007;
Petição 870190114206, de 07/11/2019, pág. 14/28
11/17 (2) Melhoramento de Fala Empregando Um Modelo Perceptual, de Rongshan Yu, S.N. 60/918.986, depositado em 19 de Março de 2007; e (3) Melhoramento de Fala Com Ajuste de Estimativa de Nível de Ruído, de Rongshan Yu, S.N. 60/993.548, depositado em 12 de Setembro de 2007.
(4) Melhoramento de Fala, de C.Philip Brown, S.N. 60/993.601, depositado em 12 de Setembro de 2007.
[0039] O fator de ganho de melhoramento de fala GNRk(m) pode ser referido como um ganho de supressão porque o seu propósito é suprimir o ruído. Um modo de controlar o ganho de supressão é conhecido como subtração espectral (referências [1], [2] e [7]), na qual o ganho de supressão GNRk(m) aplicado ao sinal de sub-banda Yk(m) pode ser expresso como
GNRk (m) =
Figure BRPI0816792B1_D0001
(3) [0040] onde |Yk(m)| é amplitude do sinal de sub-banda Yk(m), Àk(m) é a energia de ruído na sub-banda k, e a > 1 é um fator de sobressubtração escolhido para assegurar que um ganho de supressão suficiente é aplicado. Sobressubtração é adicionalmente explicado na referência [7] na página 2 e na referência [6] na página 127.
[0041] De modo a determinar as quantidades apropriadas de ganhos de supressão, é importante ter uma estimativa precisa da energia de ruído para as sub-bandas no sinal que entra. No entanto, esta não é uma tarefa trivial a fazer quando o sinal de ruído está misturado juntamente com o sinal de fala no sinal que entra. Um modo para resolver este problema é utilizar um estimador de nível de ruído baseado em detecção de atividade de voz que utilizas um detector de atividade de voz (VAD) independente para determinar se um sinal de fala está prePetição 870190114206, de 07/11/2019, pág. 15/28
12/17 sente no sinal que entra ou não. A energia de ruído é atualizada durante o período quando a fala não está presente (VAD=0). Ver, por exemplo, a referência [3], Em tal estimador de ruído, a estimativa de energia de ruído Àk(m) para o tempo m pode ser dada por
Figure BRPI0816792B1_D0002
VAD=0;
VAD=1.
(4) [0042] O valor inicial da estimativa de energia de ruído Àk(-1) pode ser ajustado para zero, ou ajustado para a energia de ruído medida durante o estágio de inicialização do processo. O parâmetro β é um fator de suavização que tem um valor 0 « β < 1. Quando a voz não está presente (VAD=0), a estimativa da energia de ruído pode ser obtida executando uma operação de suavizador de tempo de primeira ordem (algumas vezes denominado um integrador vazador) na potência do sinal de entrada Yk(m). O fator de suavização β pode ser um valor positivo que é ligeiramente menor do que um. Usualmente, para um sinal de entrada estacionário um valor de β mais próximo de um levará a uma estimativa mais precisa. Por outro lado, o valor de β não deve ser muito próximo de um para evitar perder a capacidade de rastrear as mudanças na energia de ruído quando a entrada torna-se nãoestacionária. Em modalidades práticas da presente invenção, um valor de β = 0,98 foi descoberto prover resultados satisfatórios. No entanto, este valor não é crítico. É também possível estimar a energia de ruído utilizando um suavizador de tempo mais complexo que pode ser nãolinear ou linear (tal como um filtro de passagem baixa de múltiplos polos).
[0043] O período de tempo de cada m, como em qualquer sistema digital, é decidido pela taxa de amostragem da sub-banda. Assim este pode variar dependendo da taxa de amostragem do sinal de entrada, e do banco de filtros utilizado. Em uma implementação prática, o período
Petição 870190114206, de 07/11/2019, pág. 16/28
13/17 de tempo para cada m é 1(s) / 8000*32 = 4 ms com um sinal de fala de 8 kHz e um banco de filtros com um fator de diminuição de resolução de 32.
DETECTOR DE ATIVIDADE DE VOZ (VAD) 6 [0044] Muitos detectores e funções de detector de atividade de voz são conhecidos. Tais dispositivos ou funções adequados estão descritos no Capítulo 10 da referência [17] e na sua bibliografia. A utilização de qualquer detector de atividade de voz específico não é crítica para a invenção.
CLAREZA DE VOZ 8 [0045] Vários dispositivos e funções de clareza de voz podem ser úteis na implementação de Clareza de Voz 8 em modalidades práticas da presente invenção.
[0046] A fala consiste em um número de diferentes sugestões que são utilizadas na percepção. Conforme o ar é expelido dos pulmões, as cordas vocais vibram. Conforme o ar escapa, a laringe, a boca e o nariz modificam a energia acústica para produzir uma variedade de sons. As vogais têm regiões de forte energia harmônica, e são geradas com um fluxo de ar desimpedido. As consoantes que incluem as aproximantes, as fricativas e as paradas são geradas por um fluxo de ar crescentemente restritivo, e tem um conteúdo de frequência mais alto (mas energia mais fraca) do que as vogais. Há muito tem sido conhecido que as consoantes da fala contribuem grandemente para a inteligibilidade; e as vogais, apesar destas usualmente terem energias mais fortes, contribuem relativamente pouco. Com base neste fato, os dispositivos e funções de clareza de voz usualmente utilizam um filtro equalizador, de passagem alta que sobe regularmente, ou um filtro de passagem alta tal como na referência [4] para intensificar as faixas de frequência onde as fracas consoantes residem, usualmente as frequências mais altas, da fala de modo a aperfeiçoar a inteligibilidade.
Petição 870190114206, de 07/11/2019, pág. 17/28
14/17
Tecnologias similares têm também sido utilizadas nos aplicativos de aparelhos auditivos para os ouvintes de audição prejudicada que têm dificuldade para perceber os componentes de alta frequências do sinal de fala como na referência [5], Uma proposta de nivelamento espectral tal como aquela abaixo descrita e em um Pedido de Patente Provisória dos Estados Unidos de C.Philip Brown, S.N. 60/993.601, depositado em 12 de Setembro de 2007. Os fatores de escala de ganho de clareza de voz aumentam os níveis dos componentes relativamente fracos no sinal de fala de modo que estes sejam melhor percebidos por ouvintes humanos. A escolha de qualquer dispositivo ou função de clareza de voz específico não é crítica para a presente invenção.
[0047] O ganho de clareza de voz GVCk(m) pode ser produzido por um processo ou dispositivo de clareza de voz como segue:
KGVC'k (w-!) + (!-*·)
VAD = \
VAD = 0' (5) [0048] GVCk(m) é o ganho de clareza de voz quando a entrada é a fala, e 0 < k < 1 é um fator de suavização. O valor de k controla a velocidade do ganho de clareza de voz, reduzindo para um (sem intensificação) durante uma pausa na fala. O seu melhor valor pode ser ajustado através de experimentos. Em uma modalidade prática da presente invenção, um valor de k = 0,9 foi descoberto prover bons resultados. No entanto, este valor não é crítico. Assim o processo de clareza de voz aumenta o ganho quando os componentes de fala estão presentes, o ganho reduzindo de acordo com a suavização de tempo quando de uma transição da presença de componentes de fala para os componentes de fala não estando presentes.
[0049] O propósito de ter os fatores de ganho GVCk(m) é de intensificar os níveis de regiões de frequência selecionadas com relação a outras de modo que a inteligibilidade do sinal de fala seja aperfeiçoada. Em uma implementação útil desta invenção, o GVCk(m) pode ser
Petição 870190114206, de 07/11/2019, pág. 18/28
15/17 calculado como o menor de Gmax ou uma razão escalada da energia na sub-banda que tem a energia mais alta para a energia em cada uma das outras sub-bandas;
GVCt (w) = min
Figure BRPI0816792B1_D0003
(6) onde
A (m) = aEk (m) + (1 - α)|^ (m)f, (7) (8) [0050] 0 < γ < 1 é um fator de escalagem pré-selecionado, 0 « α < 1 é um fator de suavização, e Gmax é um ganho máximo préselecionado. O valor inicial Ek(-1) pode ser ajustado para zero. O valor de γ decide a razão da energia dos componentes fracos para aquela dos componentes fortes na fala após o processamento. Por exemplo, se γ = 0,5, não importa quanto a energia de sub-banda Ek(m) está abaixo de Emax(m), esta é intensificada pela metade de sua diferença - em efeito atuando como um compressor 2-1 para a sub-banda. O valor de Gmax controla a quantidade máxima permissível de intensificação do algoritmo de clareza de voz. Os valores de γ e Gmax controlar a agressividade do processo de clareza de voz já que estes juntamente decidem a quantidade da intensificação dos componentes fracos na fala. Os seus valores ótimos variam de acordo com as características do sinal sob processamento, o ambiente acústico da aplicação-alvo, e as preferências do usuário. Ao invés de ser intensificada na direção de uma magnitude fixa, a intensificação pode, alternativamente, ser na direção de uma magnitude dependente de frequência, tal como uma definida por uma resposta que sobe regularmente de passagem alta.
[0051] Como um exemplo, a Figura 3 mostra o valor de GVCk(m) como uma função de Ek(m)/Emax(m). Neste exemplo, γ = 1 e Gmax =
Petição 870190114206, de 07/11/2019, pág. 19/28
16/17 dB. Como com relação aos fatores de suavização acima mencionados, o fator de suavização α pode ser implementado por um suavizador de tempo de primeira ordem tal como filtro de passagem baixa de polo único (algumas vezes denominado um integrador vazador) ou um suavizador de tempo mais complexo que pode ser não-linear ou linear (tal como um filtro de passagem baixa de múltiplos polos). IMPLEMENTAÇÃO [0052] A invenção pode ser implementada em hardware ou software, ou uma combinação de ambos (por exemplo, redes lógicas programáveis). A menos que de outro modo especificado, os processos incluídos como parte da invenção não estão inerentemente relacionados a nenhum computador ou outro aparelho específico. Especificamente, várias máquinas de uso geral podem ser utilizadas com os programas escritos de acordo com os ensinamentos aqui, ou pode ser mais conveniente construir um aparelho mais especializado (por exemplo, circuitos integrados) para executar as etapas de método requeridas. Assim, a invenção pode ser implementada em um ou mais programas de computador que executam em um ou mais sistemas de computador programáveis cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (que inclui elementos de memória e/ou armazenamento voláteis e nãovoláteis), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. Um código de programa é aplicado aos dados de entrada para executar as funções aqui descritas e gerar as informações de saída. As informações de saídas são aplicadas a um ou mais dispositivos de saída, em um modo conhecido.
[0053] Cada tal programa pode ser implementado em qualquer linguagem de computador desejada (incluindo linguagens de máquina, conjunto, ou procedural de alto nível, lógica ou de programação orientada em objeto) para comunicar com um sistema de computador. Em
Petição 870190114206, de 07/11/2019, pág. 20/28
17/17 qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
[0054] Será apreciado que vários dispositivos, funções e processos mostrados e descritos aqui em vários exemplos podem ser mostrados combinados ou separados em outros meios que como aqui mostrados nas figuras. Por exemplo, quando implementadas por sequências de instrução de software de computador, as funções podem ser implementadas por sequências de instrução de software de múltiplas cadeias que executam em um hardware de processamento de sinal digital adequado, em cujo caso os vários dispositivos e funções nos exemplos mostrados nas figuras podem corresponder a porções das instruções de software.
[0055] Cada tal programa de computador é de preferência armazenado ou baixado para uma mídia ou dispositivo de armazenamento (por exemplo, uma memória ou mídia de estado sólido, ou uma mídia magnética ou ótica) legível por um computador programável de uso geral ou especial, para configurar e operar o computador quando a mídia ou o dispositivo de armazenamento é lido pelo sistema de computador para executar os procedimentos aqui descritos. O sistema inventivo pode também ser considerado ser implementado como um meio de armazenamento legível por computador, configurado com um programa de computador, onde o meio de armazenamento assim configurado faz com que o sistema de computador opere em um modo específico e predefinido para executar as funções aqui descritas.

Claims (3)

  1. REIVINDICAÇÕES
    1. Método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído, caracterizado pelo fato de que compreende as etapas de:
    alterar o sinal de áudio a partir do domínio do tempo para uma pluralidade de sub-bandas no domínio da frequência, produzindo K múltiplos sinais de sub-banda, Yk(m), k=1,...K, m=0, 1,...,*, onde k é o número de sub-banda e m é o índice de tempo para cada sinal de sub-banda, processar as sub-bandas do sinal de áudio, o processamento incluindo aumentar o ganho em uma sub-banda quando componentes de fala estão presentes na sub-banda do sinal de áudio para proporcionar um sinal de áudio de sub-banda processado, o aumento de ganho sendo reduzido conforme a suavização no tempo mediante uma transição a partir da presença de componentes de fala para componentes de fala não presentes, processar sub-bandas do sinal de áudio de sub-banda processado, o processamento de sub-bandas do sinal de áudio de subbanda processado incluindo controlar o ganho do sinal de áudio de sub-banda processado em umas das sub-bandas, em que o ganho em uma sub-banda é reduzido a medida que uma estimativa do nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda para proporcionar um outro sinal de áudio de sub-banda processado, em que a estimativa do nível de componentes de ruído na sub-banda é determinada quando a fala não está presente, em que ambos os primeiro e segundo processamentos são executados de acordo com um conjunto de parâmetros continuamente atualizados para cada índice de tempo m, os parâmetros sendo dependentes somente dos seus respectivos valores anteriores em um
    Petição 870190114206, de 07/11/2019, pág. 22/28
  2. 2/3 índice de tempo (m-1), características da sub-banda no índice de tempo m, e um conjunto de constantes predeterminadas, e alterar o outro sinal de áudio processado a partir do domínio da frequência para o domínio do tempo para proporcionar um sinal de áudio no qual componentes de fala são aprimorados.
    2. Aparelho caracterizado pelo fato de que é adaptado para realizar o método conforme definido na reivindicação 1.
  3. 3. Método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído, caracterizado pelo fato de que compreende:
    alterar o sinal de áudio a partir do domínio de tempo para uma pluralidade de sub-bandas no domínio da frequência produzindo K múltiplos sinais de sub-banda, Yk(m), k=1,...,K, m=0, 1,...,*, onde k é o número de sub-banda e m é o índice de tempo de cada sinal de subbanda, processar as sub-bandas do sinal de áudio, o processamento incluindo controlar o ganho do sinal de áudio em umas das subbandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que transmitem diferenças aditivas/subtrativas de ganho ou razões multiplicativas de ganho, de modo a:
    a) reduzir o ganho em uma sub-banda como uma estimativa do nível de componentes de ruído nos aumentos da sub-banda, em que a estimativa do nível de componentes de ruído na sub-banda é determinada quando a fala não está presente, e
    b) aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes na sub-banda do sinal de áudio, o aumento de ganho GVCk(m) sendo calculado como o menor de Gmax ou uma razão escalada entre a energia na sub-banda tendo a maior energia e a energia em cada uma das outras sub-bandas, conforme a seguir:
BRPI0816792A 2007-09-12 2008-09-10 método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo BRPI0816792B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US99369107P 2007-09-12 2007-09-12
PCT/US2008/010590 WO2009035614A1 (en) 2007-09-12 2008-09-10 Speech enhancement with voice clarity

Publications (2)

Publication Number Publication Date
BRPI0816792A2 BRPI0816792A2 (pt) 2015-09-01
BRPI0816792B1 true BRPI0816792B1 (pt) 2020-01-28

Family

ID=40076697

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0816792A BRPI0816792B1 (pt) 2007-09-12 2008-09-10 método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo

Country Status (7)

Country Link
US (1) US8583426B2 (pt)
EP (1) EP2191466B1 (pt)
JP (1) JP5302968B2 (pt)
CN (1) CN101802910B (pt)
BR (1) BRPI0816792B1 (pt)
RU (1) RU2469423C2 (pt)
WO (1) WO2009035614A1 (pt)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US9185500B2 (en) 2008-06-02 2015-11-10 Starkey Laboratories, Inc. Compression of spaced sources for hearing assistance devices
US8705751B2 (en) 2008-06-02 2014-04-22 Starkey Laboratories, Inc. Compression and mixing for hearing assistance devices
US9485589B2 (en) 2008-06-02 2016-11-01 Starkey Laboratories, Inc. Enhanced dynamics processing of streaming audio by source separation and remixing
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
GB2484969B (en) * 2010-10-29 2013-11-20 Canon Kk Improved reference frame for video encoding and decoding
JP2012103395A (ja) * 2010-11-09 2012-05-31 Sony Corp 符号化装置、符号化方法、およびプログラム
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
CN103325383A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 音频处理方法和音频处理设备
JP6135106B2 (ja) 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
WO2015010865A1 (en) 2013-07-22 2015-01-29 Harman Becker Automotive Systems Gmbh Automatic timbre control
EP3796680A1 (en) * 2013-07-22 2021-03-24 Harman Becker Automotive Systems GmbH Automatic timbre control
CN103559887B (zh) * 2013-11-04 2016-08-17 深港产学研基地 用于语音增强系统的背景噪声估计方法
EP3103204B1 (en) 2014-02-27 2019-11-13 Nuance Communications, Inc. Adaptive gain control in a communication system
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
RU2676022C1 (ru) * 2016-07-13 2018-12-25 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" Способ повышения разборчивости речи
CN106328159B (zh) * 2016-09-12 2021-07-09 优酷网络技术(北京)有限公司 一种音频流的处理方法及装置
EP3312838A1 (en) 2016-10-18 2018-04-25 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal
US20210089887A1 (en) * 2019-09-24 2021-03-25 Apple Inc. Variance-Based Learning Rate Control For Training Machine-Learning Models
RU2726326C1 (ru) * 2019-11-26 2020-07-13 Акционерное общество "ЗАСЛОН" Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники
CN113808607A (zh) * 2021-03-05 2021-12-17 北京沃东天骏信息技术有限公司 基于神经网络的语音增强方法、装置及电子设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208395A (ja) * 1992-10-30 1994-07-26 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho ホルマント検出装置及び音声加工装置
JPH11514453A (ja) 1995-09-14 1999-12-07 エリクソン インコーポレイテッド 音声信号を適応的に濾波して雑音のある環境条件での音声了解度を高めるシステム
JP3454403B2 (ja) * 1997-03-14 2003-10-06 日本電信電話株式会社 帯域分割型雑音低減方法及び装置
FR2768547B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US6993480B1 (en) 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6604071B1 (en) 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
US6732073B1 (en) 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6760435B1 (en) 2000-02-08 2004-07-06 Lucent Technologies Inc. Method and apparatus for network speech enhancement
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
US20030023429A1 (en) 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
EP1376539B8 (en) 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP4694835B2 (ja) * 2002-07-12 2011-06-08 ヴェーデクス・アクティーセルスカプ 補聴器および音声の明瞭さを高める方法
JP2005037650A (ja) * 2003-07-14 2005-02-10 Asahi Kasei Corp 雑音低減装置
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US20060206320A1 (en) 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech

Also Published As

Publication number Publication date
RU2010114272A (ru) 2011-10-20
JP5302968B2 (ja) 2013-10-02
US8583426B2 (en) 2013-11-12
EP2191466B1 (en) 2013-05-22
JP2010539539A (ja) 2010-12-16
BRPI0816792A2 (pt) 2015-09-01
CN101802910A (zh) 2010-08-11
EP2191466A1 (en) 2010-06-02
WO2009035614A1 (en) 2009-03-19
US20100211388A1 (en) 2010-08-19
CN101802910B (zh) 2012-11-07
RU2469423C2 (ru) 2012-12-10

Similar Documents

Publication Publication Date Title
BRPI0816792B1 (pt) método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo
EP2191465B1 (en) Speech enhancement with noise level estimation adjustment
JP5260561B2 (ja) 知覚モデルを使用した音声の強調
EP1607938B1 (en) Gain-constrained noise suppression
EP2164066B1 (en) Noise spectrum tracking in noisy acoustical signals
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
EP2737479B1 (en) Adaptive voice intelligibility enhancement
US9805738B2 (en) Formant dependent speech signal enhancement
WO2008101324A1 (en) High-frequency bandwidth extension in the time domain
EP1604352A2 (en) Simple noise suppression model
WO2008085703A2 (en) A spectro-temporal varying approach for speech enhancement
CN104867499A (zh) 一种用于助听器的分频段维纳滤波去噪方法和系统
JP2023536104A (ja) 機械学習を用いたノイズ削減
Tsukamoto et al. Speech enhancement based on MAP estimation using a variable speech distribution
Whitehead et al. Adaptive, acoustic noise suppression for speech enhancement
Udrea et al. Reduction of background noise from affected speech using a spectral subtraction algorithm based on masking properties of the human ear
Yu et al. A Single-Channel Speech Enhancement Algorithm Combined with Time-Frequency Mask
Ykhlef An efficient solution to improve the spectral noise suppression rules
Narayanam Perceptual Wavelet packet transform based Wavelet Filter Banks Modeling of Human Auditory system for improving the intelligibility of voiced and unvoiced speech: A Case Study of a system development
STOLBOV et al. Speech enhancement technique for low SNR recording using soft spectral subtraction

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 21/02

Ipc: G10L 21/0364 (2013.01), H03G 9/00 (1968.09), G10L

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 28/01/2020, OBSERVADAS AS CONDICOES LEGAIS.