BRPI0816792B1 - método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo - Google Patents
método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo Download PDFInfo
- Publication number
- BRPI0816792B1 BRPI0816792B1 BRPI0816792A BRPI0816792A BRPI0816792B1 BR PI0816792 B1 BRPI0816792 B1 BR PI0816792B1 BR PI0816792 A BRPI0816792 A BR PI0816792A BR PI0816792 A BRPI0816792 A BR PI0816792A BR PI0816792 B1 BRPI0816792 B1 BR PI0816792B1
- Authority
- BR
- Brazil
- Prior art keywords
- sub
- speech
- audio signal
- gain
- subband
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 21
- 239000000654 additive Substances 0.000 claims abstract description 4
- 230000000996 additive effect Effects 0.000 claims abstract description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 22
- 230000000694 effects Effects 0.000 description 17
- 238000009499 grossing Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 8
- 230000001629 suppression Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000005405 multipole Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- QURLONWWPWCPIC-UHFFFAOYSA-N 2-(2-aminoethoxy)ethanol;3,6-dichloro-2-methoxybenzoic acid Chemical compound NCCOCCO.COC1=C(Cl)C=CC(Cl)=C1C(O)=O QURLONWWPWCPIC-UHFFFAOYSA-N 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
melhoramento de fala com clareza de voz a invenção refere-se a um método para melhorar os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído que processa as sub-bandas do sinal de áudio, o processamento incluindo controlar o ganho do sinal de áudio em umas das ditas sub-bandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que conduzem ou diferenças aditivas i subtrativas em ganho ou razões multiplicativas de ganho de modo a reduzir o ganho em uma sub-banda conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda e aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio, os processos cada um responde a sub-bandas do sinal de áudio e controlando o ganho independentemente um do outro para prover um sinal de áudio de sub-banda processado.
Description
Relatório Descritivo da Patente de Invenção para MÉTODO PARA MELHORAR COMPONENTES DE FALA DE UM SINAL DE ÁUDIO COMPOSTO DE COMPONENTES DE FALA E RUÍDO E APARELHO PARA REALIZAR O MESMO.
CAMPO DA TÉCNICA [001] A presente invenção refere ao processamento de sinal de áudio. Mais especificamente, esta refere a um processador ou método de processamento para o melhoramento de fala e clarificação de um sinal de fala de áudio ruidoso. A invenção também refere a programas de computador para praticar tais métodos ou controlar tal aparelho. INCORPORAÇÃO POR REFERÊNCIA [002] As seguintes publicações estão por meio disto incorporadas por referência, cada uma na sua totalidade.
[1] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,”
IEEE Trans. Acoust., Speech. Signal Processing, vol. 27, pp. 113-120, Apr. 1979.
[2] Y. Ephraim, H. Lev-Ari and W. J. J. Roberts, “A brief survey of Speech Enhancement,” The Electronic Handbook, CRC Press, April 2005.
[3] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error short time spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109-1121, Dec. 1984.
[4] Thomas, I. and Niedeqohn, R., “Preprocessing of Speech for Added Intelligibility in High Ambient Noise”, 34th Audio Engineering Society Convention, March 1968.
[5] Villchur, E., “Signal Processing to Improve Speech Intelligibility for the Hearing Impaired”, 99th Audio Engineering Society Convention, September 1995.
[6] N. Virag, “Single channel speech enhancement based on masking properties of the human auditory system, IEEE Tran. Speech and Audio Processing, vol. 7, pp. 126-137, Mar. 1999.
[7] R. Martin, “Spectral subtraction based on minimum statistics,” in Proc.
EUSIPCO, 1994, pp. 1182-1185.
[8] P. J. Wolfe and S. J. Godsill, “Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement,” EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043-1051,2003.
[9] B. Widrow and S. D. Steams, Adaptive Signal Processing. Englewood Cliffs, NJ: Prentice Hall, 1985.
Petição 870190114206, de 07/11/2019, pág. 5/28
2/17 [10] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error Log-spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443-445, Dec. 1985.
[11] E. Terhardt, “Calculating Virtual Pitch,” Hearing Research, pp. 155-182, 1, 1979.
[12] ISO/IEC JTC1/SC29/WG11, Information technology— Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s - Part3: Audio, IS 11172-3, 1992 [13] J. Johnston, “Transform coding of audio signals using perceptual noise criteria,” IEEE J. Select. Areas Comrnun., vol. 6, pp. 314-323, Feb. 1988.
[14] S. Gustafsson, P. Jax, P Vary,, “A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics,” Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1998. ICASSP '98.
[15] Yi Hu, and P. C. Loizou, “Incorporating a psychoacoustic model in frequency domain speech enhancement,” IEEE Signal Processing Letter, pp. 270 - 273, vol. 11, no. 2, Feb. 2004.
[16] L. Lin, W. H. Holmes, and E. Ambikairajah, “Speech denoising using perceptual modification of Wiener filtering,” Electronics Letter, pp 1486-1487, vol. 38, Nov, 2002.
[17] A.M. Kondoz, “Digital Speech: Coding for Low Bit Rate Communication Systems,”
John Wiley & Sons, Ltd., 2nd Edition, 2004, Chichester, England, Chapter 10: Voice Activity Detection, pp. 357-377.
DESCRIÇÃO DA INVENÇÃO [003] De acordo com um primeiro aspecto da invenção, os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído são melhorados. Um sinal de áudio é mudado do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência. As sub-bandas do sinal de áudio são subsequentemente processadas. O processamento inclui controlar o ganho do sinal de áudio em umas das ditas sub-bandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que conduzem ou diferenças aditivas / subtrativas em ganho ou razões multiplicativas de ganho de modo a (1) reduzir o ganho em uma sub-banda conforme o nível de
Petição 870190114206, de 07/11/2019, pág. 6/28
3/17 componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda e (2) aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. Os processos cada um responde a sub-bandas do sinal de áudio e controlar o ganho independentemente um do outro para prover um sinal de áudio de sub-banda processado. O sinal de áudio de sub-banda processado é mudado do domínio de frequência para o domínio de tempo para prover um sinal de áudio no qual os componentes de fala são melhorados.
[004] Os processos podem incluir um processo de melhoramento de fala que responde a sub-bandas do sinal de áudio para reduzir o ganho em tais sub-bandas conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala em tais subbandas.
[005] Os processos podem incluir um processo de clareza de voz que responde a sub-bandas do sinal de áudio para aumentar o ganho em umas das sub-bandas quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. O aumento de ganho pode ser reduzido de acordo com a suavização de tempo quando de uma transição da presença de componentes de fala para componentes de fala não estando presentes.
[006] Os processos podem também incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente em um sinal de fala ruidoso o processo de clareza de voz também respondendo ao dito processo de detecção de atividade de voz.
[007] Quando os processos incluem um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de
Petição 870190114206, de 07/11/2019, pág. 7/28
4/17 voz pode também responder ao processo de detecção de atividade de voz.
[008] De acordo com outro aspecto da invenção, os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído são melhorados. Um sinal de áudio é mudado do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência. As sub-bandas do sinal de áudio são subsequentemente processadas. O processamento inclui aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio para prover um sinal de áudio de sub-banda processado. As sub-bandas do sinal de áudio de sub-banda processado são processadas, o processamento incluindo controlar o ganho do sinal de áudio de sub-banda processado em uma das ditas sub-bandas, em que o ganho em uma sub-banda é reduzido conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda para prover um sinal de áudio de sub-banda adicionalmente processado. O sinal de áudio de sub-banda adicionalmente processado é mudado do domínio de frequência para o domínio de tempo para prover um sinal de áudio no qual os componentes de fala estão melhorados.
[009] O processamento pode incluir um processo de melhoramento de fala que responde a sub-bandas processadas do sinal de áudio para reduzir o ganho em tais sub-bandas conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala em tais sub-bandas.
[0010] O processamento adicional pode incluir um processo de clareza de voz que responde a sub-bandas do sinal de áudio para aumentar o ganho em umas das sub-bandas quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. O aumento de ganho pode ser reduzido de acordo com a suavização de tempo quan
Petição 870190114206, de 07/11/2019, pág. 8/28
5/17 do de uma transição da presença de componentes de fala para componentes de fala não estando presentes.
[0011] O processamento e/ou o processamento adicional podem incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente em um sinal de fala ruidoso, o processo de clareza de voz também respondendo ao processo de detecção de atividade de voz.
[0012] O processamento e/ou o processamento adicional podem incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de voz também respondendo ao processo de detecção de atividade de voz.
[0013] O processamento pode incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de voz também respondendo ao dito processo de detecção de atividade de voz.
DESCRIÇÃO DOS DESENHOS [0014] Figura 1 é um diagrama de blocos funcional que mostra uma modalidade exemplar da invenção.
[0015] Figura 2 é um diagrama de blocos funcional que mostra uma modalidade exemplar alternativa da invenção.
[0016] Figura 3 é um gráfico que mostra o valor de GVCk(m) como uma função de Ek(m)/Emax(m).
[0017] Figura 4 é um fluxograma relativo à modalidade exemplar da Figura 1.
[0018] Figura 5 é um fluxograma relativo à modalidade exemplar da Figura 2.
Petição 870190114206, de 07/11/2019, pág. 9/28
6/17
MELHOR MODO PARA EXECUTAR A INVENÇÃO [0019] A Figura 1 mostra uma modalidade exemplar de aspectos da presente invenção de acordo com uma primeira disposição funcional topológica. A entrada é gerada pela digitalização de um sinal de fala analógico que contém tanto fala limpa quanto ruído. Este sinal de áudio inalterado y(n) (Fala Ruidosa), onde n = 0, 1, .... é o índice de tempo, é então enviado para um dispositivo ou função de banco de filtros de análise (Bando de Filtros de Análise) 2, que produz K múltiplos sinais de sub-banda, Yk(m), k = 1, ..., K, m = 0, 1, ... », onde k é o número de sub-bandas, e m é o índice de tempo de cada sinal de subbanda. O Banco de Filtros de Análise 2 muda o sinal de áudio do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência.
[0020] Os sinais de sub-banda são aplicados a um dispositivo ou função de redução de ruído (Melhoramento de Fala) 4, um detector ou função de detecção de atividade de voz (VAD) 6, e um aperfeiçoador ou função de aperfeiçoamento de clareza de voz (Clareza de Voz) 8.
[0021] Em resposta aos sinais de sub-banda de entrada e, opcionalmente, em resposta ao VAD 6, o Melhoramento de Fala 4 controla um fator de escala de ganho GNRk(m) que escala a amplitude dos sinais de sub-banda. Tal aplicação de um fator de escala de ganho para um sinal de sub-banda está mostrado simbolicamente por um símbolo de multiplicador 10. Para clareza na apresentação, os números mostram os detalhes de geração e aplicação de um fator de escala de ganho a somente um de múltiplos sinais de sub-banda (k).
[0022] O valor de fator de escala de ganho GNRk(m) é controlado pelo Melhoramento de Fala 4 de modo que as sub-bandas que são dominadas por componentes de ruído (baixo sinal para ruído (SNR)) são fortemente suprimidas enquanto que aquelas dominadas por fala
Petição 870190114206, de 07/11/2019, pág. 10/28
UM (alta SNR) são preservadas. O valor de GNRk(m) diminui (supressão mais forte) em regiões de frequência (sub-bandas) nas quais a razão de sinal para ruído (SNR) diminui e vice-versa.
[0023] Em resposta aos sinais de sub-banda de entrada, o VAD 6 determina quando a fala está presente em um sinal de fala ruidoso y(n), provendo, por exemplo, uma saída de VAD=1 quando a fala está presente uma saída de VAD=0 quando a fala não está presente.
[0024] Em resposta aos sinais de sub-banda de entrada e em resposta ao VAD 6, a Clareza de Voz 8 controla um fator de escala de ganho GVC'k(m) que escala a amplitude dos sinais de sub-banda. Tal aplicação de um fator de escala de ganho a um sinal de sub-banda está mostrada simbolicamente por um símbolo de multiplicador 12. O valor de fator de escala de ganho GVC'k(m) é controlado pela Clareza de Voz 8 de modo a intensificar as sub-bandas importantes para a inteligibilidade de fala. A Clareza de Voz 8 é controlada pelo VAD 6 de modo que o fator de ganho GVC'k(m) provê a intensificação em pelo menos parte de um espectro de frequência de voz quando a voz está presente.
[0025] Como adicionalmente abaixo explicado, uma suavização pode ser aplicada para minimizar a introdução de artefatos audíveis quando a intensificação é desligada na ausência de fala.
[0026] Assim, os sinais de fala de sub-banda melhorados Yk(m) são providos pela aplicação de fatores de escala de ganho GNRk(m) e GVC'k(m) aos sinais de sub-banda de entrada não-melhorados Yk(m). Isto pode ser representado como yt (m) = GNRt (m)-GKC, (m) (1) [0027] O símbolo de ponto (·) indica multiplicação. Os fatores de escala de ganho GNRk(m) e GVC'k(m) podem ser aplicados aos sinais de sub-banda de entrada não-melhorados Yk(m) em qualquer ordem Petição 870190114206, de 07/11/2019, pág. 11/28
8/17 o Melhoramento de Voz 4 e a Clareza de Voz 8 são desacoplados um do outro e operam independentemente nos sinais de sub-banda.
[0028] Os sinais de sub-banda processados Yk(m) podem então ser convertidos para o domínio de tempo pela utilização de um dispositivo ou processo de banco de filtros de síntese (Banco de Filtros de Síntese) 14 que produz o sinal de fala melhorado y(n). O banco de filtros de síntese muda o sinal de áudio processado do domínio de frequência para o domínio de tempo. O fluxograma da Figura 4 mostra o processo subjacente à modalidade exemplar da Figura 1. A etapa final indica que o índice de tempo m é então avançado por 1 (m ^m+1) e o processo da Figura 4 é repetido.
[0029] Os dispositivos e processos de áudio de sub-banda podem utilizar as técnicas analógicas ou digitais, ou um híbrido das duas técnicas. Um banco de filtros de sub-banda pode ser implementado por um banco de filtros de passagem de banda digitais ou por um banco de filtros de passagem de banda analógicos. Para os filtros de passagem de banda digitais, o sinal de entrada é amostrado antes da filtragem. As amostras são passadas através de um banco de filtros digitais e então diminuídos em resolução para obter os sinais de sub-banda. Cada sinal de sub-banda compreende amostras as quais representam uma porção do espectro de sinal de entrada. Para os filtros de passagem de banda analógicos, o sinal de entrada é dividido em diversos sinais analógicos cada um com uma largura de banda que corresponde a uma largura de banda de filtro de passagem de banda de banco de filtros. Os sinais analógicos de sub-banda podem ser mantidos em forma analógica ou convertidos em forma digital por amostragem e quantização.
[0030] Os sinais de áudio de sub-banda podem também ser derivados utilizando um codificador de transformada que implementa qualquer uma de diversas transformadas de domínio de tempo para
Petição 870190114206, de 07/11/2019, pág. 12/28
9/17 domínio de frequência que funcione como um banco de filtros de passagem de banda digitais. O sinal de entrada amostrado é segmentado em blocos de amostras de sinal antes da filtragem. Um ou mais coeficientes de transformada adjacentes ou bins podem ser agrupados juntos para definir as sub-bandas que têm larguras de banda efetivas que são somas de larguras de banda de coeficientes de transformada individuais.
[0031] Apesar da invenção poder ser implementada utilizando técnicas analógicas ou digitais ou mesmo uma disposição híbrida de tais técnicas, a invenção é mais convenientemente implementada utilizando as técnicas digitais e as modalidades preferidas aqui descritas são implementações digitais. Assim, o Banco de Filtros de Análise 2 e o Banco de Filtros de Síntese 14 podem ser implementados por qualquer banco de filtros adequado e banco de filtros inverso ou transformada e transformada inversa, respectivamente.
[0032] A Figura 2 mostra uma modalidade exemplar da presente invenção de acordo com uma disposição funcional topológica alternativa. Os dispositivos e funções que correspondem àqueles na Figura 2 empregam os mesmos números de referência.
[0033] A Figura 2 difere da Figura 1 pelo fato de que o Melhoramento de Fala 4 e a Clareza de Voz 8 não estão desacoplados um do outro e não operam independentemente sobre os sinais de sub-banda. Os sinais de sub-banda são aplicados primeiro à Clareza de Voz 8 ao VAD 6. O fator de escala de ganho de Clareza de Voz GVC'k(m) é aplicado ao multiplicador 12. Como na topologia da Figura 1, a Clareza de Voz 8 é controlada pelo VAD 6 de modo que o fator de ganho GVC'k(m) seletivamente provenha uma intensificação quando a fala está presente. Ao contrário da topologia da Figura 1, o Melhoramento de Fala 4 recebe e opera sobre os sinais de sub-banda processados por Clareza de Voz Yk(m)= GVC'k(m)*Yk(m) na saída do multiplicador
Petição 870190114206, de 07/11/2019, pág. 13/28
10/17 ao invés de sobre os sinais de sub-banda não-melhorados Yk(m). Isto pode ser representado como:
(2) [0034] O símbolo de ponto (·) indica multiplicação.
[0035] Ambas as topologias da Figura 1 e da Figura 2 permitem a utilização de supressão de ruído e melhoramento de fala de intensificação de sinal sem a intensificação de sinal desfazer a supressão de ruído.
[0036] Apesar dos fatores de escala de ganho serem mostrados controlando as amplitudes de sub-banda multiplicativamente nas Figuras 1 e 2, será aparente para aqueles versados na técnica que disposições aditivas / subtrativas equivalentes podem ser empregadas. [0037] O fluxograma da Figura 5 mostra o processo subjacente à modalidade exemplar da Figura 2. Como no fluxograma da Figura 4, a etapa final indica que o índice de tempo m é então avançado por 1 (m +m+1) e o processo da Figura 5 é repetido.
MELHORAMENTO DE FALA 4 [0038] Vários dispositivos e funções de melhoramento espectral podem ser úteis na implementação de Melhoramento de Fala 4 em modalidades práticas da presente invenção. Entre tais dispositivos e funções de melhoramento espectral estão aqueles que empregam os estimadores de nível de ruído baseados em VAD e aqueles que empregam os estimadores de nível de ruído estatisticamente baseados. Tais dispositivos e funções de melhoramento espectral podem incluir aqueles descritos nas referências 1, 2, 3, 6 e 7, acima listados e nos quatro Pedidos de Patente Provisória dos Estados Unidos seguintes:
(1) Estimador de Variância de Ruído Para Melhoramento de Fala, de Rongshan Yu, S.N. 60/918.964, depositado em 19 de Março de 2007;
Petição 870190114206, de 07/11/2019, pág. 14/28
11/17 (2) Melhoramento de Fala Empregando Um Modelo Perceptual, de Rongshan Yu, S.N. 60/918.986, depositado em 19 de Março de 2007; e (3) Melhoramento de Fala Com Ajuste de Estimativa de Nível de Ruído, de Rongshan Yu, S.N. 60/993.548, depositado em 12 de Setembro de 2007.
(4) Melhoramento de Fala, de C.Philip Brown, S.N. 60/993.601, depositado em 12 de Setembro de 2007.
[0039] O fator de ganho de melhoramento de fala GNRk(m) pode ser referido como um ganho de supressão porque o seu propósito é suprimir o ruído. Um modo de controlar o ganho de supressão é conhecido como subtração espectral (referências [1], [2] e [7]), na qual o ganho de supressão GNRk(m) aplicado ao sinal de sub-banda Yk(m) pode ser expresso como
GNRk (m) =
(3) [0040] onde |Yk(m)| é amplitude do sinal de sub-banda Yk(m), Àk(m) é a energia de ruído na sub-banda k, e a > 1 é um fator de sobressubtração escolhido para assegurar que um ganho de supressão suficiente é aplicado. Sobressubtração é adicionalmente explicado na referência [7] na página 2 e na referência [6] na página 127.
[0041] De modo a determinar as quantidades apropriadas de ganhos de supressão, é importante ter uma estimativa precisa da energia de ruído para as sub-bandas no sinal que entra. No entanto, esta não é uma tarefa trivial a fazer quando o sinal de ruído está misturado juntamente com o sinal de fala no sinal que entra. Um modo para resolver este problema é utilizar um estimador de nível de ruído baseado em detecção de atividade de voz que utilizas um detector de atividade de voz (VAD) independente para determinar se um sinal de fala está prePetição 870190114206, de 07/11/2019, pág. 15/28
12/17 sente no sinal que entra ou não. A energia de ruído é atualizada durante o período quando a fala não está presente (VAD=0). Ver, por exemplo, a referência [3], Em tal estimador de ruído, a estimativa de energia de ruído Àk(m) para o tempo m pode ser dada por
VAD=0;
VAD=1.
(4) [0042] O valor inicial da estimativa de energia de ruído Àk(-1) pode ser ajustado para zero, ou ajustado para a energia de ruído medida durante o estágio de inicialização do processo. O parâmetro β é um fator de suavização que tem um valor 0 « β < 1. Quando a voz não está presente (VAD=0), a estimativa da energia de ruído pode ser obtida executando uma operação de suavizador de tempo de primeira ordem (algumas vezes denominado um integrador vazador) na potência do sinal de entrada Yk(m). O fator de suavização β pode ser um valor positivo que é ligeiramente menor do que um. Usualmente, para um sinal de entrada estacionário um valor de β mais próximo de um levará a uma estimativa mais precisa. Por outro lado, o valor de β não deve ser muito próximo de um para evitar perder a capacidade de rastrear as mudanças na energia de ruído quando a entrada torna-se nãoestacionária. Em modalidades práticas da presente invenção, um valor de β = 0,98 foi descoberto prover resultados satisfatórios. No entanto, este valor não é crítico. É também possível estimar a energia de ruído utilizando um suavizador de tempo mais complexo que pode ser nãolinear ou linear (tal como um filtro de passagem baixa de múltiplos polos).
[0043] O período de tempo de cada m, como em qualquer sistema digital, é decidido pela taxa de amostragem da sub-banda. Assim este pode variar dependendo da taxa de amostragem do sinal de entrada, e do banco de filtros utilizado. Em uma implementação prática, o período
Petição 870190114206, de 07/11/2019, pág. 16/28
13/17 de tempo para cada m é 1(s) / 8000*32 = 4 ms com um sinal de fala de 8 kHz e um banco de filtros com um fator de diminuição de resolução de 32.
DETECTOR DE ATIVIDADE DE VOZ (VAD) 6 [0044] Muitos detectores e funções de detector de atividade de voz são conhecidos. Tais dispositivos ou funções adequados estão descritos no Capítulo 10 da referência [17] e na sua bibliografia. A utilização de qualquer detector de atividade de voz específico não é crítica para a invenção.
CLAREZA DE VOZ 8 [0045] Vários dispositivos e funções de clareza de voz podem ser úteis na implementação de Clareza de Voz 8 em modalidades práticas da presente invenção.
[0046] A fala consiste em um número de diferentes sugestões que são utilizadas na percepção. Conforme o ar é expelido dos pulmões, as cordas vocais vibram. Conforme o ar escapa, a laringe, a boca e o nariz modificam a energia acústica para produzir uma variedade de sons. As vogais têm regiões de forte energia harmônica, e são geradas com um fluxo de ar desimpedido. As consoantes que incluem as aproximantes, as fricativas e as paradas são geradas por um fluxo de ar crescentemente restritivo, e tem um conteúdo de frequência mais alto (mas energia mais fraca) do que as vogais. Há muito tem sido conhecido que as consoantes da fala contribuem grandemente para a inteligibilidade; e as vogais, apesar destas usualmente terem energias mais fortes, contribuem relativamente pouco. Com base neste fato, os dispositivos e funções de clareza de voz usualmente utilizam um filtro equalizador, de passagem alta que sobe regularmente, ou um filtro de passagem alta tal como na referência [4] para intensificar as faixas de frequência onde as fracas consoantes residem, usualmente as frequências mais altas, da fala de modo a aperfeiçoar a inteligibilidade.
Petição 870190114206, de 07/11/2019, pág. 17/28
14/17
Tecnologias similares têm também sido utilizadas nos aplicativos de aparelhos auditivos para os ouvintes de audição prejudicada que têm dificuldade para perceber os componentes de alta frequências do sinal de fala como na referência [5], Uma proposta de nivelamento espectral tal como aquela abaixo descrita e em um Pedido de Patente Provisória dos Estados Unidos de C.Philip Brown, S.N. 60/993.601, depositado em 12 de Setembro de 2007. Os fatores de escala de ganho de clareza de voz aumentam os níveis dos componentes relativamente fracos no sinal de fala de modo que estes sejam melhor percebidos por ouvintes humanos. A escolha de qualquer dispositivo ou função de clareza de voz específico não é crítica para a presente invenção.
[0047] O ganho de clareza de voz GVCk(m) pode ser produzido por um processo ou dispositivo de clareza de voz como segue:
KGVC'k (w-!) + (!-*·)
VAD = \
VAD = 0' (5) [0048] GVCk(m) é o ganho de clareza de voz quando a entrada é a fala, e 0 < k < 1 é um fator de suavização. O valor de k controla a velocidade do ganho de clareza de voz, reduzindo para um (sem intensificação) durante uma pausa na fala. O seu melhor valor pode ser ajustado através de experimentos. Em uma modalidade prática da presente invenção, um valor de k = 0,9 foi descoberto prover bons resultados. No entanto, este valor não é crítico. Assim o processo de clareza de voz aumenta o ganho quando os componentes de fala estão presentes, o ganho reduzindo de acordo com a suavização de tempo quando de uma transição da presença de componentes de fala para os componentes de fala não estando presentes.
[0049] O propósito de ter os fatores de ganho GVCk(m) é de intensificar os níveis de regiões de frequência selecionadas com relação a outras de modo que a inteligibilidade do sinal de fala seja aperfeiçoada. Em uma implementação útil desta invenção, o GVCk(m) pode ser
Petição 870190114206, de 07/11/2019, pág. 18/28
15/17 calculado como o menor de Gmax ou uma razão escalada da energia na sub-banda que tem a energia mais alta para a energia em cada uma das outras sub-bandas;
GVCt (w) = min
(6) onde
A (m) = aEk (m) + (1 - α)|^ (m)f, (7) (8) [0050] 0 < γ < 1 é um fator de escalagem pré-selecionado, 0 « α < 1 é um fator de suavização, e Gmax é um ganho máximo préselecionado. O valor inicial Ek(-1) pode ser ajustado para zero. O valor de γ decide a razão da energia dos componentes fracos para aquela dos componentes fortes na fala após o processamento. Por exemplo, se γ = 0,5, não importa quanto a energia de sub-banda Ek(m) está abaixo de Emax(m), esta é intensificada pela metade de sua diferença - em efeito atuando como um compressor 2-1 para a sub-banda. O valor de Gmax controla a quantidade máxima permissível de intensificação do algoritmo de clareza de voz. Os valores de γ e Gmax controlar a agressividade do processo de clareza de voz já que estes juntamente decidem a quantidade da intensificação dos componentes fracos na fala. Os seus valores ótimos variam de acordo com as características do sinal sob processamento, o ambiente acústico da aplicação-alvo, e as preferências do usuário. Ao invés de ser intensificada na direção de uma magnitude fixa, a intensificação pode, alternativamente, ser na direção de uma magnitude dependente de frequência, tal como uma definida por uma resposta que sobe regularmente de passagem alta.
[0051] Como um exemplo, a Figura 3 mostra o valor de GVCk(m) como uma função de Ek(m)/Emax(m). Neste exemplo, γ = 1 e Gmax =
Petição 870190114206, de 07/11/2019, pág. 19/28
16/17 dB. Como com relação aos fatores de suavização acima mencionados, o fator de suavização α pode ser implementado por um suavizador de tempo de primeira ordem tal como filtro de passagem baixa de polo único (algumas vezes denominado um integrador vazador) ou um suavizador de tempo mais complexo que pode ser não-linear ou linear (tal como um filtro de passagem baixa de múltiplos polos). IMPLEMENTAÇÃO [0052] A invenção pode ser implementada em hardware ou software, ou uma combinação de ambos (por exemplo, redes lógicas programáveis). A menos que de outro modo especificado, os processos incluídos como parte da invenção não estão inerentemente relacionados a nenhum computador ou outro aparelho específico. Especificamente, várias máquinas de uso geral podem ser utilizadas com os programas escritos de acordo com os ensinamentos aqui, ou pode ser mais conveniente construir um aparelho mais especializado (por exemplo, circuitos integrados) para executar as etapas de método requeridas. Assim, a invenção pode ser implementada em um ou mais programas de computador que executam em um ou mais sistemas de computador programáveis cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (que inclui elementos de memória e/ou armazenamento voláteis e nãovoláteis), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. Um código de programa é aplicado aos dados de entrada para executar as funções aqui descritas e gerar as informações de saída. As informações de saídas são aplicadas a um ou mais dispositivos de saída, em um modo conhecido.
[0053] Cada tal programa pode ser implementado em qualquer linguagem de computador desejada (incluindo linguagens de máquina, conjunto, ou procedural de alto nível, lógica ou de programação orientada em objeto) para comunicar com um sistema de computador. Em
Petição 870190114206, de 07/11/2019, pág. 20/28
17/17 qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.
[0054] Será apreciado que vários dispositivos, funções e processos mostrados e descritos aqui em vários exemplos podem ser mostrados combinados ou separados em outros meios que como aqui mostrados nas figuras. Por exemplo, quando implementadas por sequências de instrução de software de computador, as funções podem ser implementadas por sequências de instrução de software de múltiplas cadeias que executam em um hardware de processamento de sinal digital adequado, em cujo caso os vários dispositivos e funções nos exemplos mostrados nas figuras podem corresponder a porções das instruções de software.
[0055] Cada tal programa de computador é de preferência armazenado ou baixado para uma mídia ou dispositivo de armazenamento (por exemplo, uma memória ou mídia de estado sólido, ou uma mídia magnética ou ótica) legível por um computador programável de uso geral ou especial, para configurar e operar o computador quando a mídia ou o dispositivo de armazenamento é lido pelo sistema de computador para executar os procedimentos aqui descritos. O sistema inventivo pode também ser considerado ser implementado como um meio de armazenamento legível por computador, configurado com um programa de computador, onde o meio de armazenamento assim configurado faz com que o sistema de computador opere em um modo específico e predefinido para executar as funções aqui descritas.
Claims (3)
- REIVINDICAÇÕES1. Método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído, caracterizado pelo fato de que compreende as etapas de:alterar o sinal de áudio a partir do domínio do tempo para uma pluralidade de sub-bandas no domínio da frequência, produzindo K múltiplos sinais de sub-banda, Yk(m), k=1,...K, m=0, 1,...,*, onde k é o número de sub-banda e m é o índice de tempo para cada sinal de sub-banda, processar as sub-bandas do sinal de áudio, o processamento incluindo aumentar o ganho em uma sub-banda quando componentes de fala estão presentes na sub-banda do sinal de áudio para proporcionar um sinal de áudio de sub-banda processado, o aumento de ganho sendo reduzido conforme a suavização no tempo mediante uma transição a partir da presença de componentes de fala para componentes de fala não presentes, processar sub-bandas do sinal de áudio de sub-banda processado, o processamento de sub-bandas do sinal de áudio de subbanda processado incluindo controlar o ganho do sinal de áudio de sub-banda processado em umas das sub-bandas, em que o ganho em uma sub-banda é reduzido a medida que uma estimativa do nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda para proporcionar um outro sinal de áudio de sub-banda processado, em que a estimativa do nível de componentes de ruído na sub-banda é determinada quando a fala não está presente, em que ambos os primeiro e segundo processamentos são executados de acordo com um conjunto de parâmetros continuamente atualizados para cada índice de tempo m, os parâmetros sendo dependentes somente dos seus respectivos valores anteriores em umPetição 870190114206, de 07/11/2019, pág. 22/28
- 2/3 índice de tempo (m-1), características da sub-banda no índice de tempo m, e um conjunto de constantes predeterminadas, e alterar o outro sinal de áudio processado a partir do domínio da frequência para o domínio do tempo para proporcionar um sinal de áudio no qual componentes de fala são aprimorados.2. Aparelho caracterizado pelo fato de que é adaptado para realizar o método conforme definido na reivindicação 1.
- 3. Método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído, caracterizado pelo fato de que compreende:alterar o sinal de áudio a partir do domínio de tempo para uma pluralidade de sub-bandas no domínio da frequência produzindo K múltiplos sinais de sub-banda, Yk(m), k=1,...,K, m=0, 1,...,*, onde k é o número de sub-banda e m é o índice de tempo de cada sinal de subbanda, processar as sub-bandas do sinal de áudio, o processamento incluindo controlar o ganho do sinal de áudio em umas das subbandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que transmitem diferenças aditivas/subtrativas de ganho ou razões multiplicativas de ganho, de modo a:a) reduzir o ganho em uma sub-banda como uma estimativa do nível de componentes de ruído nos aumentos da sub-banda, em que a estimativa do nível de componentes de ruído na sub-banda é determinada quando a fala não está presente, eb) aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes na sub-banda do sinal de áudio, o aumento de ganho GVCk(m) sendo calculado como o menor de Gmax ou uma razão escalada entre a energia na sub-banda tendo a maior energia e a energia em cada uma das outras sub-bandas, conforme a seguir:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US99369107P | 2007-09-12 | 2007-09-12 | |
PCT/US2008/010590 WO2009035614A1 (en) | 2007-09-12 | 2008-09-10 | Speech enhancement with voice clarity |
Publications (2)
Publication Number | Publication Date |
---|---|
BRPI0816792A2 BRPI0816792A2 (pt) | 2015-09-01 |
BRPI0816792B1 true BRPI0816792B1 (pt) | 2020-01-28 |
Family
ID=40076697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0816792A BRPI0816792B1 (pt) | 2007-09-12 | 2008-09-10 | método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo |
Country Status (7)
Country | Link |
---|---|
US (1) | US8583426B2 (pt) |
EP (1) | EP2191466B1 (pt) |
JP (1) | JP5302968B2 (pt) |
CN (1) | CN101802910B (pt) |
BR (1) | BRPI0816792B1 (pt) |
RU (1) | RU2469423C2 (pt) |
WO (1) | WO2009035614A1 (pt) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8705751B2 (en) | 2008-06-02 | 2014-04-22 | Starkey Laboratories, Inc. | Compression and mixing for hearing assistance devices |
US9485589B2 (en) | 2008-06-02 | 2016-11-01 | Starkey Laboratories, Inc. | Enhanced dynamics processing of streaming audio by source separation and remixing |
US9185500B2 (en) | 2008-06-02 | 2015-11-10 | Starkey Laboratories, Inc. | Compression of spaced sources for hearing assistance devices |
WO2010003068A1 (en) * | 2008-07-03 | 2010-01-07 | The Board Of Trustees Of The University Of Illinois | Systems and methods for identifying speech sound features |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
GB2484969B (en) * | 2010-10-29 | 2013-11-20 | Canon Kk | Improved reference frame for video encoding and decoding |
JP2012103395A (ja) * | 2010-11-09 | 2012-05-31 | Sony Corp | 符号化装置、符号化方法、およびプログラム |
CN103325383A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 音频处理方法和音频处理设备 |
US9064503B2 (en) | 2012-03-23 | 2015-06-23 | Dolby Laboratories Licensing Corporation | Hierarchical active voice detection |
JP6135106B2 (ja) * | 2012-11-29 | 2017-05-31 | 富士通株式会社 | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム |
US10319389B2 (en) * | 2013-07-22 | 2019-06-11 | Harman Becker Automotive Systems Gmbh | Automatic timbre control |
CN105453594B (zh) | 2013-07-22 | 2020-03-03 | 哈曼贝克自动系统股份有限公司 | 自动音色控制 |
CN103559887B (zh) * | 2013-11-04 | 2016-08-17 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
EP3103204B1 (en) | 2014-02-27 | 2019-11-13 | Nuance Communications, Inc. | Adaptive gain control in a communication system |
US9953661B2 (en) | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
RU2589298C1 (ru) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |
RU2676022C1 (ru) * | 2016-07-13 | 2018-12-25 | Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" | Способ повышения разборчивости речи |
CN106328159B (zh) * | 2016-09-12 | 2021-07-09 | 优酷网络技术(北京)有限公司 | 一种音频流的处理方法及装置 |
EP3312838A1 (en) | 2016-10-18 | 2018-04-25 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for processing an audio signal |
US20210089887A1 (en) * | 2019-09-24 | 2021-03-25 | Apple Inc. | Variance-Based Learning Rate Control For Training Machine-Learning Models |
RU2726326C1 (ru) * | 2019-11-26 | 2020-07-13 | Акционерное общество "ЗАСЛОН" | Способ повышения разборчивости речи пожилыми людьми при приеме звуковых программ на наушники |
CN113808607B (zh) * | 2021-03-05 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
AU724111B2 (en) | 1995-09-14 | 2000-09-14 | Ericsson Inc. | System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions |
JP3454403B2 (ja) * | 1997-03-14 | 2003-10-06 | 日本電信電話株式会社 | 帯域分割型雑音低減方法及び装置 |
FR2768547B1 (fr) | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de debruitage d'un signal de parole numerique |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US6088668A (en) | 1998-06-22 | 2000-07-11 | D.S.P.C. Technologies Ltd. | Noise suppressor having weighted gain smoothing |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US6289309B1 (en) | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6604071B1 (en) * | 1999-02-09 | 2003-08-05 | At&T Corp. | Speech enhancement with gain limitations based on speech activity |
US6732073B1 (en) | 1999-09-10 | 2004-05-04 | Wisconsin Alumni Research Foundation | Spectral enhancement of acoustic signals to provide improved recognition of speech |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US6366880B1 (en) | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
US6760435B1 (en) | 2000-02-08 | 2004-07-06 | Lucent Technologies Inc. | Method and apparatus for network speech enhancement |
JP2002149200A (ja) | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
JP2002169599A (ja) * | 2000-11-30 | 2002-06-14 | Toshiba Corp | ノイズ抑制方法及び電子機器 |
US20030023429A1 (en) | 2000-12-20 | 2003-01-30 | Octiv, Inc. | Digital signal processing techniques for improving audio clarity and intelligibility |
JP3574123B2 (ja) | 2001-03-28 | 2004-10-06 | 三菱電機株式会社 | 雑音抑圧装置 |
US20030028386A1 (en) | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
CA2354755A1 (en) | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
ATE375072T1 (de) | 2002-07-12 | 2007-10-15 | Widex As | Hörgerät und methode für das erhöhen von redeverständlichkeit |
JP2005037650A (ja) * | 2003-07-14 | 2005-02-10 | Asahi Kasei Corp | 雑音低減装置 |
CN1322488C (zh) * | 2004-04-14 | 2007-06-20 | 华为技术有限公司 | 一种语音增强的方法 |
US7492889B2 (en) | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
US20060206320A1 (en) | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
US7590530B2 (en) * | 2005-09-03 | 2009-09-15 | Gn Resound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
-
2008
- 2008-09-10 RU RU2010114272/08A patent/RU2469423C2/ru active
- 2008-09-10 EP EP08830357.3A patent/EP2191466B1/en active Active
- 2008-09-10 US US12/677,086 patent/US8583426B2/en active Active
- 2008-09-10 CN CN2008801065345A patent/CN101802910B/zh active Active
- 2008-09-10 JP JP2010524854A patent/JP5302968B2/ja active Active
- 2008-09-10 BR BRPI0816792A patent/BRPI0816792B1/pt active IP Right Grant
- 2008-09-10 WO PCT/US2008/010590 patent/WO2009035614A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN101802910A (zh) | 2010-08-11 |
US8583426B2 (en) | 2013-11-12 |
RU2010114272A (ru) | 2011-10-20 |
US20100211388A1 (en) | 2010-08-19 |
RU2469423C2 (ru) | 2012-12-10 |
CN101802910B (zh) | 2012-11-07 |
EP2191466A1 (en) | 2010-06-02 |
JP2010539539A (ja) | 2010-12-16 |
EP2191466B1 (en) | 2013-05-22 |
JP5302968B2 (ja) | 2013-10-02 |
BRPI0816792A2 (pt) | 2015-09-01 |
WO2009035614A1 (en) | 2009-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0816792B1 (pt) | método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo | |
EP2191465B1 (en) | Speech enhancement with noise level estimation adjustment | |
JP5260561B2 (ja) | 知覚モデルを使用した音声の強調 | |
EP2164066B1 (en) | Noise spectrum tracking in noisy acoustical signals | |
EP1607938B1 (en) | Gain-constrained noise suppression | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
US9805738B2 (en) | Formant dependent speech signal enhancement | |
WO2008101324A1 (en) | High-frequency bandwidth extension in the time domain | |
WO2008085703A2 (en) | A spectro-temporal varying approach for speech enhancement | |
CN104867499A (zh) | 一种用于助听器的分频段维纳滤波去噪方法和系统 | |
JP2023536104A (ja) | 機械学習を用いたノイズ削減 | |
CN114023348B (zh) | 一种基于自适应谱底优化的多带谱减法的语音增强方法 | |
Tsukamoto et al. | Speech enhancement based on MAP estimation using a variable speech distribution | |
Whitehead et al. | Adaptive, acoustic noise suppression for speech enhancement | |
Udrea et al. | Reduction of background noise from affected speech using a spectral subtraction algorithm based on masking properties of the human ear | |
Yu et al. | A Single-Channel Speech Enhancement Algorithm Combined with Time-Frequency Mask | |
CN116057626A (zh) | 使用机器学习的降噪 | |
Narayanam | Perceptual Wavelet packet transform based Wavelet Filter Banks Modeling of Human Auditory system for improving the intelligibility of voiced and unvoiced speech: A Case Study of a system development | |
Ykhlef | An efficient solution to improve the spectral noise suppression rules | |
STOLBOV et al. | Speech enhancement technique for low SNR recording using soft spectral subtraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B15K | Others concerning applications: alteration of classification |
Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 21/02 Ipc: G10L 21/0364 (2013.01), H03G 9/00 (1968.09), G10L |
|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 28/01/2020, OBSERVADAS AS CONDICOES LEGAIS. |