BRPI0816792B1

BRPI0816792B1 - método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo

Info

Publication number: BRPI0816792B1
Application number: BRPI0816792A
Authority: BR
Inventors: Phillip Brown C; Yu Rongshan
Original assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-09-12
Filing date: 2008-09-10
Publication date: 2020-01-28
Also published as: CN101802910A; US8583426B2; RU2010114272A; US20100211388A1; RU2469423C2; CN101802910B; EP2191466A1; JP2010539539A; EP2191466B1; JP5302968B2; BRPI0816792A2; WO2009035614A1

Abstract

melhoramento de fala com clareza de voz a invenção refere-se a um método para melhorar os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído que processa as sub-bandas do sinal de áudio, o processamento incluindo controlar o ganho do sinal de áudio em umas das ditas sub-bandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que conduzem ou diferenças aditivas i subtrativas em ganho ou razões multiplicativas de ganho de modo a reduzir o ganho em uma sub-banda conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda e aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio, os processos cada um responde a sub-bandas do sinal de áudio e controlando o ganho independentemente um do outro para prover um sinal de áudio de sub-banda processado.

Description

Relatório Descritivo da Patente de Invenção para MÉTODO PARA MELHORAR COMPONENTES DE FALA DE UM SINAL DE ÁUDIO COMPOSTO DE COMPONENTES DE FALA E RUÍDO E APARELHO PARA REALIZAR O MESMO.

CAMPO DA TÉCNICA [001] A presente invenção refere ao processamento de sinal de áudio. Mais especificamente, esta refere a um processador ou método de processamento para o melhoramento de fala e clarificação de um sinal de fala de áudio ruidoso. A invenção também refere a programas de computador para praticar tais métodos ou controlar tal aparelho. INCORPORAÇÃO POR REFERÊNCIA [002] As seguintes publicações estão por meio disto incorporadas por referência, cada uma na sua totalidade.

[1] S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,”

IEEE Trans. Acoust., Speech. Signal Processing, vol. 27, pp. 113-120, Apr. 1979.

[2] Y. Ephraim, H. Lev-Ari and W. J. J. Roberts, “A brief survey of Speech Enhancement,” The Electronic Handbook, CRC Press, April 2005.

[3] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error short time spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109-1121, Dec. 1984.

[4] Thomas, I. and Niedeqohn, R., “Preprocessing of Speech for Added Intelligibility in High Ambient Noise”, 34th Audio Engineering Society Convention, March 1968.

[5] Villchur, E., “Signal Processing to Improve Speech Intelligibility for the Hearing Impaired”, 99th Audio Engineering Society Convention, September 1995.

[6] N. Virag, “Single channel speech enhancement based on masking properties of the human auditory system, IEEE Tran. Speech and Audio Processing, vol. 7, pp. 126-137, Mar. 1999.

[7] R. Martin, “Spectral subtraction based on minimum statistics,” in Proc.

EUSIPCO, 1994, pp. 1182-1185.

[8] P. J. Wolfe and S. J. Godsill, “Efficient alternatives to Ephraim and Malah suppression rule for audio signal enhancement,” EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043-1051,2003.

[9] B. Widrow and S. D. Steams, Adaptive Signal Processing. Englewood Cliffs, NJ: Prentice Hall, 1985.

Petição 870190114206, de 07/11/2019, pág. 5/28

2/17 [10] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error Log-spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443-445, Dec. 1985.

[11] E. Terhardt, “Calculating Virtual Pitch,” Hearing Research, pp. 155-182, 1, 1979.

[12] ISO/IEC JTC1/SC29/WG11, Information technology— Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s - Part3: Audio, IS 11172-3, 1992 [13] J. Johnston, “Transform coding of audio signals using perceptual noise criteria,” IEEE J. Select. Areas Comrnun., vol. 6, pp. 314-323, Feb. 1988.

[14] S. Gustafsson, P. Jax, P Vary,, “A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics,” Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1998. ICASSP '98.

[15] Yi Hu, and P. C. Loizou, “Incorporating a psychoacoustic model in frequency domain speech enhancement,” IEEE Signal Processing Letter, pp. 270 - 273, vol. 11, no. 2, Feb. 2004.

[16] L. Lin, W. H. Holmes, and E. Ambikairajah, “Speech denoising using perceptual modification of Wiener filtering,” Electronics Letter, pp 1486-1487, vol. 38, Nov, 2002.

[17] A.M. Kondoz, “Digital Speech: Coding for Low Bit Rate Communication Systems,”

John Wiley & Sons, Ltd., 2^nd Edition, 2004, Chichester, England, Chapter 10: Voice Activity Detection, pp. 357-377.

DESCRIÇÃO DA INVENÇÃO [003] De acordo com um primeiro aspecto da invenção, os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído são melhorados. Um sinal de áudio é mudado do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência. As sub-bandas do sinal de áudio são subsequentemente processadas. O processamento inclui controlar o ganho do sinal de áudio em umas das ditas sub-bandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que conduzem ou diferenças aditivas / subtrativas em ganho ou razões multiplicativas de ganho de modo a (1) reduzir o ganho em uma sub-banda conforme o nível de

Petição 870190114206, de 07/11/2019, pág. 6/28

3/17 componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda e (2) aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. Os processos cada um responde a sub-bandas do sinal de áudio e controlar o ganho independentemente um do outro para prover um sinal de áudio de sub-banda processado. O sinal de áudio de sub-banda processado é mudado do domínio de frequência para o domínio de tempo para prover um sinal de áudio no qual os componentes de fala são melhorados.

[004] Os processos podem incluir um processo de melhoramento de fala que responde a sub-bandas do sinal de áudio para reduzir o ganho em tais sub-bandas conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala em tais subbandas.

[005] Os processos podem incluir um processo de clareza de voz que responde a sub-bandas do sinal de áudio para aumentar o ganho em umas das sub-bandas quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. O aumento de ganho pode ser reduzido de acordo com a suavização de tempo quando de uma transição da presença de componentes de fala para componentes de fala não estando presentes.

[006] Os processos podem também incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente em um sinal de fala ruidoso o processo de clareza de voz também respondendo ao dito processo de detecção de atividade de voz.

[007] Quando os processos incluem um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de

Petição 870190114206, de 07/11/2019, pág. 7/28

4/17 voz pode também responder ao processo de detecção de atividade de voz.

[008] De acordo com outro aspecto da invenção, os componentes de fala de um sinal de áudio composto de componentes de fala e de ruído são melhorados. Um sinal de áudio é mudado do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência. As sub-bandas do sinal de áudio são subsequentemente processadas. O processamento inclui aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes em sub-bandas do sinal de áudio para prover um sinal de áudio de sub-banda processado. As sub-bandas do sinal de áudio de sub-banda processado são processadas, o processamento incluindo controlar o ganho do sinal de áudio de sub-banda processado em uma das ditas sub-bandas, em que o ganho em uma sub-banda é reduzido conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda para prover um sinal de áudio de sub-banda adicionalmente processado. O sinal de áudio de sub-banda adicionalmente processado é mudado do domínio de frequência para o domínio de tempo para prover um sinal de áudio no qual os componentes de fala estão melhorados.

[009] O processamento pode incluir um processo de melhoramento de fala que responde a sub-bandas processadas do sinal de áudio para reduzir o ganho em tais sub-bandas conforme o nível de componentes de ruído aumenta com relação ao nível de componentes de fala em tais sub-bandas.

[0010] O processamento adicional pode incluir um processo de clareza de voz que responde a sub-bandas do sinal de áudio para aumentar o ganho em umas das sub-bandas quando os componentes de fala estão presentes em sub-bandas do sinal de áudio. O aumento de ganho pode ser reduzido de acordo com a suavização de tempo quan

Petição 870190114206, de 07/11/2019, pág. 8/28

5/17 do de uma transição da presença de componentes de fala para componentes de fala não estando presentes.

[0011] O processamento e/ou o processamento adicional podem incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente em um sinal de fala ruidoso, o processo de clareza de voz também respondendo ao processo de detecção de atividade de voz.

[0012] O processamento e/ou o processamento adicional podem incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de voz também respondendo ao processo de detecção de atividade de voz.

[0013] O processamento pode incluir um processo de detecção de atividade de voz que responde a sub-bandas do sinal de áudio para determinar quando uma fala está presente no sinal de fala ruidoso, cada um dos ditos processos de melhoramento de fala e de clareza de voz também respondendo ao dito processo de detecção de atividade de voz.

DESCRIÇÃO DOS DESENHOS [0014] Figura 1 é um diagrama de blocos funcional que mostra uma modalidade exemplar da invenção.

[0015] Figura 2 é um diagrama de blocos funcional que mostra uma modalidade exemplar alternativa da invenção.

[0016] Figura 3 é um gráfico que mostra o valor de GVCk(m) como uma função de Ek(m)/Emax(m).

[0017] Figura 4 é um fluxograma relativo à modalidade exemplar da Figura 1.

[0018] Figura 5 é um fluxograma relativo à modalidade exemplar da Figura 2.

Petição 870190114206, de 07/11/2019, pág. 9/28

6/17

MELHOR MODO PARA EXECUTAR A INVENÇÃO [0019] A Figura 1 mostra uma modalidade exemplar de aspectos da presente invenção de acordo com uma primeira disposição funcional topológica. A entrada é gerada pela digitalização de um sinal de fala analógico que contém tanto fala limpa quanto ruído. Este sinal de áudio inalterado y(n) (Fala Ruidosa), onde n = 0, 1, .... é o índice de tempo, é então enviado para um dispositivo ou função de banco de filtros de análise (Bando de Filtros de Análise) 2, que produz K múltiplos sinais de sub-banda, Yk(m), k = 1, ..., K, m = 0, 1, ... », onde k é o número de sub-bandas, e m é o índice de tempo de cada sinal de subbanda. O Banco de Filtros de Análise 2 muda o sinal de áudio do domínio de tempo para uma pluralidade de sub-bandas no domínio de frequência.

[0020] Os sinais de sub-banda são aplicados a um dispositivo ou função de redução de ruído (Melhoramento de Fala) 4, um detector ou função de detecção de atividade de voz (VAD) 6, e um aperfeiçoador ou função de aperfeiçoamento de clareza de voz (Clareza de Voz) 8.

[0021] Em resposta aos sinais de sub-banda de entrada e, opcionalmente, em resposta ao VAD 6, o Melhoramento de Fala 4 controla um fator de escala de ganho GNRk(m) que escala a amplitude dos sinais de sub-banda. Tal aplicação de um fator de escala de ganho para um sinal de sub-banda está mostrado simbolicamente por um símbolo de multiplicador 10. Para clareza na apresentação, os números mostram os detalhes de geração e aplicação de um fator de escala de ganho a somente um de múltiplos sinais de sub-banda (k).

[0022] O valor de fator de escala de ganho GNRk(m) é controlado pelo Melhoramento de Fala 4 de modo que as sub-bandas que são dominadas por componentes de ruído (baixo sinal para ruído (SNR)) são fortemente suprimidas enquanto que aquelas dominadas por fala

Petição 870190114206, de 07/11/2019, pág. 10/28

UM (alta SNR) são preservadas. O valor de GNRk(m) diminui (supressão mais forte) em regiões de frequência (sub-bandas) nas quais a razão de sinal para ruído (SNR) diminui e vice-versa.

[0023] Em resposta aos sinais de sub-banda de entrada, o VAD 6 determina quando a fala está presente em um sinal de fala ruidoso y(n), provendo, por exemplo, uma saída de VAD=1 quando a fala está presente uma saída de VAD=0 quando a fala não está presente.

[0024] Em resposta aos sinais de sub-banda de entrada e em resposta ao VAD 6, a Clareza de Voz 8 controla um fator de escala de ganho GVC'k(m) que escala a amplitude dos sinais de sub-banda. Tal aplicação de um fator de escala de ganho a um sinal de sub-banda está mostrada simbolicamente por um símbolo de multiplicador 12. O valor de fator de escala de ganho GVC'k(m) é controlado pela Clareza de Voz 8 de modo a intensificar as sub-bandas importantes para a inteligibilidade de fala. A Clareza de Voz 8 é controlada pelo VAD 6 de modo que o fator de ganho GVC'k(m) provê a intensificação em pelo menos parte de um espectro de frequência de voz quando a voz está presente.

[0025] Como adicionalmente abaixo explicado, uma suavização pode ser aplicada para minimizar a introdução de artefatos audíveis quando a intensificação é desligada na ausência de fala.

[0026] Assim, os sinais de fala de sub-banda melhorados Yk(m) são providos pela aplicação de fatores de escala de ganho GNRk(m) e GVC'k(m) aos sinais de sub-banda de entrada não-melhorados Yk(m). Isto pode ser representado como y_t (m) = GNR_t (m)-GKC, (m) (1) [0027] O símbolo de ponto (·) indica multiplicação. Os fatores de escala de ganho GNRk(m) e GVC'k(m) podem ser aplicados aos sinais de sub-banda de entrada não-melhorados Yk(m) em qualquer ordem Petição 870190114206, de 07/11/2019, pág. 11/28

8/17 o Melhoramento de Voz 4 e a Clareza de Voz 8 são desacoplados um do outro e operam independentemente nos sinais de sub-banda.

[0028] Os sinais de sub-banda processados Yk(m) podem então ser convertidos para o domínio de tempo pela utilização de um dispositivo ou processo de banco de filtros de síntese (Banco de Filtros de Síntese) 14 que produz o sinal de fala melhorado y(n). O banco de filtros de síntese muda o sinal de áudio processado do domínio de frequência para o domínio de tempo. O fluxograma da Figura 4 mostra o processo subjacente à modalidade exemplar da Figura 1. A etapa final indica que o índice de tempo m é então avançado por 1 (m ^m+1) e o processo da Figura 4 é repetido.

[0029] Os dispositivos e processos de áudio de sub-banda podem utilizar as técnicas analógicas ou digitais, ou um híbrido das duas técnicas. Um banco de filtros de sub-banda pode ser implementado por um banco de filtros de passagem de banda digitais ou por um banco de filtros de passagem de banda analógicos. Para os filtros de passagem de banda digitais, o sinal de entrada é amostrado antes da filtragem. As amostras são passadas através de um banco de filtros digitais e então diminuídos em resolução para obter os sinais de sub-banda. Cada sinal de sub-banda compreende amostras as quais representam uma porção do espectro de sinal de entrada. Para os filtros de passagem de banda analógicos, o sinal de entrada é dividido em diversos sinais analógicos cada um com uma largura de banda que corresponde a uma largura de banda de filtro de passagem de banda de banco de filtros. Os sinais analógicos de sub-banda podem ser mantidos em forma analógica ou convertidos em forma digital por amostragem e quantização.

[0030] Os sinais de áudio de sub-banda podem também ser derivados utilizando um codificador de transformada que implementa qualquer uma de diversas transformadas de domínio de tempo para

Petição 870190114206, de 07/11/2019, pág. 12/28

9/17 domínio de frequência que funcione como um banco de filtros de passagem de banda digitais. O sinal de entrada amostrado é segmentado em blocos de amostras de sinal antes da filtragem. Um ou mais coeficientes de transformada adjacentes ou bins podem ser agrupados juntos para definir as sub-bandas que têm larguras de banda efetivas que são somas de larguras de banda de coeficientes de transformada individuais.

[0031] Apesar da invenção poder ser implementada utilizando técnicas analógicas ou digitais ou mesmo uma disposição híbrida de tais técnicas, a invenção é mais convenientemente implementada utilizando as técnicas digitais e as modalidades preferidas aqui descritas são implementações digitais. Assim, o Banco de Filtros de Análise 2 e o Banco de Filtros de Síntese 14 podem ser implementados por qualquer banco de filtros adequado e banco de filtros inverso ou transformada e transformada inversa, respectivamente.

[0032] A Figura 2 mostra uma modalidade exemplar da presente invenção de acordo com uma disposição funcional topológica alternativa. Os dispositivos e funções que correspondem àqueles na Figura 2 empregam os mesmos números de referência.

[0033] A Figura 2 difere da Figura 1 pelo fato de que o Melhoramento de Fala 4 e a Clareza de Voz 8 não estão desacoplados um do outro e não operam independentemente sobre os sinais de sub-banda. Os sinais de sub-banda são aplicados primeiro à Clareza de Voz 8 ao VAD 6. O fator de escala de ganho de Clareza de Voz GVC'k(m) é aplicado ao multiplicador 12. Como na topologia da Figura 1, a Clareza de Voz 8 é controlada pelo VAD 6 de modo que o fator de ganho GVC'k(m) seletivamente provenha uma intensificação quando a fala está presente. Ao contrário da topologia da Figura 1, o Melhoramento de Fala 4 recebe e opera sobre os sinais de sub-banda processados por Clareza de Voz Yk(m)= GVC'k(m)*Yk(m) na saída do multiplicador

Petição 870190114206, de 07/11/2019, pág. 13/28

10/17 ao invés de sobre os sinais de sub-banda não-melhorados Yk(m). Isto pode ser representado como:

(2) [0034] O símbolo de ponto (·) indica multiplicação.

[0035] Ambas as topologias da Figura 1 e da Figura 2 permitem a utilização de supressão de ruído e melhoramento de fala de intensificação de sinal sem a intensificação de sinal desfazer a supressão de ruído.

[0036] Apesar dos fatores de escala de ganho serem mostrados controlando as amplitudes de sub-banda multiplicativamente nas Figuras 1 e 2, será aparente para aqueles versados na técnica que disposições aditivas / subtrativas equivalentes podem ser empregadas. [0037] O fluxograma da Figura 5 mostra o processo subjacente à modalidade exemplar da Figura 2. Como no fluxograma da Figura 4, a etapa final indica que o índice de tempo m é então avançado por 1 (m +m+1) e o processo da Figura 5 é repetido.

MELHORAMENTO DE FALA 4 [0038] Vários dispositivos e funções de melhoramento espectral podem ser úteis na implementação de Melhoramento de Fala 4 em modalidades práticas da presente invenção. Entre tais dispositivos e funções de melhoramento espectral estão aqueles que empregam os estimadores de nível de ruído baseados em VAD e aqueles que empregam os estimadores de nível de ruído estatisticamente baseados. Tais dispositivos e funções de melhoramento espectral podem incluir aqueles descritos nas referências 1, 2, 3, 6 e 7, acima listados e nos quatro Pedidos de Patente Provisória dos Estados Unidos seguintes:

(1) Estimador de Variância de Ruído Para Melhoramento de Fala, de Rongshan Yu, S.N. 60/918.964, depositado em 19 de Março de 2007;

Petição 870190114206, de 07/11/2019, pág. 14/28

11/17 (2) Melhoramento de Fala Empregando Um Modelo Perceptual, de Rongshan Yu, S.N. 60/918.986, depositado em 19 de Março de 2007; e (3) Melhoramento de Fala Com Ajuste de Estimativa de Nível de Ruído, de Rongshan Yu, S.N. 60/993.548, depositado em 12 de Setembro de 2007.

(4) Melhoramento de Fala, de C.Philip Brown, S.N. 60/993.601, depositado em 12 de Setembro de 2007.

[0039] O fator de ganho de melhoramento de fala GNRk(m) pode ser referido como um ganho de supressão porque o seu propósito é suprimir o ruído. Um modo de controlar o ganho de supressão é conhecido como subtração espectral (referências [1], [2] e [7]), na qual o ganho de supressão GNRk(m) aplicado ao sinal de sub-banda Yk(m) pode ser expresso como

GNR_k (m) =

(3) [0040] onde |Yk(m)| é amplitude do sinal de sub-banda Yk(m), Àk(m) é a energia de ruído na sub-banda k, e a > 1 é um fator de sobressubtração escolhido para assegurar que um ganho de supressão suficiente é aplicado. Sobressubtração é adicionalmente explicado na referência [7] na página 2 e na referência [6] na página 127.

[0041] De modo a determinar as quantidades apropriadas de ganhos de supressão, é importante ter uma estimativa precisa da energia de ruído para as sub-bandas no sinal que entra. No entanto, esta não é uma tarefa trivial a fazer quando o sinal de ruído está misturado juntamente com o sinal de fala no sinal que entra. Um modo para resolver este problema é utilizar um estimador de nível de ruído baseado em detecção de atividade de voz que utilizas um detector de atividade de voz (VAD) independente para determinar se um sinal de fala está prePetição 870190114206, de 07/11/2019, pág. 15/28

12/17 sente no sinal que entra ou não. A energia de ruído é atualizada durante o período quando a fala não está presente (VAD=0). Ver, por exemplo, a referência [3], Em tal estimador de ruído, a estimativa de energia de ruído Àk(m) para o tempo m pode ser dada por

VAD=0;

VAD=1.

(4) [0042] O valor inicial da estimativa de energia de ruído Àk(-1) pode ser ajustado para zero, ou ajustado para a energia de ruído medida durante o estágio de inicialização do processo. O parâmetro β é um fator de suavização que tem um valor 0 « β < 1. Quando a voz não está presente (VAD=0), a estimativa da energia de ruído pode ser obtida executando uma operação de suavizador de tempo de primeira ordem (algumas vezes denominado um integrador vazador) na potência do sinal de entrada Yk(m). O fator de suavização β pode ser um valor positivo que é ligeiramente menor do que um. Usualmente, para um sinal de entrada estacionário um valor de β mais próximo de um levará a uma estimativa mais precisa. Por outro lado, o valor de β não deve ser muito próximo de um para evitar perder a capacidade de rastrear as mudanças na energia de ruído quando a entrada torna-se nãoestacionária. Em modalidades práticas da presente invenção, um valor de β = 0,98 foi descoberto prover resultados satisfatórios. No entanto, este valor não é crítico. É também possível estimar a energia de ruído utilizando um suavizador de tempo mais complexo que pode ser nãolinear ou linear (tal como um filtro de passagem baixa de múltiplos polos).

[0043] O período de tempo de cada m, como em qualquer sistema digital, é decidido pela taxa de amostragem da sub-banda. Assim este pode variar dependendo da taxa de amostragem do sinal de entrada, e do banco de filtros utilizado. Em uma implementação prática, o período

Petição 870190114206, de 07/11/2019, pág. 16/28

13/17 de tempo para cada m é 1(s) / 8000*32 = 4 ms com um sinal de fala de 8 kHz e um banco de filtros com um fator de diminuição de resolução de 32.

DETECTOR DE ATIVIDADE DE VOZ (VAD) 6 [0044] Muitos detectores e funções de detector de atividade de voz são conhecidos. Tais dispositivos ou funções adequados estão descritos no Capítulo 10 da referência [17] e na sua bibliografia. A utilização de qualquer detector de atividade de voz específico não é crítica para a invenção.

CLAREZA DE VOZ 8 [0045] Vários dispositivos e funções de clareza de voz podem ser úteis na implementação de Clareza de Voz 8 em modalidades práticas da presente invenção.

[0046] A fala consiste em um número de diferentes sugestões que são utilizadas na percepção. Conforme o ar é expelido dos pulmões, as cordas vocais vibram. Conforme o ar escapa, a laringe, a boca e o nariz modificam a energia acústica para produzir uma variedade de sons. As vogais têm regiões de forte energia harmônica, e são geradas com um fluxo de ar desimpedido. As consoantes que incluem as aproximantes, as fricativas e as paradas são geradas por um fluxo de ar crescentemente restritivo, e tem um conteúdo de frequência mais alto (mas energia mais fraca) do que as vogais. Há muito tem sido conhecido que as consoantes da fala contribuem grandemente para a inteligibilidade; e as vogais, apesar destas usualmente terem energias mais fortes, contribuem relativamente pouco. Com base neste fato, os dispositivos e funções de clareza de voz usualmente utilizam um filtro equalizador, de passagem alta que sobe regularmente, ou um filtro de passagem alta tal como na referência [4] para intensificar as faixas de frequência onde as fracas consoantes residem, usualmente as frequências mais altas, da fala de modo a aperfeiçoar a inteligibilidade.

Petição 870190114206, de 07/11/2019, pág. 17/28

14/17

Tecnologias similares têm também sido utilizadas nos aplicativos de aparelhos auditivos para os ouvintes de audição prejudicada que têm dificuldade para perceber os componentes de alta frequências do sinal de fala como na referência [5], Uma proposta de nivelamento espectral tal como aquela abaixo descrita e em um Pedido de Patente Provisória dos Estados Unidos de C.Philip Brown, S.N. 60/993.601, depositado em 12 de Setembro de 2007. Os fatores de escala de ganho de clareza de voz aumentam os níveis dos componentes relativamente fracos no sinal de fala de modo que estes sejam melhor percebidos por ouvintes humanos. A escolha de qualquer dispositivo ou função de clareza de voz específico não é crítica para a presente invenção.

[0047] O ganho de clareza de voz GVCk(m) pode ser produzido por um processo ou dispositivo de clareza de voz como segue:

KGVC'_k (w-!) + (!-*·)

VAD = \

VAD = 0' (5) [0048] GVCk(m) é o ganho de clareza de voz quando a entrada é a fala, e 0 < k < 1 é um fator de suavização. O valor de k controla a velocidade do ganho de clareza de voz, reduzindo para um (sem intensificação) durante uma pausa na fala. O seu melhor valor pode ser ajustado através de experimentos. Em uma modalidade prática da presente invenção, um valor de k = 0,9 foi descoberto prover bons resultados. No entanto, este valor não é crítico. Assim o processo de clareza de voz aumenta o ganho quando os componentes de fala estão presentes, o ganho reduzindo de acordo com a suavização de tempo quando de uma transição da presença de componentes de fala para os componentes de fala não estando presentes.

[0049] O propósito de ter os fatores de ganho GVCk(m) é de intensificar os níveis de regiões de frequência selecionadas com relação a outras de modo que a inteligibilidade do sinal de fala seja aperfeiçoada. Em uma implementação útil desta invenção, o GVCk(m) pode ser

Petição 870190114206, de 07/11/2019, pág. 18/28

15/17 calculado como o menor de Gmax ou uma razão escalada da energia na sub-banda que tem a energia mais alta para a energia em cada uma das outras sub-bandas;

GVC_t (w) = min

(6) onde

A (m) = aE_k (m) + (1 - α)|^ (m)f, (7) (8) [0050] 0 < γ < 1 é um fator de escalagem pré-selecionado, 0 « α < 1 é um fator de suavização, e Gmax é um ganho máximo préselecionado. O valor inicial Ek(-1) pode ser ajustado para zero. O valor de γ decide a razão da energia dos componentes fracos para aquela dos componentes fortes na fala após o processamento. Por exemplo, se γ = 0,5, não importa quanto a energia de sub-banda Ek(m) está abaixo de Emax(m), esta é intensificada pela metade de sua diferença - em efeito atuando como um compressor 2-1 para a sub-banda. O valor de Gmax controla a quantidade máxima permissível de intensificação do algoritmo de clareza de voz. Os valores de γ e Gmax controlar a agressividade do processo de clareza de voz já que estes juntamente decidem a quantidade da intensificação dos componentes fracos na fala. Os seus valores ótimos variam de acordo com as características do sinal sob processamento, o ambiente acústico da aplicação-alvo, e as preferências do usuário. Ao invés de ser intensificada na direção de uma magnitude fixa, a intensificação pode, alternativamente, ser na direção de uma magnitude dependente de frequência, tal como uma definida por uma resposta que sobe regularmente de passagem alta.

[0051] Como um exemplo, a Figura 3 mostra o valor de GVCk(m) como uma função de Ek(m)/Emax(m). Neste exemplo, γ = 1 e Gmax =

Petição 870190114206, de 07/11/2019, pág. 19/28

16/17 dB. Como com relação aos fatores de suavização acima mencionados, o fator de suavização α pode ser implementado por um suavizador de tempo de primeira ordem tal como filtro de passagem baixa de polo único (algumas vezes denominado um integrador vazador) ou um suavizador de tempo mais complexo que pode ser não-linear ou linear (tal como um filtro de passagem baixa de múltiplos polos). IMPLEMENTAÇÃO [0052] A invenção pode ser implementada em hardware ou software, ou uma combinação de ambos (por exemplo, redes lógicas programáveis). A menos que de outro modo especificado, os processos incluídos como parte da invenção não estão inerentemente relacionados a nenhum computador ou outro aparelho específico. Especificamente, várias máquinas de uso geral podem ser utilizadas com os programas escritos de acordo com os ensinamentos aqui, ou pode ser mais conveniente construir um aparelho mais especializado (por exemplo, circuitos integrados) para executar as etapas de método requeridas. Assim, a invenção pode ser implementada em um ou mais programas de computador que executam em um ou mais sistemas de computador programáveis cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (que inclui elementos de memória e/ou armazenamento voláteis e nãovoláteis), pelo menos um dispositivo ou porta de entrada, e pelo menos um dispositivo ou porta de saída. Um código de programa é aplicado aos dados de entrada para executar as funções aqui descritas e gerar as informações de saída. As informações de saídas são aplicadas a um ou mais dispositivos de saída, em um modo conhecido.

[0053] Cada tal programa pode ser implementado em qualquer linguagem de computador desejada (incluindo linguagens de máquina, conjunto, ou procedural de alto nível, lógica ou de programação orientada em objeto) para comunicar com um sistema de computador. Em

Petição 870190114206, de 07/11/2019, pág. 20/28

17/17 qualquer caso, a linguagem pode ser uma linguagem compilada ou interpretada.

[0054] Será apreciado que vários dispositivos, funções e processos mostrados e descritos aqui em vários exemplos podem ser mostrados combinados ou separados em outros meios que como aqui mostrados nas figuras. Por exemplo, quando implementadas por sequências de instrução de software de computador, as funções podem ser implementadas por sequências de instrução de software de múltiplas cadeias que executam em um hardware de processamento de sinal digital adequado, em cujo caso os vários dispositivos e funções nos exemplos mostrados nas figuras podem corresponder a porções das instruções de software.

[0055] Cada tal programa de computador é de preferência armazenado ou baixado para uma mídia ou dispositivo de armazenamento (por exemplo, uma memória ou mídia de estado sólido, ou uma mídia magnética ou ótica) legível por um computador programável de uso geral ou especial, para configurar e operar o computador quando a mídia ou o dispositivo de armazenamento é lido pelo sistema de computador para executar os procedimentos aqui descritos. O sistema inventivo pode também ser considerado ser implementado como um meio de armazenamento legível por computador, configurado com um programa de computador, onde o meio de armazenamento assim configurado faz com que o sistema de computador opere em um modo específico e predefinido para executar as funções aqui descritas.

Claims

REIVINDICAÇÕES

1. Método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído, caracterizado pelo fato de que compreende as etapas de:

alterar o sinal de áudio a partir do domínio do tempo para uma pluralidade de sub-bandas no domínio da frequência, produzindo K múltiplos sinais de sub-banda, Yk(m), k=1,...K, m=0, 1,...,*, onde k é o número de sub-banda e m é o índice de tempo para cada sinal de sub-banda, processar as sub-bandas do sinal de áudio, o processamento incluindo aumentar o ganho em uma sub-banda quando componentes de fala estão presentes na sub-banda do sinal de áudio para proporcionar um sinal de áudio de sub-banda processado, o aumento de ganho sendo reduzido conforme a suavização no tempo mediante uma transição a partir da presença de componentes de fala para componentes de fala não presentes, processar sub-bandas do sinal de áudio de sub-banda processado, o processamento de sub-bandas do sinal de áudio de subbanda processado incluindo controlar o ganho do sinal de áudio de sub-banda processado em umas das sub-bandas, em que o ganho em uma sub-banda é reduzido a medida que uma estimativa do nível de componentes de ruído aumenta com relação ao nível de componentes de fala na sub-banda para proporcionar um outro sinal de áudio de sub-banda processado, em que a estimativa do nível de componentes de ruído na sub-banda é determinada quando a fala não está presente, em que ambos os primeiro e segundo processamentos são executados de acordo com um conjunto de parâmetros continuamente atualizados para cada índice de tempo m, os parâmetros sendo dependentes somente dos seus respectivos valores anteriores em um

Petição 870190114206, de 07/11/2019, pág. 22/28
2/3 índice de tempo (m-1), características da sub-banda no índice de tempo m, e um conjunto de constantes predeterminadas, e alterar o outro sinal de áudio processado a partir do domínio da frequência para o domínio do tempo para proporcionar um sinal de áudio no qual componentes de fala são aprimorados.

2. Aparelho caracterizado pelo fato de que é adaptado para realizar o método conforme definido na reivindicação 1.
3. Método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído, caracterizado pelo fato de que compreende:

alterar o sinal de áudio a partir do domínio de tempo para uma pluralidade de sub-bandas no domínio da frequência produzindo K múltiplos sinais de sub-banda, Yk(m), k=1,...,K, m=0, 1,...,*, onde k é o número de sub-banda e m é o índice de tempo de cada sinal de subbanda, processar as sub-bandas do sinal de áudio, o processamento incluindo controlar o ganho do sinal de áudio em umas das subbandas, em que o ganho em uma sub-banda é controlado pelo menos por processos que transmitem diferenças aditivas/subtrativas de ganho ou razões multiplicativas de ganho, de modo a:

a) reduzir o ganho em uma sub-banda como uma estimativa do nível de componentes de ruído nos aumentos da sub-banda, em que a estimativa do nível de componentes de ruído na sub-banda é determinada quando a fala não está presente, e

b) aumentar o ganho em uma sub-banda quando os componentes de fala estão presentes na sub-banda do sinal de áudio, o aumento de ganho GVCk(m) sendo calculado como o menor de Gmax ou uma razão escalada entre a energia na sub-banda tendo a maior energia e a energia em cada uma das outras sub-bandas, conforme a seguir: