BRPI0611649A2

BRPI0611649A2 - fala multi-sensorial usando fala limpa anterior

Info

Publication number: BRPI0611649A2
Application number: BRPI0611649-3A
Authority: BR
Inventors: Zicheng Liu; Alejandro Acero; Zhengyou Zhang
Original assignee: Microsoft Corp
Priority date: 2005-06-20
Filing date: 2006-06-06
Publication date: 2010-09-28
Also published as: WO2007001768A3; DE602006015954D1; KR20080018163A; RU2407074C2; EP1891627A4; BRPI0611649B1; WO2007001768A2; CA2607981A1; RU2007147463A; US7346504B2; JP2008544328A; NO20075732L; EP1891627A2; CN101199006B; EP1891627B1; CA2607981C; AU2006262706B2; ATE476734T1; KR101422844B1; MX2007014562A

Abstract

FALA MULTI-SENSORIAL USANDO FALA LIMPA ANTERIOR. Trata-se de um método e aparelho para determinar uma resposta de canal para um sensor alternativo usando um sinal do sensor alternativo e um sinal do microfone de condução aérea. Em seguida, a resposta de canal e uma distribuição de probabilidade anterior para valores de fala limpa são usadas para estimar um valor de fala limpa.

Description

"FALA MULTI-SENSORIAL USANDO FALA LIMPA ANTERIOR"

ANTECEDENTES DA INVENÇÃO

Um problema comum, tanto no reconhecimento de falaquanto na transmissão de fala, é o corrompimento do sinal de falapor ruídos aditivos. Em particular, demonstrou-se ser difícila detecção e/ou a correção do corrompimento provocado pela falade outro falante.

Recentemente, foi desenvolvido um sistema que tentaremover o ruído usando uma combinação de um sensor alternativo,tal como um microfone de condução óssea e um microfone decondução aérea. Esse sistema é treinado usando três canais detreinamento: um sinal ruidoso de treinamento de sensor al-ternativo, um sinal ruidoso de treinamento de microfone decondução aérea e um sinal limpo de treinamento de microfone decondução aérea. Cada um dos sinais é convertido em um domíniode características. As características para o sinal ruidoso desensor alternativo e o sinal ruidoso de microfone de conduçãoaérea são combinadas em um vetor único representando um sinalruidoso. As características para o sinal limpo de microfone decondução aérea formam um vetor limpo único. Esses vetores sãoentão usados para treinar um mapeamento entre os vetoresruidosos e os vetores limpos. Uma vez treinados, os mapeamentossão aplicados a um vetor ruidoso formado de uma combinação deum sinal ruidoso de teste de sensor alternativo e de um sinalruidoso de teste de microfone de condução aérea. Esse mapeamentoproduz um vetor de sinal limpo.

Esse sistema está muito abaixo do ideal quando ascondições de ruído dos sinais de teste não correspondem àscondições de ruído dos sinais de treinamento, pois os mape-amentos são projetados para as condições de ruído dos sinais detreinamento.

SUMÁRIO DA INVENÇÃO

Um método e aparelho determinam uma resposta de canalpara um sensor alternativo usando um sinal de sensor alternativoe um sinal de microfone de condução aérea. Em seguida, a respostade canal e uma distribuição de probabilidade anterior paravalores de fala limpa são usadas para estimar um valor de falalimpa.

BREVE DESCRIÇÃO DOS DESENHOS

A FIG. 1 é um diagrama de blocos de um ambiente decomputação em que as concretizações da presente invenção podemser praticadas.

A FIG. 2 é um diagrama de blocos de um ambiente decomputação alternativo em que as concretizações da presenteinvenção podem ser praticadas.

A FIG. 3 é um diagrama de blocos de um sistema geralde processamento de fala de uma concretização da presenteinvenção.

A FIG. 4 é um diagrama de blocos de um sistema paraaperfeiçoar a fala de acordo com uma concretização da presenteinvenção.

A FIG. 5 é um diagrama de fluxo de dados para a-perfeiçoar a fala de acordo com uma concretização da presenteinvenção.

A FIG. 6 é um diagrama de fluxo de dados para a-perfeiçoar a fala de acordo com outra concretização da presenteinvenção.

DESCRIÇÃO DETALHADA DAS CONCRETIZAÇÕES ILUSTRATIVAS

A FIG. 1 ilustra um exemplo de um ambiente de sistemade computação adequado 100 em que a invenção pode ser im-plementada. O ambiente de sistema de computação 100 é apenas umexemplo de um ambiente de computação adequado e não tem aintenção de implicar em qualquer limitação ao âmbito de uso ouà funcionalidade da invenção. Tampouco se deve interpretar oambiente de computação 100 como tendo qualquer dependência ouexigência com relação a qualquer um dos componentes ilustrados,ou combinação desses, no ambiente operacional exemplificativo 100.

A invenção é operacional com vários ambientes ouconfigurações diferentes de sistema de computação de uso geralou especifico. Exemplos de sistemas, ambientes e/ou confi-gurações de computação bem conhecidos que podem ser adequadospara uso com a invenção incluem, sem a isto se restringir,computadores pessoais, computadores servidores, dispositivosportáteis ou laptop, sistemas multiprocessadores, sistemasbaseados em microprocessador, decodificadores de sinais,componentes eletrônicos programados pelo consumidor, PCs derede, microcomputadores, computadores de grande porte, sistemasde telefonia, ambientes de computação distribuída que incluemqualquer um dos sistemas ou dispositivos acima, entre outros.

A invenção pode ser descrita no contexto geral deinstruções executadas por computador, tais como módulos deprograma sendo executados por um computador. Geralmente, osmódulos de programa incluem rotinas, programas, objetos,estruturas de dados etc., que efetuam tarefas especificas ouimplementam tipos de dados abstratos específicos. A invenção éprojetada para ser praticada em ambientes de computaçãodistribuída, nos quais as tarefas são efetuadas por dispositivosde processamento remoto ligados por meio de uma rede de co-municações. Em um ambiente de computação distribuída, os módulosde programa estão localizados tanto em meios de armazenamentode computador remotos quanto locais, incluindo dispositivos dearmazenamento em memória.

Com referência à FIG. 1, um sistema exemplificativopara implementação de concretizações da invenção inclui umdispositivo de computação de uso geral na forma de um computador110. Os componentes do computador 110 podem incluir, sem a istose restringir, uma unidade de processamento 120, uma memória desistema 130 e um barramento de sistema 121 que acopla várioscomponentes do sistema, incluindo a memória do sistema à unidadede processamento 120. O barramento de sistema 121 pode possuirqualquer um dos diferentes tipos de estrutura de barramento,incluindo um barramento de memória ou controlador de memória,um barramento periférico e um barramento local usando qualqueruma das diferentes arquiteturas de barramento. A título e-xemplificativo, sem limitação, tais arquiteturas incluembarramento da Arquitetura Padrão da Indústria (ISA), barramentoda Arquitetura de Microcanal (MCA), barramento ISA Aperfeiçoada(EISA), barramento local da Associação de Padrões Eletrônicosde Vídeo (VESA) e barramento de Interconexão de ComponentesPeriféricos (PCI), também chamado de barramento Mezanino.

O computador 110 geralmente inclui uma variedade demeios legíveis por computador. Meios legíveis por computadorpodem ser qualquer meio disponível que pode ser acessado porcomputador 110 e que inclui tanto meios voláteis e não-voláteisquanto meios removíveis e não-removíveis. A título exempli-ficativo, sem limitação, meios legíveis por computador podemcompreender meios de armazenamento e meios de comunicação decomputador. Os meios de armazenamento de computador incluemtanto meios voláteis e não-voláteis, quanto removíveis enão-removíveis implementados em qualquer método ou tecnologiapara armazenamento de informações, tais como instruções le-gíveis por computador, estruturas de dados, módulos de programaou outros dados. Os meios de armazenamento incluem, sem a istose restringir, RAM, ROM, KE PROM, memória flash ou outratecnologia de memória, CD-ROM, discos versáteis digitais (DVD)ou outro armazenamento em disco óptico, cassetes magnéticos,fita magnética, armazenamento em disco magnético ou outrosdispositivos de armazenamento magnético, ou qualquer outro meioque possa ser usado para armazenar as informações desejadas eque possa ser acessado pelo computador 110. Os meios de co-municação geralmente abrangem instruções legíveis por com-putador, estruturas de dados, módulos de programa ou outrosdados em um sinal de dados modulado tal como uma onda portadoraou outro mecanismo de transporte, e incluem quaisquer meios dedistribuição de informações. O termo "sinal de dados modulados"significa um sinal que uma ou mais de suas característicasajustadas ou alteradas de tal maneira a codificar as informaçõesno sinal. A título exemplificativo, e sem limitação, os meiosde comunicação incluem meios com fio, tal como uma rede com fioou conexão direta com fio, e meios sem fio, tal como acústico,RF, infravermelho e outros meios sem fio. Combinações dequalquer um dos elementos anteriores também deverão ser in-cluídas no âmbito de meios legíveis por computador.

A memória de sistema 130 inclui meios de armazenamentode computador na forma de memória volátil e/ou não-volátil, talcomo memória somente para leitura (ROM) 131 e memória de acessoaleatório (RAM) 132. Um sistema básico de entrada/saída 133(BIOS), contendo as rotinas básicas para ajudar a transferirinformações entre os elementos dentro do computador 110, talcomo durante a inicialização, é geralmente armazenado na ROM 131A RAM 132 geralmente contém dados e/ou módulos de programa quepodem ser acessados a qualquer momento e/ou que estão sendooperados pela unidade de processamento 120. A título exem-plificativo, e sem limitação, a FIG. 1 ilustra o sistemaoperacional 134, programas aplicativos 135, outros módulos deprograma 136, e dados de programa 137.

0 computador 110 também inclui outros meios dearmazenamento de computador removíveis/não-removíveis e vo-láteis/não-voláteis . Atitulomeramente exemplificativo, a FIG.1 ilustra uma unidade de disco rígido 141 que lê ou grava em meiosmagnéticos não-removíveis e não-voláteis, uma unidade de discomagnético 151 que lê ou grava em um disco magnético removívele não-volátil 152, e uma unidade de disco óptica 155 que lê ouescreve em um disco óptico removível e não-volátil 156, tal comoum CD-ROM ou outros meios ópticos. Outros meios de armazenamentode computador removíveis/não-removíveis e volá-teis/não-voláteis que podem ser usados no ambiente operacionalexemplificativo incluem, mas sem a isto se restringir, cassetesde fita magnética, cartões de memória flash, discos versáteisdigitais, fitas de vídeo digital, RAM de estado sólido, ROM deestado sólido, entre outros. A unidade de disco rígido 141 égeralmente conectada ao barramento do sistema 121 por meio deuma interface de memória não-removível, tal como a interface 140,e a unidade de disco magnético 151 e a unidade de disco óptico155 são geralmente conectadas ao barramento de sistema 121 poruma interface de memória removível, tal como a interface 150.

As unidades e seus meios de armazenamento de com-putador associados, discutidos acima na FIG. 1, fornecem oarmazenamento de instruções legíveis por computador, estruturasde dados, módulos de programa e outros dados para o computador110. Na FIG. 1, por exemplo, a unidade de disco rígido 141 éilustrada armazenando o sistema operacional 144, os programasaplicativos 145, outros módulos de programa 146, e dados deprograma 147. Observe que esses componentes podem ou ser osmesmos ou ser diferentes do sistema operacional 134, dosprogramas aplicativos 135, dos outros módulos de programa 136,e dos dados de programa 137. O sistema operacional 144, osprogramas aplicativos 145, os outros módulos de programa 146,e os dados de programa 147 recebem números diferentes nestedocumento para mostrar que se tratam, no mínimo, de cópiasdiferentes.

Um usuário pode entrar com comandos e informações nocomputador 110 por meio de dispositivos de entrada, tal como umteclado 162, um microfone 163 e um dispositivo de apontamento161, tal como um mouse, trackball ou superfície de toque. Outrosdispositivos de entrada (não ilustrados) podem incluir umjoystick, controle de jogo, antena de satélite, scanner, entreoutros. Esses e outros dispositivos de entrada são geralmenteconectados à unidade de processamento 120 por meio de umainterface de entrada do usuário 160 que é acoplada ao barramentodo sistema, mas que pode ser conectada por outra interface eestruturas de barramento, tal como uma porta paralela, porta dejogo ou um barramento serial universal (USB). Um monitor 191,ou outro tipo de dispositivo de exibição, também é conectado aobarramento de sistema 121 por meio de uma interface, tal comouma interface de video 190. Além do monitor, os computadorestambém podem incluir outros periféricos de saida, tais comoalto-falantes 197 e impressora 196, que podem ser conectados pormeio de uma interface periférica de saida 195.

0 computador 110 opera em um ambiente em rede usandoconexões lógicas com um ou mais computadores remotos, tal comoo computador remoto 180. 0 computador remoto 180 pode ser umcomputador pessoal, um dispositivo portátil, um servidor, umroteador, um PC de rede, um dispositivo não hierarquizado ououtro nó comum da rede, e geralmente inclui muitos ou todos oselementos supramencionados com relação ao computador 110. Asconexões lógicas ilustradas na FIG. 1 incluem uma rede local (LAN)171 e uma rede de longa distância (WAN) 173, mas também podeincluir outras redes. Tais ambientes de rede são comuns emescritórios, redes de computador a nivel empresarial, intranetse a Internet.

Quando usado em um ambiente em rede LAN, o computador110 é conectado à LAN 171 por meio de uma interface de rede ouadaptador 170. Quando usado em um ambiente em rede WAN, ocomputador 110 geralmente inclui um modem 172 ou outros meiospara estabelecer comunicações pela WAN 173, tal como a Internet.O modem 172, que pode ser interno ou externo, pode ser conectadoao barramento do sistema 121 por meio da interface de entradado usuário 160, ou por outro mecanismo apropriado. Em umambiente em rede, os módulos de programa representados comrelação ao computador 110, ou partes deles, podem ser arma-zenados no dispositivo de armazenamento em memória remoto. Atitulo exemplificativo, e sem limitação, a FIG. 1 ilustraprogramas aplicativos remotos 185 residindo no computadorremoto 180. Será apreciado que as conexões de rede ilustradassão exemplificativas e que outros meios para estabelecer umaligação de comunicações entre os computadores podem ser usados.

A FIG. 2 é um diagrama de blocos de um dispositivomóvel 200, que é um exemplo de um ambiente de computação. 0dispositivo móvel 200 inclui um microprocessador 202, memória204, componentes de entrada/saida (E/S) 206 e uma interface decomunicação 208 para prover a comunicação com computadoresremotos ou outros dispositivos móveis. Em uma concretização, oscomponentes mencionados adiante estão acoplados para se co-municarem por meio de um barramento adequado 210.

A memória 204 é implementada como memória eletrônicanão-volátil, tal como memória de acesso aleatório (RAM) com ummódulo de bateria de segurança (não ilustrado), de modo que asinformações armazenadas na memória 204 não sejam perdidas quandoa alimentação geral do dispositivo móvel 200 for interrompida.Uma parte da memória 204 é, de preferência, alocada como memóriaendereçável para execução de programas, ao passo que outra parteda memória 204 é, de preferência, usada para armazenamento, demodo a simular o armazenamento em uma unidade de disco.

A Memória 204 inclui um sistema operacional 212,programas aplicativos 214, bem como um armazenamento de objetos216 Enquanto operante, o sistema operacional 212 é, de pre-ferência, executado pelo processador 202 da memória 204. 0sistema operacional 212, em uma concretização preferida, é osistema operacional da marca WINDOWS® CE, disponível paracomercialização pela Microsoft Corporation. O sistema ope-racional 212 é, de preferência, projetado para dispositivosmóveis, e aperfeiçoa características de banco de dados que podemser utilizadas pelos aplicativos 214 por meio de um conjunto deinterfaces e métodos expostos para programação de aplicativos.

Os objetos no armazenamento de objetos 216 são mantidos pelosaplicativos 214 e pelo sistema operacional 212, ao menosparcialmente em resposta às chamadas às interfaces e métodosexpostos para programação de aplicativos.

A interface de comunicação 208 representa váriosdispositivos e tecnologias que permitem ao dispositivo móvel 200enviar e receber informações. Os dispositivos incluem, paracitar alguns, modens com fio e sem fio, receptores de satélitee sintonizadores de difusão. 0 dispositivo móvel 200 pode tambémser conectado diretamente a um computador para trocar dados comele. Em tais casos, a interface de comunicação 208 pode ser umtransceptor de infravermelho ou uma conexão de comunicaçãoserial ou paralela, todos os quais são capazes de transmitirinformações de fluxo contínuo.Os componentes de entrada/saída 206 incluem váriosdispositivos de entrada, tal como uma tela sensível ao toque,botões, botões de rolagem e um microfone, bem como váriosdispositivos de saída, incluindo um gerador de áudio, umdispositivo de vibração, e um meio de exibição. Os dispositivoslistados acima são meramente exemplificativos e nem todosprecisam estar presentes no dispositivo móvel 200. Além disso,outros dispositivos de entrada/saída podem ser ligados a ouincluídos no dispositivo móvel 200 dentro do âmbito da presenteinvenção.

A FIG. 3 ilustra um diagrama de bloco básico deconcretizações da presente invenção. Na FIG. 3, um falante 300gera um sinal de fala 302 (X) que é detectado por um microfonede condução aérea 304 e um sensor alternativo 306. Exemplos desensores alternativos incluem um microfone de garganta, que medeas vibrações da garganta do usuário, um sensor de condução ósseo,localizado no ou adjacente ao osso facial ou da cabeça do usuário(tal como o osso maxilar) ou na orelha do usuário e que detectaas vibrações da cabeça e do maxilar que correspondem à falagerada pelo usuário. O microfone de condução aérea 304 é o tipode microfone que é usado geralmente para converter ondas aéreasde som em sinais elétricos.

O microfone de condução aérea 304 também recebe ruídoambiente 308 (Z) gerado por uma ou mais fontes de ruído 310.Dependendo do tipo de ruído ambiente e da altura do ruídoambiente, o ruído ambiente 308 também pode ser detectado pelosensor alternativo 306. Entretanto, de acordo com as con-cretizações da presente invenção, o sensor alternativo 306 énormalmente menos sensível ao ruído ambiente do que o microfonede condução aérea 304. Portanto, o sinal do sensor alternativo316 (B), gerado pelo sensor alternativo 306, inclui, em geral,menos ruído do que o sinal do microfone de condução aérea 318(Y), gerado pelo microfone de condução aérea 304. Embora o sensoralternativo 306 seja menos sensível ao ruído ambiente, ele nãogera nenhum ruído no sensor 320 (W).

O percurso desde o falante 300 até o sinal do sensoralternativo 316 pode ser modelado como um canal tendo umaresposta de canal Η. O percurso desde o ruído ambiente 308 atéo sinal do sensor alternativo 316 pode ser modelado como um canaltendo uma resposta de canal G.

O sinal do sensor alternativo 316 (B) e o sinal domicrofone de condução aérea 318 (Y) são transmitidos para umestimador de sinal limpo 322, que estima um sinal limpo 324. Aestimativa de sinal limpo 324 é transmitida para o processo defala 328. A estimativa de sinal limpo 324 pode tanto ser um sinalno domínio do tempo filtrado quanto um vetor da Transformada deFourier. Caso a estimativa de sinal limpo 324 seja um sinal nodomínio do tempo, o processo de fala 328 pode assumir a formade um receptor de fala, de um sistema de codificação de fala oude um sistema de reconhecimento de fala. Caso a estimativa desinal limpo 324 seja um vetor da Transformada de Fourier, oprocesso de fala 328 será normalmente um sistema de reco-nhecimento de fala, ou conterá uma Transformada Inversa deFourier para converter o vetor da Transformada de Fourier emformas de onda.

Dentro do aperfeiçoamento por filtragem direta 322,o sinal do sensor alternativo 316 e o sinal do microfone 318 sãoconvertidos para o domínio de freqüência sendo usado paraestimar a fala limpa. Conforme ilustra a FIG. 4, o sinal do sensoralternativo 316 e o sinal do microfone de condução aérea 318 sãotransmitidos para os conversores de analógico para digital 404e 414, respectivamente, para gerar uma seqüência de valoresdigitais, que são agrupados em quadros de valores pelosconstrutores de quadros 406 e 416, respectivamente. Em umaconcretização, os conversores A/D 404 e 414 amostram os sinaisanalógicos em 16 kHz e 16 bits por amostra, com isso criando 32quilobytes de dados de fala por segundo, e os construtores dequadro 406 e 416 criam um novo quadro respectivo a cada 10milissegundos que inclui o equivalente a 20 milissegundos dedados.

Cada respectivo quadro de dados, fornecido pelosconstrutores de quadros 406 e 416, é convertido para o domíniode freqüência usando as Transformadas Rápidas de Fourier (FFT)408 e 418, respectivamente.

Os valores de domínio de freqüência para o sinal dosensor alternativo e o sinal do microfone de condução aérea sãofornecidos para o estimador de sinal limpo 420, que usa osvalores de domínio de freqüência para estimar o sinal de falalimpa 324.

De acordo com algumas concretizações, o sinal de falalimpa 324 é convertido de volta para o domínio do tempo usandoas Transformadas Rápidas de Fourier 422. Isso cria uma versãode domínio do tempo do sinal de fala limpa 324.

As concretizações da presente invenção oferecemtécnicas de filtragem direta para estimar o sinal de fala limpa324. Sob filtragem direta, uma estimativa de probabilidademáxima da(s) resposta(s) de canal para o sensor alternativo 306é determinada minimizando uma função relacionada à(s) res-posta (s) de canal. Em seguida, essas estimativas são usadas paradeterminar uma estimativa de probabilidade máxima do sinal defala limpa minimizando uma função relacionada ao sinal de falalimpa.

De acordo com uma concretização da presente invenção,a resposta de canal G, correspondendo à fala de fundo sendodetectada pelo sensor alternativo, é considerada como zero. Issoresulta em um modelo entre o sinal de fala limpa e o sinal domicrofone de condução aérea e o sinal do sensor alternativo de:

<formula>formula see original document page 15</formula>

onde y (t) é o sinal do microfone de condução aérea, b(t) é o sinaldo sensor alternativo, x(t) é o sinal de fala limpa, z(t) é oruido ambiente, w(t) é o ruido do sensor alternativo, e h(t) éa resposta de canal para o sinal de fala limpa em relação aosensor alternativo. Sendo assim, na Equação 2, o sinal do sensoralternativo é modelado como uma versão filtrada da fala limpa,onde o filtro possui uma resposta de impulso de h(t).

No domínio de freqüência, as Equações 1 e 2 podem serexpressas como:

<formula>formula see original document page 15</formula>

onde a notação Yt (k) representa o ie-ésimo componente de fre-qüência de um quadro de um sinal centralizado ao redor do tempotempo t. Essa notação se aplica a Xt(k), Zt(k), Ht(k), Wt(k) eBt(k). Na discussão a seguir, a referência ao componente defreqüência k é omitida em prol da clareza. No entanto, osversados na técnica reconhecerão que os cálculos realizados aseguir são realizados em uma base por componente de freqüência.

De acordo com essa concretização, as partes real eimaginária do ruido Zt e Wt são modeladas como Gaussianos demédia zero independentes, tal que:

<formula>formula see original document page 16</formula>

onde σ2ζ é a variação para o ruido Zt e a2w é a variação parao ruido Wt.

Ht também é modelado como um Gaussiano, tal que:

<formula>formula see original document page 16</formula>

onde HO é o meio da resposta de canal e a2h é a variação daresposta de canal.

Dados esses parâmetros de modelo, a probabilidade deum valor de fala limpa X e um valor de resposta de canal H sãodescritos pela probabilidade condicional:

<formula>formula see original document page 16</formula>

que é proporcional a:

<formula>formula see original document page 16</formula>

que é proporcional a:

<formula>formula see original document page 16</formula>

Em uma concretização, a probabilidade anterior paraa resposta de canal, p[Ht \ HOr σ2Η) , é ignorada e cada uma dasprobabilidades restantes é tratada como uma distribuiçãoGaussiana com a probabilidade anterior de fala limpa, ρ (Xt) ,sendo tratada como um Gaussiano de média zero com uma variaçãoa2x,t, tal que:

<formula>formula see original document page 17</formula>

Usando essa simplificação e a Equação 10, a estimativade probabilidade máxima de Xt para o quadro em t é determinadaminimizando:

<formula>formula see original document page 17</formula>

Visto que a Equação 12 está sendo minimizada comrespeito a Xt, a derivada parcial com respeito a Xt pode serobtida para determinar o valor de X, que minimiza a função.

Especificamente, ----- produz:

<formula>formula see original document page 17</formula>

onde H*t representa o complexo conjugado de Ht, e | Ht |representa a grandeza do valor de complexo Ht.

A resposta de canal Ht é estimada a partir da expressãovocal inteira minimizando:

<formula>formula see original document page 17</formula>

Substituindo a expressão de X, calculada na Equação

<formula>formula see original document page 17</formula>

13, na Equação 14, definindo a derivada parcial 1 , e, emseguida, supondo que H é constante em todos os quadros de tempoT, obtemos uma solução para H de:

<formula>formula see original document page 18</formula>

Na Equação 15, a estimação de H requer o cálculo devários somatórios nos últimos T quadros na forma de:

<formula>formula see original document page 18</formula>

onde é (σ2z | Bt|2 -a2w | Yt|2)_ ou B*t, Yt.

Com essa fórmula, o primeiro quadro (t = 1) é tãoimportante quanto o último quadro (t = T). Entretanto, em outrasconcretizações, é preferível que os últimos quadros contribuammais para a estimação de H do que os quadros antigos. Uma técnicapara obter isso é o "envelhecimento exponencial", em que ossomatórios da Equação 16 são substituídos por:

<formula>formula see original document page 18</formula>

onde c ^ 1. Se c = 1, então a Equação 17 é equivalenteà Equação 16. Se c < 1, então o último quadro é ponderado por1, o penúltimo quadro é ponderado por c (isto é, contribui menosdo que o último quadro) , e o primeiro quadro é ponderado por cT-1(isto é, contribui significativamente menos do que o últimoquadro). Vejamos um exemplo. Seja c = 0,99 e T = 100, então opeso para o primeiro quadro é de apenas 0,9999 = 0,37.

De acordo com uma concretização, a Equação 17 éestimada de maneira recursiva como<formula>formula see original document page 19</formula>

Uma vez que a Equação 18 pondera automaticamente menosdados antigos, um tamanho de janela fixo não precisa ser usado,e os dados dos últimos T quadros não precisar ser armazenadosna memória. Em vez disso, apenas o valor para S(T-I) no quadroanterior precisa ser armazenado.

Usando a Equação 18, a Equação 15 se torna:

<formula>formula see original document page 19</formula>

onde:

<formula>formula see original document page 19</formula>

O valor de c nas equações 20 e 21 proporciona umtamanho efetivo para o número de quadros anteriores que sãousados para calcular o valor atual de J(T) e K(T). Especi-ficamente, o tamanho efetivo é dado por:

<formula>formula see original document page 19</formula>

O tamanho efetivo assintótico é dado por:

<formula>formula see original document page 19</formula>

ou, de forma equivalente,

<formula>formula see original document page 19</formula>

Assim, usando a equação 24, c pode ser definido paraobter diferentes tamanhos efetivos na equação 19. Por exemplo,para obter um tamanho efetivo de 200 quadros, c é definido como:

<formula>formula see original document page 19</formula>Uma vez que H tenha sido estimado usando a Equação 15,ele pode ser usado no lugar de todos os Ht da Equação 13 paradeterminar um valor separado de Xt em cada quadro de tempo t.Como alternativa, a equação 19 pode ser usada para estimar Htem cada quadro de tempo t. Em seguida, o valor de Ht em cada quadroé usado na Equação 13 para determinar Xt.

A FIG. 5 ilustra um diagrama do fluxo de dados de ummétodo da presente invenção que usa as Equações 13 e 15 paraestimar um valor de fala limpa para uma expressão vocal.

Na etapa 500, os componentes de freqüência dos quadrosdo sinal do microfone de condução aérea e do sinal do sensoralternativo são capturados em toda a expressão vocal.

Na etapa 502, a variação para o ruido ambiente σ2ζ eo ruido do sensor alternativo a2w são determinados a partir dosquadros do sinal do microfone de condução aérea e do sinal dosensor alternativo, respectivamente, que são capturadospreviamente na expressão vocal durante os períodos em que ofalante não está falando.

O método determina quando o falante não está falandopela identificação dos segmentos de baixa energia do sinal dosensor alternativo, já que a energia do ruído do sensor al-ternativo é muito menor do que o sinal de fala capturado pelosinal do sensor alternativo. Em outras concretizações, técnicasconhecidas de detecção de fala podem ser aplicadas ao sinal defala de condução aérea para identificar quando o falante estáfalando. Durante os períodos em que se considera que o falantenão está falando, presume-se que X seja zero e qualquer sinalvindo do microfone de condução aérea ou do sensor alternativoé considerado como ruído. As amostras desses valores de ruídosão coletadas dos quadros sem fala e usadas para estimar avariação do ruído no sinal de condução aérea e no sinal do sensoralternativo.

Na etapa 504, é determinada a variação da distribuiçãode probabilidade anterior de fala limpa, a2x,t. De acordo comuma concretização, essa variação é calculada como:

<formula>formula see original document page 21</formula>

onde /Yd/ 2 é a energia do sinal do microfone decondução aérea e o somatório é realizado em um conjunto dequadros de fala que inclui os k quadros de fala antes do quadrode fala atual e os m quadros de fala após o quadro de fala atual.

Para evitar valores negativos ou um valor igual a zero para avariação, σ2χ, t, algumas concretizações da presente invençãoutilizam (0,01 · σν) como o menor valor possível para σ2χ, t.

Em uma concretização alternativa, uma implementaçãoem tempo real é realizada usando uma técnica de regularizaçãoque conta apenas com a variação do sinal de fala limpa no quadroprecedente da fala, tal que:

<formula>formula see original document page 21</formula>

onde a2t-l é a variação da distribuição deprobabilidade anterior de fala limpa do último quadro quecontinha a fala, ρ é um fator regularizador com um intervaloentre 0 e 1, α é uma constante pequena, e max ( | Yd | 2 -σ2ν, α | Yd | 2)indica que o maior dentre I Yd|2 -σ2ν e a|Yd|2 é selecionado paraassegurar valores positivos para σ2χ, 1. De acordo com umaconcretização específica, o fator regularizador possui um valorde 0,08 e α = 0,01.

Na etapa 506, os valores para o sinal do sensoralternativo e o sinal do microfone de condução aérea em todosos quadros da expressão vocal são usados para determinar um valorde H usando a Equação 15 acima. Na etapa 508, esse valor de Hé utilizado conjuntamente aos valores individuais do sinal domicrofone de condução aérea e do sinal do sensor alternativo nomesmo quadro de tempo para determinar um valor de fala a-perfeiçoado ou com redução de ruido para cada quadro de tempousando a Equação 13 acima.

Em outras concretizações, em vez de usar todos osquadros da expressão vocal para determinar um único valor de Husando a Equação 15, H é determinado para cada quadro usando aEquação 19. Em seguida, o valor de H é usado para calcular X parao quadro usando a equação 13 acima.

Em uma segunda concretização da presente invenção, aresposta de canal do sensor alternativo para o ruido ambienteé considerada como diferente de zero. Nessa concretização, osinal do microfone de condução aérea e o sinal do sensoralternativo são modelados como:

<formula>formula see original document page 22</formula>

onde a resposta de canal dos sensores alternativospara o ruido ambiente é um valor diferente de zero de Gt(k).

A probabilidade máxima para a fala limpa X pode serencontrada minimizando uma função objetivo resultando em umaequação para a fala limpa de:<formula>formula see original document page 23</formula>

Eq. 30

Para resolver a Equação 30, deve-se conhecer asvariações a2x,t, a2w e σ2ζ, bem como os valores de resposta decanal H e G. A FIG. 6 ilustra um diagrama do fluxo de dados paraidentificar esses valores e para determinar valores de falaaperfeiçoados para cada quadro.

Na etapa 600, os quadros da expressão vocal sãoidentificados em que o usuário não está falando. Em seguida,esses quadros são usados para determinar a variação a2w e σ2ζpara o sensor alternativo e o ruido ambiente, respectivamente.

Para identificar os quadros em que o usuário não estáfalando, o sinal do sensor alternativo pode ser examinado. Tendoem vista que o sinal do sensor alternativo produzirá valores desinal muito menores para a fala de fundo do que para o ruido,se a energia do sinal do sensor alternativo for baixa, pode-sesupor que o falante não está falando.

Após as variações para o ruido ambiente e para o ruidodo sensor alternativo houverem sido determinadas, o método daFIG. 6 continua na etapa 602, em ele que determina a variaçãoda probabilidade anterior de fala, σ2χ,1, usando as equações 26ou 27 anteriores. Conforme discutido anteriormente, apenas osquadros contendo fala são usados para determinar a variação daprobabilidade anterior de fala limpa.

Na etapa 604, os quadros identificados em que ousuário não está falando são usados para estimar a resposta decanal do sensor alternativo G para ruido ambiente. Especi-ficamente, G é determinado como:

<formula>formula see original document page 24</formula>

Onde D é o número de quadros em que o usuário não estáfalando. Na Equação 31, presume-se que G permanece constante emtodos os quadros da expressão vocal e, assim sendo, não é maisdependente do quadro de tempo t. Na equação 31, o somatório emt pode ser substituído pelo cálculo de decaimento exponencialdiscutido anteriormente com relação às equações 16 a 25.

Na etapa 606, o valor da resposta de canal do sensoralternativo G para a fala de fundo é usada para determinar aresposta de canal do sensor alternativo para o sinal de falalimpa. Especificamente, H é determinado como:

<formula>formula see original document page 24</formula>

Na Equação 32, o somatório em T pode ser substituídocom o cálculo de decaimento exponencial recursivo discutidopreviamente com relação às equações 16 a 25.

Após H houver sido determinado na etapa 606, a Equação30 pode ser usada para determinar um valor de fala limpa paratodos os quadros. Ao resolver a Equação 30, de acordo com algumasconcretizações, o termo Bl-GY é substituído por , poisse verificou ser difícil determinar com precisão a diferença defase entre a fala de fundo e seu escapamento para o sensoralternativo.

Se o cálculo de decaimento exponencial recursivo forusado no lugar dos somatórios na Equação 32, um valor separadode Hl poderá ser determinado para cada quadro de tempo e poderáser usado como H na equação 30.

Embora a presente invenção tenha sido descrita comreferência a concretizações especificas, os versados na técnicairão reconhecer podem ser feitas alterações na forma e nosdetalhes sem divergir do espirito e do âmbito da invenção.

Claims

1. Método para determinar uma estimativa para um valorcom ruido reduzido que representa uma parte de um sinal de falacom ruído reduzido, o método CARACTERIZADO por compreender:gerar um sinal de sensor alternativo usando um sensoralternativo que não seja um microfone de condução aérea;gerar um sinal de microfone de condução aérea;usar o sinal de sensor alternativo e o sinal demicrofone de condução aérea para estimar um valor para umaresposta de canal do sinal de sensor alternativo; eusar a resposta de canal e uma probabilidade anteriordo valor com ruído reduzido para estimar o valor com ruídoreduzido.

2. Método, de acordo com a reivindicação 1,CARACTERIZADO pelo fato de que a probabilidade anterior do valorcom ruído reduzido possui uma distribuição definida por umavariação.

3. Método, de acordo com a reivindicação 2,CARACTERIZADO por adicionalmente compreender determinar avariação da distribuição com base no sinal do microfone decondução aérea.

4. Método, de acordo com a reivindicação 3,CARACTERIZADO pelo fato de que determinar a variação com baseno sinal de microfone de condução aérea compreende formar umasoma de valores de energia para quadros do sinal do microfonede condução aérea.

5. Método, de acordo com a reivindicação 4,CARACTERIZADO pelo fato de que todos os quadros do sinal domicrofone de condução aérea contêm fala.

6. Método, de acordo com a reivindicação 3,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreende determinar a variaçãocom base em uma variação do ruido ambiente.

7. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreende determinar uma variaçãoassociada ao quadro atual do sinal de fala com ruido reduzidocom base em um quadro atual do sinal do microfone de conduçãoaérea e uma variação da distribuição associada a um quadroanterior do sinal de fala com ruido reduzido.

8. Método, de acordo com a reivindicação 7,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreender limitar os valores davariação, de modo que a variação sempre exceda algum valormínimo.

9. Método, de acordo com a reivindicação 8,CARACTERIZADO pelo fato de que o valor mínimo é uma porcentagemda variação do ruído ambiente.

10. Meio legível por computador contendo instruçõesexecutáveis por computador para realizar as etapasCARACTERIZADAS por compreender:determinar uma resposta de canal para um sensoralternativo usando um sinal do sensor alternativo e um sinal domicrofone de condução aérea; edeterminar uma variação para a distribuição deprobabilidade anterior para um valor de fala limpa com base nosinal de microfone de condução aérea; eusar a resposta.de canal e a variação para a dis-tribuição de probabilidade anterior para um valor de fala limpapara estimar um valor de fala limpa.

11. Meio de armazenamento legível por computador, deacordo com a reivindicação 10, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior adicionalmente compreende determinar a variação paraa distribuição de probabilidade anterior com base em umadistribuição de ruído ambiente.

12. Meio de armazenamento legível por computador, deacordo com a reivindicação 11, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior com base no sinal do microfone de condução aéreacompreende formar uma soma de valores de energia para quadrosdo sinal do microfone de condução aérea.

13. Meio de armazenamento legível por computador, deacordo com a reivindicação 11, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior adicionalmente compreende determinar uma variação paraa distribuição de probabilidade anterior associada a um valorde fala limpa atual com base em uma variação para uma dis-tribuição de probabilidade anterior associada a um valor de falalimpa anterior.

14. Meio legível por computador, de acordo com areivindicação 13, CARACTERIZADO pelo fato de que determinar avariação da distribuição de probabilidade anterior adicio-nalmente compreende obter uma soma ponderada da variação parauma distribuição de probabilidade anterior associada a um valorde fala limpa anterior e a diferença entre a energia de um quadrodo sinal do microfone de condução aérea e a variação dadistribuição do ruído ambiente.

15. Meio de armazenamento legível por computador, deacordo com a reivindicação 10, CARACTERIZADO pelo fato de quedeterminar a variação da distribuição de probabilidade anterioradicionalmente compreende definir um valor mínimo para avariação da distribuição de probabilidade anterior.

16. Meio de armazenamento legível por computador, deacordo com a reivindicação 15, CARACTERIZADO pelo fato de queo valor mínimo para a variação é em função de uma variação parauma distribuição do ruído ambiente.

17. Método para identificar um valor de fala limpapara um sinal de fala limpa, o método CARACTERIZADO porcompreender:determinar uma resposta de canal de um sensor al-ternativo para o ruído ambiente;determinar um parâmetro de distribuição de proba-bilidade anterior para valores de fala limpa a partir de um valorde um sinal de microfone de condução aérea;eusar a resposta de canal e a distribuição de pro-babilidade anterior para valores de fala limpa para determinarum valor de fala limpa.