BRPI0611649A2 - fala multi-sensorial usando fala limpa anterior - Google Patents

fala multi-sensorial usando fala limpa anterior Download PDF

Info

Publication number
BRPI0611649A2
BRPI0611649A2 BRPI0611649-3A BRPI0611649A BRPI0611649A2 BR PI0611649 A2 BRPI0611649 A2 BR PI0611649A2 BR PI0611649 A BRPI0611649 A BR PI0611649A BR PI0611649 A2 BRPI0611649 A2 BR PI0611649A2
Authority
BR
Brazil
Prior art keywords
variation
signal
determining
value
speech
Prior art date
Application number
BRPI0611649-3A
Other languages
English (en)
Inventor
Zicheng Liu
Alejandro Acero
Zhengyou Zhang
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of BRPI0611649A2 publication Critical patent/BRPI0611649A2/pt
Publication of BRPI0611649B1 publication Critical patent/BRPI0611649B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Meter Arrangements (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Machine Translation (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

FALA MULTI-SENSORIAL USANDO FALA LIMPA ANTERIOR. Trata-se de um método e aparelho para determinar uma resposta de canal para um sensor alternativo usando um sinal do sensor alternativo e um sinal do microfone de condução aérea. Em seguida, a resposta de canal e uma distribuição de probabilidade anterior para valores de fala limpa são usadas para estimar um valor de fala limpa.

Description

"FALA MULTI-SENSORIAL USANDO FALA LIMPA ANTERIOR"
ANTECEDENTES DA INVENÇÃO
Um problema comum, tanto no reconhecimento de falaquanto na transmissão de fala, é o corrompimento do sinal de falapor ruídos aditivos. Em particular, demonstrou-se ser difícila detecção e/ou a correção do corrompimento provocado pela falade outro falante.
Recentemente, foi desenvolvido um sistema que tentaremover o ruído usando uma combinação de um sensor alternativo,tal como um microfone de condução óssea e um microfone decondução aérea. Esse sistema é treinado usando três canais detreinamento: um sinal ruidoso de treinamento de sensor al-ternativo, um sinal ruidoso de treinamento de microfone decondução aérea e um sinal limpo de treinamento de microfone decondução aérea. Cada um dos sinais é convertido em um domíniode características. As características para o sinal ruidoso desensor alternativo e o sinal ruidoso de microfone de conduçãoaérea são combinadas em um vetor único representando um sinalruidoso. As características para o sinal limpo de microfone decondução aérea formam um vetor limpo único. Esses vetores sãoentão usados para treinar um mapeamento entre os vetoresruidosos e os vetores limpos. Uma vez treinados, os mapeamentossão aplicados a um vetor ruidoso formado de uma combinação deum sinal ruidoso de teste de sensor alternativo e de um sinalruidoso de teste de microfone de condução aérea. Esse mapeamentoproduz um vetor de sinal limpo.
Esse sistema está muito abaixo do ideal quando ascondições de ruído dos sinais de teste não correspondem àscondições de ruído dos sinais de treinamento, pois os mape-amentos são projetados para as condições de ruído dos sinais detreinamento.
SUMÁRIO DA INVENÇÃO
Um método e aparelho determinam uma resposta de canalpara um sensor alternativo usando um sinal de sensor alternativoe um sinal de microfone de condução aérea. Em seguida, a respostade canal e uma distribuição de probabilidade anterior paravalores de fala limpa são usadas para estimar um valor de falalimpa.
BREVE DESCRIÇÃO DOS DESENHOS
A FIG. 1 é um diagrama de blocos de um ambiente decomputação em que as concretizações da presente invenção podemser praticadas.
A FIG. 2 é um diagrama de blocos de um ambiente decomputação alternativo em que as concretizações da presenteinvenção podem ser praticadas.
A FIG. 3 é um diagrama de blocos de um sistema geralde processamento de fala de uma concretização da presenteinvenção.
A FIG. 4 é um diagrama de blocos de um sistema paraaperfeiçoar a fala de acordo com uma concretização da presenteinvenção.
A FIG. 5 é um diagrama de fluxo de dados para a-perfeiçoar a fala de acordo com uma concretização da presenteinvenção.
A FIG. 6 é um diagrama de fluxo de dados para a-perfeiçoar a fala de acordo com outra concretização da presenteinvenção.
DESCRIÇÃO DETALHADA DAS CONCRETIZAÇÕES ILUSTRATIVAS
A FIG. 1 ilustra um exemplo de um ambiente de sistemade computação adequado 100 em que a invenção pode ser im-plementada. O ambiente de sistema de computação 100 é apenas umexemplo de um ambiente de computação adequado e não tem aintenção de implicar em qualquer limitação ao âmbito de uso ouà funcionalidade da invenção. Tampouco se deve interpretar oambiente de computação 100 como tendo qualquer dependência ouexigência com relação a qualquer um dos componentes ilustrados,ou combinação desses, no ambiente operacional exemplificativo 100.
A invenção é operacional com vários ambientes ouconfigurações diferentes de sistema de computação de uso geralou especifico. Exemplos de sistemas, ambientes e/ou confi-gurações de computação bem conhecidos que podem ser adequadospara uso com a invenção incluem, sem a isto se restringir,computadores pessoais, computadores servidores, dispositivosportáteis ou laptop, sistemas multiprocessadores, sistemasbaseados em microprocessador, decodificadores de sinais,componentes eletrônicos programados pelo consumidor, PCs derede, microcomputadores, computadores de grande porte, sistemasde telefonia, ambientes de computação distribuída que incluemqualquer um dos sistemas ou dispositivos acima, entre outros.
A invenção pode ser descrita no contexto geral deinstruções executadas por computador, tais como módulos deprograma sendo executados por um computador. Geralmente, osmódulos de programa incluem rotinas, programas, objetos,estruturas de dados etc., que efetuam tarefas especificas ouimplementam tipos de dados abstratos específicos. A invenção éprojetada para ser praticada em ambientes de computaçãodistribuída, nos quais as tarefas são efetuadas por dispositivosde processamento remoto ligados por meio de uma rede de co-municações. Em um ambiente de computação distribuída, os módulosde programa estão localizados tanto em meios de armazenamentode computador remotos quanto locais, incluindo dispositivos dearmazenamento em memória.
Com referência à FIG. 1, um sistema exemplificativopara implementação de concretizações da invenção inclui umdispositivo de computação de uso geral na forma de um computador110. Os componentes do computador 110 podem incluir, sem a istose restringir, uma unidade de processamento 120, uma memória desistema 130 e um barramento de sistema 121 que acopla várioscomponentes do sistema, incluindo a memória do sistema à unidadede processamento 120. O barramento de sistema 121 pode possuirqualquer um dos diferentes tipos de estrutura de barramento,incluindo um barramento de memória ou controlador de memória,um barramento periférico e um barramento local usando qualqueruma das diferentes arquiteturas de barramento. A título e-xemplificativo, sem limitação, tais arquiteturas incluembarramento da Arquitetura Padrão da Indústria (ISA), barramentoda Arquitetura de Microcanal (MCA), barramento ISA Aperfeiçoada(EISA), barramento local da Associação de Padrões Eletrônicosde Vídeo (VESA) e barramento de Interconexão de ComponentesPeriféricos (PCI), também chamado de barramento Mezanino.
O computador 110 geralmente inclui uma variedade demeios legíveis por computador. Meios legíveis por computadorpodem ser qualquer meio disponível que pode ser acessado porcomputador 110 e que inclui tanto meios voláteis e não-voláteisquanto meios removíveis e não-removíveis. A título exempli-ficativo, sem limitação, meios legíveis por computador podemcompreender meios de armazenamento e meios de comunicação decomputador. Os meios de armazenamento de computador incluemtanto meios voláteis e não-voláteis, quanto removíveis enão-removíveis implementados em qualquer método ou tecnologiapara armazenamento de informações, tais como instruções le-gíveis por computador, estruturas de dados, módulos de programaou outros dados. Os meios de armazenamento incluem, sem a istose restringir, RAM, ROM, KE PROM, memória flash ou outratecnologia de memória, CD-ROM, discos versáteis digitais (DVD)ou outro armazenamento em disco óptico, cassetes magnéticos,fita magnética, armazenamento em disco magnético ou outrosdispositivos de armazenamento magnético, ou qualquer outro meioque possa ser usado para armazenar as informações desejadas eque possa ser acessado pelo computador 110. Os meios de co-municação geralmente abrangem instruções legíveis por com-putador, estruturas de dados, módulos de programa ou outrosdados em um sinal de dados modulado tal como uma onda portadoraou outro mecanismo de transporte, e incluem quaisquer meios dedistribuição de informações. O termo "sinal de dados modulados"significa um sinal que uma ou mais de suas característicasajustadas ou alteradas de tal maneira a codificar as informaçõesno sinal. A título exemplificativo, e sem limitação, os meiosde comunicação incluem meios com fio, tal como uma rede com fioou conexão direta com fio, e meios sem fio, tal como acústico,RF, infravermelho e outros meios sem fio. Combinações dequalquer um dos elementos anteriores também deverão ser in-cluídas no âmbito de meios legíveis por computador.
A memória de sistema 130 inclui meios de armazenamentode computador na forma de memória volátil e/ou não-volátil, talcomo memória somente para leitura (ROM) 131 e memória de acessoaleatório (RAM) 132. Um sistema básico de entrada/saída 133(BIOS), contendo as rotinas básicas para ajudar a transferirinformações entre os elementos dentro do computador 110, talcomo durante a inicialização, é geralmente armazenado na ROM 131A RAM 132 geralmente contém dados e/ou módulos de programa quepodem ser acessados a qualquer momento e/ou que estão sendooperados pela unidade de processamento 120. A título exem-plificativo, e sem limitação, a FIG. 1 ilustra o sistemaoperacional 134, programas aplicativos 135, outros módulos deprograma 136, e dados de programa 137.
0 computador 110 também inclui outros meios dearmazenamento de computador removíveis/não-removíveis e vo-láteis/não-voláteis . Atitulomeramente exemplificativo, a FIG.1 ilustra uma unidade de disco rígido 141 que lê ou grava em meiosmagnéticos não-removíveis e não-voláteis, uma unidade de discomagnético 151 que lê ou grava em um disco magnético removívele não-volátil 152, e uma unidade de disco óptica 155 que lê ouescreve em um disco óptico removível e não-volátil 156, tal comoum CD-ROM ou outros meios ópticos. Outros meios de armazenamentode computador removíveis/não-removíveis e volá-teis/não-voláteis que podem ser usados no ambiente operacionalexemplificativo incluem, mas sem a isto se restringir, cassetesde fita magnética, cartões de memória flash, discos versáteisdigitais, fitas de vídeo digital, RAM de estado sólido, ROM deestado sólido, entre outros. A unidade de disco rígido 141 égeralmente conectada ao barramento do sistema 121 por meio deuma interface de memória não-removível, tal como a interface 140,e a unidade de disco magnético 151 e a unidade de disco óptico155 são geralmente conectadas ao barramento de sistema 121 poruma interface de memória removível, tal como a interface 150.
As unidades e seus meios de armazenamento de com-putador associados, discutidos acima na FIG. 1, fornecem oarmazenamento de instruções legíveis por computador, estruturasde dados, módulos de programa e outros dados para o computador110. Na FIG. 1, por exemplo, a unidade de disco rígido 141 éilustrada armazenando o sistema operacional 144, os programasaplicativos 145, outros módulos de programa 146, e dados deprograma 147. Observe que esses componentes podem ou ser osmesmos ou ser diferentes do sistema operacional 134, dosprogramas aplicativos 135, dos outros módulos de programa 136,e dos dados de programa 137. O sistema operacional 144, osprogramas aplicativos 145, os outros módulos de programa 146,e os dados de programa 147 recebem números diferentes nestedocumento para mostrar que se tratam, no mínimo, de cópiasdiferentes.
Um usuário pode entrar com comandos e informações nocomputador 110 por meio de dispositivos de entrada, tal como umteclado 162, um microfone 163 e um dispositivo de apontamento161, tal como um mouse, trackball ou superfície de toque. Outrosdispositivos de entrada (não ilustrados) podem incluir umjoystick, controle de jogo, antena de satélite, scanner, entreoutros. Esses e outros dispositivos de entrada são geralmenteconectados à unidade de processamento 120 por meio de umainterface de entrada do usuário 160 que é acoplada ao barramentodo sistema, mas que pode ser conectada por outra interface eestruturas de barramento, tal como uma porta paralela, porta dejogo ou um barramento serial universal (USB). Um monitor 191,ou outro tipo de dispositivo de exibição, também é conectado aobarramento de sistema 121 por meio de uma interface, tal comouma interface de video 190. Além do monitor, os computadorestambém podem incluir outros periféricos de saida, tais comoalto-falantes 197 e impressora 196, que podem ser conectados pormeio de uma interface periférica de saida 195.
0 computador 110 opera em um ambiente em rede usandoconexões lógicas com um ou mais computadores remotos, tal comoo computador remoto 180. 0 computador remoto 180 pode ser umcomputador pessoal, um dispositivo portátil, um servidor, umroteador, um PC de rede, um dispositivo não hierarquizado ououtro nó comum da rede, e geralmente inclui muitos ou todos oselementos supramencionados com relação ao computador 110. Asconexões lógicas ilustradas na FIG. 1 incluem uma rede local (LAN)171 e uma rede de longa distância (WAN) 173, mas também podeincluir outras redes. Tais ambientes de rede são comuns emescritórios, redes de computador a nivel empresarial, intranetse a Internet.
Quando usado em um ambiente em rede LAN, o computador110 é conectado à LAN 171 por meio de uma interface de rede ouadaptador 170. Quando usado em um ambiente em rede WAN, ocomputador 110 geralmente inclui um modem 172 ou outros meiospara estabelecer comunicações pela WAN 173, tal como a Internet.O modem 172, que pode ser interno ou externo, pode ser conectadoao barramento do sistema 121 por meio da interface de entradado usuário 160, ou por outro mecanismo apropriado. Em umambiente em rede, os módulos de programa representados comrelação ao computador 110, ou partes deles, podem ser arma-zenados no dispositivo de armazenamento em memória remoto. Atitulo exemplificativo, e sem limitação, a FIG. 1 ilustraprogramas aplicativos remotos 185 residindo no computadorremoto 180. Será apreciado que as conexões de rede ilustradassão exemplificativas e que outros meios para estabelecer umaligação de comunicações entre os computadores podem ser usados.
A FIG. 2 é um diagrama de blocos de um dispositivomóvel 200, que é um exemplo de um ambiente de computação. 0dispositivo móvel 200 inclui um microprocessador 202, memória204, componentes de entrada/saida (E/S) 206 e uma interface decomunicação 208 para prover a comunicação com computadoresremotos ou outros dispositivos móveis. Em uma concretização, oscomponentes mencionados adiante estão acoplados para se co-municarem por meio de um barramento adequado 210.
A memória 204 é implementada como memória eletrônicanão-volátil, tal como memória de acesso aleatório (RAM) com ummódulo de bateria de segurança (não ilustrado), de modo que asinformações armazenadas na memória 204 não sejam perdidas quandoa alimentação geral do dispositivo móvel 200 for interrompida.Uma parte da memória 204 é, de preferência, alocada como memóriaendereçável para execução de programas, ao passo que outra parteda memória 204 é, de preferência, usada para armazenamento, demodo a simular o armazenamento em uma unidade de disco.
A Memória 204 inclui um sistema operacional 212,programas aplicativos 214, bem como um armazenamento de objetos216 Enquanto operante, o sistema operacional 212 é, de pre-ferência, executado pelo processador 202 da memória 204. 0sistema operacional 212, em uma concretização preferida, é osistema operacional da marca WINDOWS® CE, disponível paracomercialização pela Microsoft Corporation. O sistema ope-racional 212 é, de preferência, projetado para dispositivosmóveis, e aperfeiçoa características de banco de dados que podemser utilizadas pelos aplicativos 214 por meio de um conjunto deinterfaces e métodos expostos para programação de aplicativos.
Os objetos no armazenamento de objetos 216 são mantidos pelosaplicativos 214 e pelo sistema operacional 212, ao menosparcialmente em resposta às chamadas às interfaces e métodosexpostos para programação de aplicativos.
A interface de comunicação 208 representa váriosdispositivos e tecnologias que permitem ao dispositivo móvel 200enviar e receber informações. Os dispositivos incluem, paracitar alguns, modens com fio e sem fio, receptores de satélitee sintonizadores de difusão. 0 dispositivo móvel 200 pode tambémser conectado diretamente a um computador para trocar dados comele. Em tais casos, a interface de comunicação 208 pode ser umtransceptor de infravermelho ou uma conexão de comunicaçãoserial ou paralela, todos os quais são capazes de transmitirinformações de fluxo contínuo.Os componentes de entrada/saída 206 incluem váriosdispositivos de entrada, tal como uma tela sensível ao toque,botões, botões de rolagem e um microfone, bem como váriosdispositivos de saída, incluindo um gerador de áudio, umdispositivo de vibração, e um meio de exibição. Os dispositivoslistados acima são meramente exemplificativos e nem todosprecisam estar presentes no dispositivo móvel 200. Além disso,outros dispositivos de entrada/saída podem ser ligados a ouincluídos no dispositivo móvel 200 dentro do âmbito da presenteinvenção.
A FIG. 3 ilustra um diagrama de bloco básico deconcretizações da presente invenção. Na FIG. 3, um falante 300gera um sinal de fala 302 (X) que é detectado por um microfonede condução aérea 304 e um sensor alternativo 306. Exemplos desensores alternativos incluem um microfone de garganta, que medeas vibrações da garganta do usuário, um sensor de condução ósseo,localizado no ou adjacente ao osso facial ou da cabeça do usuário(tal como o osso maxilar) ou na orelha do usuário e que detectaas vibrações da cabeça e do maxilar que correspondem à falagerada pelo usuário. O microfone de condução aérea 304 é o tipode microfone que é usado geralmente para converter ondas aéreasde som em sinais elétricos.
O microfone de condução aérea 304 também recebe ruídoambiente 308 (Z) gerado por uma ou mais fontes de ruído 310.Dependendo do tipo de ruído ambiente e da altura do ruídoambiente, o ruído ambiente 308 também pode ser detectado pelosensor alternativo 306. Entretanto, de acordo com as con-cretizações da presente invenção, o sensor alternativo 306 énormalmente menos sensível ao ruído ambiente do que o microfonede condução aérea 304. Portanto, o sinal do sensor alternativo316 (B), gerado pelo sensor alternativo 306, inclui, em geral,menos ruído do que o sinal do microfone de condução aérea 318(Y), gerado pelo microfone de condução aérea 304. Embora o sensoralternativo 306 seja menos sensível ao ruído ambiente, ele nãogera nenhum ruído no sensor 320 (W).
O percurso desde o falante 300 até o sinal do sensoralternativo 316 pode ser modelado como um canal tendo umaresposta de canal Η. O percurso desde o ruído ambiente 308 atéo sinal do sensor alternativo 316 pode ser modelado como um canaltendo uma resposta de canal G.
O sinal do sensor alternativo 316 (B) e o sinal domicrofone de condução aérea 318 (Y) são transmitidos para umestimador de sinal limpo 322, que estima um sinal limpo 324. Aestimativa de sinal limpo 324 é transmitida para o processo defala 328. A estimativa de sinal limpo 324 pode tanto ser um sinalno domínio do tempo filtrado quanto um vetor da Transformada deFourier. Caso a estimativa de sinal limpo 324 seja um sinal nodomínio do tempo, o processo de fala 328 pode assumir a formade um receptor de fala, de um sistema de codificação de fala oude um sistema de reconhecimento de fala. Caso a estimativa desinal limpo 324 seja um vetor da Transformada de Fourier, oprocesso de fala 328 será normalmente um sistema de reco-nhecimento de fala, ou conterá uma Transformada Inversa deFourier para converter o vetor da Transformada de Fourier emformas de onda.
Dentro do aperfeiçoamento por filtragem direta 322,o sinal do sensor alternativo 316 e o sinal do microfone 318 sãoconvertidos para o domínio de freqüência sendo usado paraestimar a fala limpa. Conforme ilustra a FIG. 4, o sinal do sensoralternativo 316 e o sinal do microfone de condução aérea 318 sãotransmitidos para os conversores de analógico para digital 404e 414, respectivamente, para gerar uma seqüência de valoresdigitais, que são agrupados em quadros de valores pelosconstrutores de quadros 406 e 416, respectivamente. Em umaconcretização, os conversores A/D 404 e 414 amostram os sinaisanalógicos em 16 kHz e 16 bits por amostra, com isso criando 32quilobytes de dados de fala por segundo, e os construtores dequadro 406 e 416 criam um novo quadro respectivo a cada 10milissegundos que inclui o equivalente a 20 milissegundos dedados.
Cada respectivo quadro de dados, fornecido pelosconstrutores de quadros 406 e 416, é convertido para o domíniode freqüência usando as Transformadas Rápidas de Fourier (FFT)408 e 418, respectivamente.
Os valores de domínio de freqüência para o sinal dosensor alternativo e o sinal do microfone de condução aérea sãofornecidos para o estimador de sinal limpo 420, que usa osvalores de domínio de freqüência para estimar o sinal de falalimpa 324.
De acordo com algumas concretizações, o sinal de falalimpa 324 é convertido de volta para o domínio do tempo usandoas Transformadas Rápidas de Fourier 422. Isso cria uma versãode domínio do tempo do sinal de fala limpa 324.
As concretizações da presente invenção oferecemtécnicas de filtragem direta para estimar o sinal de fala limpa324. Sob filtragem direta, uma estimativa de probabilidademáxima da(s) resposta(s) de canal para o sensor alternativo 306é determinada minimizando uma função relacionada à(s) res-posta (s) de canal. Em seguida, essas estimativas são usadas paradeterminar uma estimativa de probabilidade máxima do sinal defala limpa minimizando uma função relacionada ao sinal de falalimpa.
De acordo com uma concretização da presente invenção,a resposta de canal G, correspondendo à fala de fundo sendodetectada pelo sensor alternativo, é considerada como zero. Issoresulta em um modelo entre o sinal de fala limpa e o sinal domicrofone de condução aérea e o sinal do sensor alternativo de:
<formula>formula see original document page 15</formula>
onde y (t) é o sinal do microfone de condução aérea, b(t) é o sinaldo sensor alternativo, x(t) é o sinal de fala limpa, z(t) é oruido ambiente, w(t) é o ruido do sensor alternativo, e h(t) éa resposta de canal para o sinal de fala limpa em relação aosensor alternativo. Sendo assim, na Equação 2, o sinal do sensoralternativo é modelado como uma versão filtrada da fala limpa,onde o filtro possui uma resposta de impulso de h(t).
No domínio de freqüência, as Equações 1 e 2 podem serexpressas como:
<formula>formula see original document page 15</formula>
onde a notação Yt (k) representa o ie-ésimo componente de fre-qüência de um quadro de um sinal centralizado ao redor do tempotempo t. Essa notação se aplica a Xt(k), Zt(k), Ht(k), Wt(k) eBt(k). Na discussão a seguir, a referência ao componente defreqüência k é omitida em prol da clareza. No entanto, osversados na técnica reconhecerão que os cálculos realizados aseguir são realizados em uma base por componente de freqüência.
De acordo com essa concretização, as partes real eimaginária do ruido Zt e Wt são modeladas como Gaussianos demédia zero independentes, tal que:
<formula>formula see original document page 16</formula>
onde σ2ζ é a variação para o ruido Zt e a2w é a variação parao ruido Wt.
Ht também é modelado como um Gaussiano, tal que:
<formula>formula see original document page 16</formula>
onde HO é o meio da resposta de canal e a2h é a variação daresposta de canal.
Dados esses parâmetros de modelo, a probabilidade deum valor de fala limpa X e um valor de resposta de canal H sãodescritos pela probabilidade condicional:
<formula>formula see original document page 16</formula>
que é proporcional a:
<formula>formula see original document page 16</formula>
que é proporcional a:
<formula>formula see original document page 16</formula>
Em uma concretização, a probabilidade anterior paraa resposta de canal, p[Ht \ HOr σ2Η) , é ignorada e cada uma dasprobabilidades restantes é tratada como uma distribuiçãoGaussiana com a probabilidade anterior de fala limpa, ρ (Xt) ,sendo tratada como um Gaussiano de média zero com uma variaçãoa2x,t, tal que:
<formula>formula see original document page 17</formula>
Usando essa simplificação e a Equação 10, a estimativade probabilidade máxima de Xt para o quadro em t é determinadaminimizando:
<formula>formula see original document page 17</formula>
Visto que a Equação 12 está sendo minimizada comrespeito a Xt, a derivada parcial com respeito a Xt pode serobtida para determinar o valor de X, que minimiza a função.
Especificamente, ----- produz:
<formula>formula see original document page 17</formula>
onde H*t representa o complexo conjugado de Ht, e | Ht |representa a grandeza do valor de complexo Ht.
A resposta de canal Ht é estimada a partir da expressãovocal inteira minimizando:
<formula>formula see original document page 17</formula>
Substituindo a expressão de X, calculada na Equação
<formula>formula see original document page 17</formula>
13, na Equação 14, definindo a derivada parcial 1 , e, emseguida, supondo que H é constante em todos os quadros de tempoT, obtemos uma solução para H de:
<formula>formula see original document page 18</formula>
Na Equação 15, a estimação de H requer o cálculo devários somatórios nos últimos T quadros na forma de:
<formula>formula see original document page 18</formula>
onde é (σ2z | Bt|2 -a2w | Yt|2)_ ou B*t, Yt.
Com essa fórmula, o primeiro quadro (t = 1) é tãoimportante quanto o último quadro (t = T). Entretanto, em outrasconcretizações, é preferível que os últimos quadros contribuammais para a estimação de H do que os quadros antigos. Uma técnicapara obter isso é o "envelhecimento exponencial", em que ossomatórios da Equação 16 são substituídos por:
<formula>formula see original document page 18</formula>
onde c ^ 1. Se c = 1, então a Equação 17 é equivalenteà Equação 16. Se c < 1, então o último quadro é ponderado por1, o penúltimo quadro é ponderado por c (isto é, contribui menosdo que o último quadro) , e o primeiro quadro é ponderado por cT-1(isto é, contribui significativamente menos do que o últimoquadro). Vejamos um exemplo. Seja c = 0,99 e T = 100, então opeso para o primeiro quadro é de apenas 0,9999 = 0,37.
De acordo com uma concretização, a Equação 17 éestimada de maneira recursiva como<formula>formula see original document page 19</formula>
Uma vez que a Equação 18 pondera automaticamente menosdados antigos, um tamanho de janela fixo não precisa ser usado,e os dados dos últimos T quadros não precisar ser armazenadosna memória. Em vez disso, apenas o valor para S(T-I) no quadroanterior precisa ser armazenado.
Usando a Equação 18, a Equação 15 se torna:
<formula>formula see original document page 19</formula>
onde:
<formula>formula see original document page 19</formula>
O valor de c nas equações 20 e 21 proporciona umtamanho efetivo para o número de quadros anteriores que sãousados para calcular o valor atual de J(T) e K(T). Especi-ficamente, o tamanho efetivo é dado por:
<formula>formula see original document page 19</formula>
O tamanho efetivo assintótico é dado por:
<formula>formula see original document page 19</formula>
ou, de forma equivalente,
<formula>formula see original document page 19</formula>
Assim, usando a equação 24, c pode ser definido paraobter diferentes tamanhos efetivos na equação 19. Por exemplo,para obter um tamanho efetivo de 200 quadros, c é definido como:
<formula>formula see original document page 19</formula>Uma vez que H tenha sido estimado usando a Equação 15,ele pode ser usado no lugar de todos os Ht da Equação 13 paradeterminar um valor separado de Xt em cada quadro de tempo t.Como alternativa, a equação 19 pode ser usada para estimar Htem cada quadro de tempo t. Em seguida, o valor de Ht em cada quadroé usado na Equação 13 para determinar Xt.
A FIG. 5 ilustra um diagrama do fluxo de dados de ummétodo da presente invenção que usa as Equações 13 e 15 paraestimar um valor de fala limpa para uma expressão vocal.
Na etapa 500, os componentes de freqüência dos quadrosdo sinal do microfone de condução aérea e do sinal do sensoralternativo são capturados em toda a expressão vocal.
Na etapa 502, a variação para o ruido ambiente σ2ζ eo ruido do sensor alternativo a2w são determinados a partir dosquadros do sinal do microfone de condução aérea e do sinal dosensor alternativo, respectivamente, que são capturadospreviamente na expressão vocal durante os períodos em que ofalante não está falando.
O método determina quando o falante não está falandopela identificação dos segmentos de baixa energia do sinal dosensor alternativo, já que a energia do ruído do sensor al-ternativo é muito menor do que o sinal de fala capturado pelosinal do sensor alternativo. Em outras concretizações, técnicasconhecidas de detecção de fala podem ser aplicadas ao sinal defala de condução aérea para identificar quando o falante estáfalando. Durante os períodos em que se considera que o falantenão está falando, presume-se que X seja zero e qualquer sinalvindo do microfone de condução aérea ou do sensor alternativoé considerado como ruído. As amostras desses valores de ruídosão coletadas dos quadros sem fala e usadas para estimar avariação do ruído no sinal de condução aérea e no sinal do sensoralternativo.
Na etapa 504, é determinada a variação da distribuiçãode probabilidade anterior de fala limpa, a2x,t. De acordo comuma concretização, essa variação é calculada como:
<formula>formula see original document page 21</formula>
onde /Yd/ 2 é a energia do sinal do microfone decondução aérea e o somatório é realizado em um conjunto dequadros de fala que inclui os k quadros de fala antes do quadrode fala atual e os m quadros de fala após o quadro de fala atual.
Para evitar valores negativos ou um valor igual a zero para avariação, σ2χ, t, algumas concretizações da presente invençãoutilizam (0,01 · σν) como o menor valor possível para σ2χ, t.
Em uma concretização alternativa, uma implementaçãoem tempo real é realizada usando uma técnica de regularizaçãoque conta apenas com a variação do sinal de fala limpa no quadroprecedente da fala, tal que:
<formula>formula see original document page 21</formula>
onde a2t-l é a variação da distribuição deprobabilidade anterior de fala limpa do último quadro quecontinha a fala, ρ é um fator regularizador com um intervaloentre 0 e 1, α é uma constante pequena, e max ( | Yd | 2 -σ2ν, α | Yd | 2)indica que o maior dentre I Yd|2 -σ2ν e a|Yd|2 é selecionado paraassegurar valores positivos para σ2χ, 1. De acordo com umaconcretização específica, o fator regularizador possui um valorde 0,08 e α = 0,01.
Na etapa 506, os valores para o sinal do sensoralternativo e o sinal do microfone de condução aérea em todosos quadros da expressão vocal são usados para determinar um valorde H usando a Equação 15 acima. Na etapa 508, esse valor de Hé utilizado conjuntamente aos valores individuais do sinal domicrofone de condução aérea e do sinal do sensor alternativo nomesmo quadro de tempo para determinar um valor de fala a-perfeiçoado ou com redução de ruido para cada quadro de tempousando a Equação 13 acima.
Em outras concretizações, em vez de usar todos osquadros da expressão vocal para determinar um único valor de Husando a Equação 15, H é determinado para cada quadro usando aEquação 19. Em seguida, o valor de H é usado para calcular X parao quadro usando a equação 13 acima.
Em uma segunda concretização da presente invenção, aresposta de canal do sensor alternativo para o ruido ambienteé considerada como diferente de zero. Nessa concretização, osinal do microfone de condução aérea e o sinal do sensoralternativo são modelados como:
<formula>formula see original document page 22</formula>
onde a resposta de canal dos sensores alternativospara o ruido ambiente é um valor diferente de zero de Gt(k).
A probabilidade máxima para a fala limpa X pode serencontrada minimizando uma função objetivo resultando em umaequação para a fala limpa de:<formula>formula see original document page 23</formula>
Eq. 30
Para resolver a Equação 30, deve-se conhecer asvariações a2x,t, a2w e σ2ζ, bem como os valores de resposta decanal H e G. A FIG. 6 ilustra um diagrama do fluxo de dados paraidentificar esses valores e para determinar valores de falaaperfeiçoados para cada quadro.
Na etapa 600, os quadros da expressão vocal sãoidentificados em que o usuário não está falando. Em seguida,esses quadros são usados para determinar a variação a2w e σ2ζpara o sensor alternativo e o ruido ambiente, respectivamente.
Para identificar os quadros em que o usuário não estáfalando, o sinal do sensor alternativo pode ser examinado. Tendoem vista que o sinal do sensor alternativo produzirá valores desinal muito menores para a fala de fundo do que para o ruido,se a energia do sinal do sensor alternativo for baixa, pode-sesupor que o falante não está falando.
Após as variações para o ruido ambiente e para o ruidodo sensor alternativo houverem sido determinadas, o método daFIG. 6 continua na etapa 602, em ele que determina a variaçãoda probabilidade anterior de fala, σ2χ,1, usando as equações 26ou 27 anteriores. Conforme discutido anteriormente, apenas osquadros contendo fala são usados para determinar a variação daprobabilidade anterior de fala limpa.
Na etapa 604, os quadros identificados em que ousuário não está falando são usados para estimar a resposta decanal do sensor alternativo G para ruido ambiente. Especi-ficamente, G é determinado como:
<formula>formula see original document page 24</formula>
Onde D é o número de quadros em que o usuário não estáfalando. Na Equação 31, presume-se que G permanece constante emtodos os quadros da expressão vocal e, assim sendo, não é maisdependente do quadro de tempo t. Na equação 31, o somatório emt pode ser substituído pelo cálculo de decaimento exponencialdiscutido anteriormente com relação às equações 16 a 25.
Na etapa 606, o valor da resposta de canal do sensoralternativo G para a fala de fundo é usada para determinar aresposta de canal do sensor alternativo para o sinal de falalimpa. Especificamente, H é determinado como:
<formula>formula see original document page 24</formula>
Na Equação 32, o somatório em T pode ser substituídocom o cálculo de decaimento exponencial recursivo discutidopreviamente com relação às equações 16 a 25.
Após H houver sido determinado na etapa 606, a Equação30 pode ser usada para determinar um valor de fala limpa paratodos os quadros. Ao resolver a Equação 30, de acordo com algumasconcretizações, o termo Bl-GY é substituído por , poisse verificou ser difícil determinar com precisão a diferença defase entre a fala de fundo e seu escapamento para o sensoralternativo.
Se o cálculo de decaimento exponencial recursivo forusado no lugar dos somatórios na Equação 32, um valor separadode Hl poderá ser determinado para cada quadro de tempo e poderáser usado como H na equação 30.
Embora a presente invenção tenha sido descrita comreferência a concretizações especificas, os versados na técnicairão reconhecer podem ser feitas alterações na forma e nosdetalhes sem divergir do espirito e do âmbito da invenção.

Claims (17)

1. Método para determinar uma estimativa para um valorcom ruido reduzido que representa uma parte de um sinal de falacom ruído reduzido, o método CARACTERIZADO por compreender:gerar um sinal de sensor alternativo usando um sensoralternativo que não seja um microfone de condução aérea;gerar um sinal de microfone de condução aérea;usar o sinal de sensor alternativo e o sinal demicrofone de condução aérea para estimar um valor para umaresposta de canal do sinal de sensor alternativo; eusar a resposta de canal e uma probabilidade anteriordo valor com ruído reduzido para estimar o valor com ruídoreduzido.
2. Método, de acordo com a reivindicação 1,CARACTERIZADO pelo fato de que a probabilidade anterior do valorcom ruído reduzido possui uma distribuição definida por umavariação.
3. Método, de acordo com a reivindicação 2,CARACTERIZADO por adicionalmente compreender determinar avariação da distribuição com base no sinal do microfone decondução aérea.
4. Método, de acordo com a reivindicação 3,CARACTERIZADO pelo fato de que determinar a variação com baseno sinal de microfone de condução aérea compreende formar umasoma de valores de energia para quadros do sinal do microfonede condução aérea.
5. Método, de acordo com a reivindicação 4,CARACTERIZADO pelo fato de que todos os quadros do sinal domicrofone de condução aérea contêm fala.
6. Método, de acordo com a reivindicação 3,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreende determinar a variaçãocom base em uma variação do ruido ambiente.
7. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreende determinar uma variaçãoassociada ao quadro atual do sinal de fala com ruido reduzidocom base em um quadro atual do sinal do microfone de conduçãoaérea e uma variação da distribuição associada a um quadroanterior do sinal de fala com ruido reduzido.
8. Método, de acordo com a reivindicação 7,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreender limitar os valores davariação, de modo que a variação sempre exceda algum valormínimo.
9. Método, de acordo com a reivindicação 8,CARACTERIZADO pelo fato de que o valor mínimo é uma porcentagemda variação do ruído ambiente.
10. Meio legível por computador contendo instruçõesexecutáveis por computador para realizar as etapasCARACTERIZADAS por compreender:determinar uma resposta de canal para um sensoralternativo usando um sinal do sensor alternativo e um sinal domicrofone de condução aérea; edeterminar uma variação para a distribuição deprobabilidade anterior para um valor de fala limpa com base nosinal de microfone de condução aérea; eusar a resposta.de canal e a variação para a dis-tribuição de probabilidade anterior para um valor de fala limpapara estimar um valor de fala limpa.
11. Meio de armazenamento legível por computador, deacordo com a reivindicação 10, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior adicionalmente compreende determinar a variação paraa distribuição de probabilidade anterior com base em umadistribuição de ruído ambiente.
12. Meio de armazenamento legível por computador, deacordo com a reivindicação 11, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior com base no sinal do microfone de condução aéreacompreende formar uma soma de valores de energia para quadrosdo sinal do microfone de condução aérea.
13. Meio de armazenamento legível por computador, deacordo com a reivindicação 11, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior adicionalmente compreende determinar uma variação paraa distribuição de probabilidade anterior associada a um valorde fala limpa atual com base em uma variação para uma dis-tribuição de probabilidade anterior associada a um valor de falalimpa anterior.
14. Meio legível por computador, de acordo com areivindicação 13, CARACTERIZADO pelo fato de que determinar avariação da distribuição de probabilidade anterior adicio-nalmente compreende obter uma soma ponderada da variação parauma distribuição de probabilidade anterior associada a um valorde fala limpa anterior e a diferença entre a energia de um quadrodo sinal do microfone de condução aérea e a variação dadistribuição do ruído ambiente.
15. Meio de armazenamento legível por computador, deacordo com a reivindicação 10, CARACTERIZADO pelo fato de quedeterminar a variação da distribuição de probabilidade anterioradicionalmente compreende definir um valor mínimo para avariação da distribuição de probabilidade anterior.
16. Meio de armazenamento legível por computador, deacordo com a reivindicação 15, CARACTERIZADO pelo fato de queo valor mínimo para a variação é em função de uma variação parauma distribuição do ruído ambiente.
17. Método para identificar um valor de fala limpapara um sinal de fala limpa, o método CARACTERIZADO porcompreender:determinar uma resposta de canal de um sensor al-ternativo para o ruído ambiente;determinar um parâmetro de distribuição de proba-bilidade anterior para valores de fala limpa a partir de um valorde um sinal de microfone de condução aérea;eusar a resposta de canal e a distribuição de pro-babilidade anterior para valores de fala limpa para determinarum valor de fala limpa.
BRPI0611649-3A 2005-06-20 2006-06-06 Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador BRPI0611649B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/156.434 2005-06-20
US11/156,434 US7346504B2 (en) 2005-06-20 2005-06-20 Multi-sensory speech enhancement using a clean speech prior
PCT/US2006/022058 WO2007001768A2 (en) 2005-06-20 2006-06-06 Multi-sensory speech enhancement using a clean speech prior

Publications (2)

Publication Number Publication Date
BRPI0611649A2 true BRPI0611649A2 (pt) 2010-09-28
BRPI0611649B1 BRPI0611649B1 (pt) 2019-09-24

Family

ID=37574502

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0611649-3A BRPI0611649B1 (pt) 2005-06-20 2006-06-06 Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador

Country Status (14)

Country Link
US (1) US7346504B2 (pt)
EP (1) EP1891627B1 (pt)
JP (1) JP4975025B2 (pt)
KR (1) KR101422844B1 (pt)
CN (1) CN101199006B (pt)
AT (1) ATE476734T1 (pt)
AU (1) AU2006262706B2 (pt)
BR (1) BRPI0611649B1 (pt)
CA (1) CA2607981C (pt)
DE (1) DE602006015954D1 (pt)
MX (1) MX2007014562A (pt)
NO (1) NO339834B1 (pt)
RU (1) RU2407074C2 (pt)
WO (1) WO2007001768A2 (pt)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7115093B2 (en) 2001-11-21 2006-10-03 Ge Medical Systems Global Technology Company, Llc Method and system for PDA-based ultrasound system
WO2006033104A1 (en) * 2004-09-22 2006-03-30 Shalon Ventures Research, Llc Systems and methods for monitoring and modifying behavior
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
CN102340719B (zh) * 2010-07-19 2014-07-23 深圳市宇恒互动科技开发有限公司 一种基于传感器获取声音信号的方法及装置
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN105611061A (zh) * 2015-12-31 2016-05-25 宇龙计算机通信科技(深圳)有限公司 一种语音传输的方法、装置及移动终端
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US629278A (en) * 1898-07-23 1899-07-18 Stickerei Feldmuehle Shuttle for embroidering-machines.
US636176A (en) * 1899-01-10 1899-10-31 Theodore Mundorff Eyeglass-case.
US785768A (en) * 1904-06-27 1905-03-28 Charles B Sippel Collar-button.
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
DE69531413T2 (de) 1994-05-18 2004-04-15 Nippon Telegraph And Telephone Corp. Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US6434239B1 (en) 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
DE69936476T2 (de) 1998-03-18 2007-11-08 Nippon Telegraph And Telephone Corp. Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen
AU763861B2 (en) 1998-05-19 2003-07-31 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6738485B1 (en) 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6258734B1 (en) * 1999-07-16 2001-07-10 Vanguard International Semiconductor Corporation Method for patterning semiconductor devices on a silicon substrate using oxynitride film
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
GB2357400A (en) 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
US7433484B2 (en) 2003-01-30 2008-10-07 Aliphcom, Inc. Acoustic vibration sensor
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6701390B2 (en) * 2001-06-06 2004-03-02 Koninklijke Philips Electronics N.V. FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7047047B2 (en) 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7092529B2 (en) 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
US7593851B2 (en) 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
NO339834B1 (no) 2017-02-06
AU2006262706B2 (en) 2010-11-25
JP2008544328A (ja) 2008-12-04
US20060287852A1 (en) 2006-12-21
JP4975025B2 (ja) 2012-07-11
WO2007001768A3 (en) 2007-12-13
EP1891627B1 (en) 2010-08-04
US7346504B2 (en) 2008-03-18
CN101199006B (zh) 2011-08-24
KR101422844B1 (ko) 2014-07-30
CA2607981A1 (en) 2007-01-04
NO20075732L (no) 2008-03-17
MX2007014562A (es) 2008-01-16
RU2007147463A (ru) 2009-06-27
KR20080018163A (ko) 2008-02-27
DE602006015954D1 (de) 2010-09-16
WO2007001768A2 (en) 2007-01-04
ATE476734T1 (de) 2010-08-15
EP1891627A4 (en) 2009-07-22
AU2006262706A1 (en) 2007-01-04
CN101199006A (zh) 2008-06-11
CA2607981C (en) 2014-08-19
EP1891627A2 (en) 2008-02-27
RU2407074C2 (ru) 2010-12-20
BRPI0611649B1 (pt) 2019-09-24

Similar Documents

Publication Publication Date Title
BRPI0611649A2 (pt) fala multi-sensorial usando fala limpa anterior
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
JP4219774B2 (ja) 劣化信号から雑音を除去する非線形観測モデル
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
JP5021212B2 (ja) 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置
BR112015007625B1 (pt) Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador
BR112014009338B1 (pt) Aparelho de atenuação de ruído e método de atenuação de ruído
JP6891144B2 (ja) 生成装置、生成方法及び生成プログラム
JP2014186295A (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US)

B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 21/02 , G10L 15/20

Ipc: G10L 21/0208 (2013.01), H04R 3/00 (1968.09)

B06T Formal requirements before examination [chapter 6.20 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]