BRPI0611649A2 - fala multi-sensorial usando fala limpa anterior - Google Patents
fala multi-sensorial usando fala limpa anterior Download PDFInfo
- Publication number
- BRPI0611649A2 BRPI0611649A2 BRPI0611649-3A BRPI0611649A BRPI0611649A2 BR PI0611649 A2 BRPI0611649 A2 BR PI0611649A2 BR PI0611649 A BRPI0611649 A BR PI0611649A BR PI0611649 A2 BRPI0611649 A2 BR PI0611649A2
- Authority
- BR
- Brazil
- Prior art keywords
- variation
- signal
- determining
- value
- speech
- Prior art date
Links
- 230000004044 response Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000007257 malfunction Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
- Time-Division Multiplex Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Meter Arrangements (AREA)
- Mobile Radio Communication Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
FALA MULTI-SENSORIAL USANDO FALA LIMPA ANTERIOR. Trata-se de um método e aparelho para determinar uma resposta de canal para um sensor alternativo usando um sinal do sensor alternativo e um sinal do microfone de condução aérea. Em seguida, a resposta de canal e uma distribuição de probabilidade anterior para valores de fala limpa são usadas para estimar um valor de fala limpa.
Description
"FALA MULTI-SENSORIAL USANDO FALA LIMPA ANTERIOR"
ANTECEDENTES DA INVENÇÃO
Um problema comum, tanto no reconhecimento de falaquanto na transmissão de fala, é o corrompimento do sinal de falapor ruídos aditivos. Em particular, demonstrou-se ser difícila detecção e/ou a correção do corrompimento provocado pela falade outro falante.
Recentemente, foi desenvolvido um sistema que tentaremover o ruído usando uma combinação de um sensor alternativo,tal como um microfone de condução óssea e um microfone decondução aérea. Esse sistema é treinado usando três canais detreinamento: um sinal ruidoso de treinamento de sensor al-ternativo, um sinal ruidoso de treinamento de microfone decondução aérea e um sinal limpo de treinamento de microfone decondução aérea. Cada um dos sinais é convertido em um domíniode características. As características para o sinal ruidoso desensor alternativo e o sinal ruidoso de microfone de conduçãoaérea são combinadas em um vetor único representando um sinalruidoso. As características para o sinal limpo de microfone decondução aérea formam um vetor limpo único. Esses vetores sãoentão usados para treinar um mapeamento entre os vetoresruidosos e os vetores limpos. Uma vez treinados, os mapeamentossão aplicados a um vetor ruidoso formado de uma combinação deum sinal ruidoso de teste de sensor alternativo e de um sinalruidoso de teste de microfone de condução aérea. Esse mapeamentoproduz um vetor de sinal limpo.
Esse sistema está muito abaixo do ideal quando ascondições de ruído dos sinais de teste não correspondem àscondições de ruído dos sinais de treinamento, pois os mape-amentos são projetados para as condições de ruído dos sinais detreinamento.
SUMÁRIO DA INVENÇÃO
Um método e aparelho determinam uma resposta de canalpara um sensor alternativo usando um sinal de sensor alternativoe um sinal de microfone de condução aérea. Em seguida, a respostade canal e uma distribuição de probabilidade anterior paravalores de fala limpa são usadas para estimar um valor de falalimpa.
BREVE DESCRIÇÃO DOS DESENHOS
A FIG. 1 é um diagrama de blocos de um ambiente decomputação em que as concretizações da presente invenção podemser praticadas.
A FIG. 2 é um diagrama de blocos de um ambiente decomputação alternativo em que as concretizações da presenteinvenção podem ser praticadas.
A FIG. 3 é um diagrama de blocos de um sistema geralde processamento de fala de uma concretização da presenteinvenção.
A FIG. 4 é um diagrama de blocos de um sistema paraaperfeiçoar a fala de acordo com uma concretização da presenteinvenção.
A FIG. 5 é um diagrama de fluxo de dados para a-perfeiçoar a fala de acordo com uma concretização da presenteinvenção.
A FIG. 6 é um diagrama de fluxo de dados para a-perfeiçoar a fala de acordo com outra concretização da presenteinvenção.
DESCRIÇÃO DETALHADA DAS CONCRETIZAÇÕES ILUSTRATIVAS
A FIG. 1 ilustra um exemplo de um ambiente de sistemade computação adequado 100 em que a invenção pode ser im-plementada. O ambiente de sistema de computação 100 é apenas umexemplo de um ambiente de computação adequado e não tem aintenção de implicar em qualquer limitação ao âmbito de uso ouà funcionalidade da invenção. Tampouco se deve interpretar oambiente de computação 100 como tendo qualquer dependência ouexigência com relação a qualquer um dos componentes ilustrados,ou combinação desses, no ambiente operacional exemplificativo 100.
A invenção é operacional com vários ambientes ouconfigurações diferentes de sistema de computação de uso geralou especifico. Exemplos de sistemas, ambientes e/ou confi-gurações de computação bem conhecidos que podem ser adequadospara uso com a invenção incluem, sem a isto se restringir,computadores pessoais, computadores servidores, dispositivosportáteis ou laptop, sistemas multiprocessadores, sistemasbaseados em microprocessador, decodificadores de sinais,componentes eletrônicos programados pelo consumidor, PCs derede, microcomputadores, computadores de grande porte, sistemasde telefonia, ambientes de computação distribuída que incluemqualquer um dos sistemas ou dispositivos acima, entre outros.
A invenção pode ser descrita no contexto geral deinstruções executadas por computador, tais como módulos deprograma sendo executados por um computador. Geralmente, osmódulos de programa incluem rotinas, programas, objetos,estruturas de dados etc., que efetuam tarefas especificas ouimplementam tipos de dados abstratos específicos. A invenção éprojetada para ser praticada em ambientes de computaçãodistribuída, nos quais as tarefas são efetuadas por dispositivosde processamento remoto ligados por meio de uma rede de co-municações. Em um ambiente de computação distribuída, os módulosde programa estão localizados tanto em meios de armazenamentode computador remotos quanto locais, incluindo dispositivos dearmazenamento em memória.
Com referência à FIG. 1, um sistema exemplificativopara implementação de concretizações da invenção inclui umdispositivo de computação de uso geral na forma de um computador110. Os componentes do computador 110 podem incluir, sem a istose restringir, uma unidade de processamento 120, uma memória desistema 130 e um barramento de sistema 121 que acopla várioscomponentes do sistema, incluindo a memória do sistema à unidadede processamento 120. O barramento de sistema 121 pode possuirqualquer um dos diferentes tipos de estrutura de barramento,incluindo um barramento de memória ou controlador de memória,um barramento periférico e um barramento local usando qualqueruma das diferentes arquiteturas de barramento. A título e-xemplificativo, sem limitação, tais arquiteturas incluembarramento da Arquitetura Padrão da Indústria (ISA), barramentoda Arquitetura de Microcanal (MCA), barramento ISA Aperfeiçoada(EISA), barramento local da Associação de Padrões Eletrônicosde Vídeo (VESA) e barramento de Interconexão de ComponentesPeriféricos (PCI), também chamado de barramento Mezanino.
O computador 110 geralmente inclui uma variedade demeios legíveis por computador. Meios legíveis por computadorpodem ser qualquer meio disponível que pode ser acessado porcomputador 110 e que inclui tanto meios voláteis e não-voláteisquanto meios removíveis e não-removíveis. A título exempli-ficativo, sem limitação, meios legíveis por computador podemcompreender meios de armazenamento e meios de comunicação decomputador. Os meios de armazenamento de computador incluemtanto meios voláteis e não-voláteis, quanto removíveis enão-removíveis implementados em qualquer método ou tecnologiapara armazenamento de informações, tais como instruções le-gíveis por computador, estruturas de dados, módulos de programaou outros dados. Os meios de armazenamento incluem, sem a istose restringir, RAM, ROM, KE PROM, memória flash ou outratecnologia de memória, CD-ROM, discos versáteis digitais (DVD)ou outro armazenamento em disco óptico, cassetes magnéticos,fita magnética, armazenamento em disco magnético ou outrosdispositivos de armazenamento magnético, ou qualquer outro meioque possa ser usado para armazenar as informações desejadas eque possa ser acessado pelo computador 110. Os meios de co-municação geralmente abrangem instruções legíveis por com-putador, estruturas de dados, módulos de programa ou outrosdados em um sinal de dados modulado tal como uma onda portadoraou outro mecanismo de transporte, e incluem quaisquer meios dedistribuição de informações. O termo "sinal de dados modulados"significa um sinal que uma ou mais de suas característicasajustadas ou alteradas de tal maneira a codificar as informaçõesno sinal. A título exemplificativo, e sem limitação, os meiosde comunicação incluem meios com fio, tal como uma rede com fioou conexão direta com fio, e meios sem fio, tal como acústico,RF, infravermelho e outros meios sem fio. Combinações dequalquer um dos elementos anteriores também deverão ser in-cluídas no âmbito de meios legíveis por computador.
A memória de sistema 130 inclui meios de armazenamentode computador na forma de memória volátil e/ou não-volátil, talcomo memória somente para leitura (ROM) 131 e memória de acessoaleatório (RAM) 132. Um sistema básico de entrada/saída 133(BIOS), contendo as rotinas básicas para ajudar a transferirinformações entre os elementos dentro do computador 110, talcomo durante a inicialização, é geralmente armazenado na ROM 131A RAM 132 geralmente contém dados e/ou módulos de programa quepodem ser acessados a qualquer momento e/ou que estão sendooperados pela unidade de processamento 120. A título exem-plificativo, e sem limitação, a FIG. 1 ilustra o sistemaoperacional 134, programas aplicativos 135, outros módulos deprograma 136, e dados de programa 137.
0 computador 110 também inclui outros meios dearmazenamento de computador removíveis/não-removíveis e vo-láteis/não-voláteis . Atitulomeramente exemplificativo, a FIG.1 ilustra uma unidade de disco rígido 141 que lê ou grava em meiosmagnéticos não-removíveis e não-voláteis, uma unidade de discomagnético 151 que lê ou grava em um disco magnético removívele não-volátil 152, e uma unidade de disco óptica 155 que lê ouescreve em um disco óptico removível e não-volátil 156, tal comoum CD-ROM ou outros meios ópticos. Outros meios de armazenamentode computador removíveis/não-removíveis e volá-teis/não-voláteis que podem ser usados no ambiente operacionalexemplificativo incluem, mas sem a isto se restringir, cassetesde fita magnética, cartões de memória flash, discos versáteisdigitais, fitas de vídeo digital, RAM de estado sólido, ROM deestado sólido, entre outros. A unidade de disco rígido 141 égeralmente conectada ao barramento do sistema 121 por meio deuma interface de memória não-removível, tal como a interface 140,e a unidade de disco magnético 151 e a unidade de disco óptico155 são geralmente conectadas ao barramento de sistema 121 poruma interface de memória removível, tal como a interface 150.
As unidades e seus meios de armazenamento de com-putador associados, discutidos acima na FIG. 1, fornecem oarmazenamento de instruções legíveis por computador, estruturasde dados, módulos de programa e outros dados para o computador110. Na FIG. 1, por exemplo, a unidade de disco rígido 141 éilustrada armazenando o sistema operacional 144, os programasaplicativos 145, outros módulos de programa 146, e dados deprograma 147. Observe que esses componentes podem ou ser osmesmos ou ser diferentes do sistema operacional 134, dosprogramas aplicativos 135, dos outros módulos de programa 136,e dos dados de programa 137. O sistema operacional 144, osprogramas aplicativos 145, os outros módulos de programa 146,e os dados de programa 147 recebem números diferentes nestedocumento para mostrar que se tratam, no mínimo, de cópiasdiferentes.
Um usuário pode entrar com comandos e informações nocomputador 110 por meio de dispositivos de entrada, tal como umteclado 162, um microfone 163 e um dispositivo de apontamento161, tal como um mouse, trackball ou superfície de toque. Outrosdispositivos de entrada (não ilustrados) podem incluir umjoystick, controle de jogo, antena de satélite, scanner, entreoutros. Esses e outros dispositivos de entrada são geralmenteconectados à unidade de processamento 120 por meio de umainterface de entrada do usuário 160 que é acoplada ao barramentodo sistema, mas que pode ser conectada por outra interface eestruturas de barramento, tal como uma porta paralela, porta dejogo ou um barramento serial universal (USB). Um monitor 191,ou outro tipo de dispositivo de exibição, também é conectado aobarramento de sistema 121 por meio de uma interface, tal comouma interface de video 190. Além do monitor, os computadorestambém podem incluir outros periféricos de saida, tais comoalto-falantes 197 e impressora 196, que podem ser conectados pormeio de uma interface periférica de saida 195.
0 computador 110 opera em um ambiente em rede usandoconexões lógicas com um ou mais computadores remotos, tal comoo computador remoto 180. 0 computador remoto 180 pode ser umcomputador pessoal, um dispositivo portátil, um servidor, umroteador, um PC de rede, um dispositivo não hierarquizado ououtro nó comum da rede, e geralmente inclui muitos ou todos oselementos supramencionados com relação ao computador 110. Asconexões lógicas ilustradas na FIG. 1 incluem uma rede local (LAN)171 e uma rede de longa distância (WAN) 173, mas também podeincluir outras redes. Tais ambientes de rede são comuns emescritórios, redes de computador a nivel empresarial, intranetse a Internet.
Quando usado em um ambiente em rede LAN, o computador110 é conectado à LAN 171 por meio de uma interface de rede ouadaptador 170. Quando usado em um ambiente em rede WAN, ocomputador 110 geralmente inclui um modem 172 ou outros meiospara estabelecer comunicações pela WAN 173, tal como a Internet.O modem 172, que pode ser interno ou externo, pode ser conectadoao barramento do sistema 121 por meio da interface de entradado usuário 160, ou por outro mecanismo apropriado. Em umambiente em rede, os módulos de programa representados comrelação ao computador 110, ou partes deles, podem ser arma-zenados no dispositivo de armazenamento em memória remoto. Atitulo exemplificativo, e sem limitação, a FIG. 1 ilustraprogramas aplicativos remotos 185 residindo no computadorremoto 180. Será apreciado que as conexões de rede ilustradassão exemplificativas e que outros meios para estabelecer umaligação de comunicações entre os computadores podem ser usados.
A FIG. 2 é um diagrama de blocos de um dispositivomóvel 200, que é um exemplo de um ambiente de computação. 0dispositivo móvel 200 inclui um microprocessador 202, memória204, componentes de entrada/saida (E/S) 206 e uma interface decomunicação 208 para prover a comunicação com computadoresremotos ou outros dispositivos móveis. Em uma concretização, oscomponentes mencionados adiante estão acoplados para se co-municarem por meio de um barramento adequado 210.
A memória 204 é implementada como memória eletrônicanão-volátil, tal como memória de acesso aleatório (RAM) com ummódulo de bateria de segurança (não ilustrado), de modo que asinformações armazenadas na memória 204 não sejam perdidas quandoa alimentação geral do dispositivo móvel 200 for interrompida.Uma parte da memória 204 é, de preferência, alocada como memóriaendereçável para execução de programas, ao passo que outra parteda memória 204 é, de preferência, usada para armazenamento, demodo a simular o armazenamento em uma unidade de disco.
A Memória 204 inclui um sistema operacional 212,programas aplicativos 214, bem como um armazenamento de objetos216 Enquanto operante, o sistema operacional 212 é, de pre-ferência, executado pelo processador 202 da memória 204. 0sistema operacional 212, em uma concretização preferida, é osistema operacional da marca WINDOWS® CE, disponível paracomercialização pela Microsoft Corporation. O sistema ope-racional 212 é, de preferência, projetado para dispositivosmóveis, e aperfeiçoa características de banco de dados que podemser utilizadas pelos aplicativos 214 por meio de um conjunto deinterfaces e métodos expostos para programação de aplicativos.
Os objetos no armazenamento de objetos 216 são mantidos pelosaplicativos 214 e pelo sistema operacional 212, ao menosparcialmente em resposta às chamadas às interfaces e métodosexpostos para programação de aplicativos.
A interface de comunicação 208 representa váriosdispositivos e tecnologias que permitem ao dispositivo móvel 200enviar e receber informações. Os dispositivos incluem, paracitar alguns, modens com fio e sem fio, receptores de satélitee sintonizadores de difusão. 0 dispositivo móvel 200 pode tambémser conectado diretamente a um computador para trocar dados comele. Em tais casos, a interface de comunicação 208 pode ser umtransceptor de infravermelho ou uma conexão de comunicaçãoserial ou paralela, todos os quais são capazes de transmitirinformações de fluxo contínuo.Os componentes de entrada/saída 206 incluem váriosdispositivos de entrada, tal como uma tela sensível ao toque,botões, botões de rolagem e um microfone, bem como váriosdispositivos de saída, incluindo um gerador de áudio, umdispositivo de vibração, e um meio de exibição. Os dispositivoslistados acima são meramente exemplificativos e nem todosprecisam estar presentes no dispositivo móvel 200. Além disso,outros dispositivos de entrada/saída podem ser ligados a ouincluídos no dispositivo móvel 200 dentro do âmbito da presenteinvenção.
A FIG. 3 ilustra um diagrama de bloco básico deconcretizações da presente invenção. Na FIG. 3, um falante 300gera um sinal de fala 302 (X) que é detectado por um microfonede condução aérea 304 e um sensor alternativo 306. Exemplos desensores alternativos incluem um microfone de garganta, que medeas vibrações da garganta do usuário, um sensor de condução ósseo,localizado no ou adjacente ao osso facial ou da cabeça do usuário(tal como o osso maxilar) ou na orelha do usuário e que detectaas vibrações da cabeça e do maxilar que correspondem à falagerada pelo usuário. O microfone de condução aérea 304 é o tipode microfone que é usado geralmente para converter ondas aéreasde som em sinais elétricos.
O microfone de condução aérea 304 também recebe ruídoambiente 308 (Z) gerado por uma ou mais fontes de ruído 310.Dependendo do tipo de ruído ambiente e da altura do ruídoambiente, o ruído ambiente 308 também pode ser detectado pelosensor alternativo 306. Entretanto, de acordo com as con-cretizações da presente invenção, o sensor alternativo 306 énormalmente menos sensível ao ruído ambiente do que o microfonede condução aérea 304. Portanto, o sinal do sensor alternativo316 (B), gerado pelo sensor alternativo 306, inclui, em geral,menos ruído do que o sinal do microfone de condução aérea 318(Y), gerado pelo microfone de condução aérea 304. Embora o sensoralternativo 306 seja menos sensível ao ruído ambiente, ele nãogera nenhum ruído no sensor 320 (W).
O percurso desde o falante 300 até o sinal do sensoralternativo 316 pode ser modelado como um canal tendo umaresposta de canal Η. O percurso desde o ruído ambiente 308 atéo sinal do sensor alternativo 316 pode ser modelado como um canaltendo uma resposta de canal G.
O sinal do sensor alternativo 316 (B) e o sinal domicrofone de condução aérea 318 (Y) são transmitidos para umestimador de sinal limpo 322, que estima um sinal limpo 324. Aestimativa de sinal limpo 324 é transmitida para o processo defala 328. A estimativa de sinal limpo 324 pode tanto ser um sinalno domínio do tempo filtrado quanto um vetor da Transformada deFourier. Caso a estimativa de sinal limpo 324 seja um sinal nodomínio do tempo, o processo de fala 328 pode assumir a formade um receptor de fala, de um sistema de codificação de fala oude um sistema de reconhecimento de fala. Caso a estimativa desinal limpo 324 seja um vetor da Transformada de Fourier, oprocesso de fala 328 será normalmente um sistema de reco-nhecimento de fala, ou conterá uma Transformada Inversa deFourier para converter o vetor da Transformada de Fourier emformas de onda.
Dentro do aperfeiçoamento por filtragem direta 322,o sinal do sensor alternativo 316 e o sinal do microfone 318 sãoconvertidos para o domínio de freqüência sendo usado paraestimar a fala limpa. Conforme ilustra a FIG. 4, o sinal do sensoralternativo 316 e o sinal do microfone de condução aérea 318 sãotransmitidos para os conversores de analógico para digital 404e 414, respectivamente, para gerar uma seqüência de valoresdigitais, que são agrupados em quadros de valores pelosconstrutores de quadros 406 e 416, respectivamente. Em umaconcretização, os conversores A/D 404 e 414 amostram os sinaisanalógicos em 16 kHz e 16 bits por amostra, com isso criando 32quilobytes de dados de fala por segundo, e os construtores dequadro 406 e 416 criam um novo quadro respectivo a cada 10milissegundos que inclui o equivalente a 20 milissegundos dedados.
Cada respectivo quadro de dados, fornecido pelosconstrutores de quadros 406 e 416, é convertido para o domíniode freqüência usando as Transformadas Rápidas de Fourier (FFT)408 e 418, respectivamente.
Os valores de domínio de freqüência para o sinal dosensor alternativo e o sinal do microfone de condução aérea sãofornecidos para o estimador de sinal limpo 420, que usa osvalores de domínio de freqüência para estimar o sinal de falalimpa 324.
De acordo com algumas concretizações, o sinal de falalimpa 324 é convertido de volta para o domínio do tempo usandoas Transformadas Rápidas de Fourier 422. Isso cria uma versãode domínio do tempo do sinal de fala limpa 324.
As concretizações da presente invenção oferecemtécnicas de filtragem direta para estimar o sinal de fala limpa324. Sob filtragem direta, uma estimativa de probabilidademáxima da(s) resposta(s) de canal para o sensor alternativo 306é determinada minimizando uma função relacionada à(s) res-posta (s) de canal. Em seguida, essas estimativas são usadas paradeterminar uma estimativa de probabilidade máxima do sinal defala limpa minimizando uma função relacionada ao sinal de falalimpa.
De acordo com uma concretização da presente invenção,a resposta de canal G, correspondendo à fala de fundo sendodetectada pelo sensor alternativo, é considerada como zero. Issoresulta em um modelo entre o sinal de fala limpa e o sinal domicrofone de condução aérea e o sinal do sensor alternativo de:
<formula>formula see original document page 15</formula>
onde y (t) é o sinal do microfone de condução aérea, b(t) é o sinaldo sensor alternativo, x(t) é o sinal de fala limpa, z(t) é oruido ambiente, w(t) é o ruido do sensor alternativo, e h(t) éa resposta de canal para o sinal de fala limpa em relação aosensor alternativo. Sendo assim, na Equação 2, o sinal do sensoralternativo é modelado como uma versão filtrada da fala limpa,onde o filtro possui uma resposta de impulso de h(t).
No domínio de freqüência, as Equações 1 e 2 podem serexpressas como:
<formula>formula see original document page 15</formula>
onde a notação Yt (k) representa o ie-ésimo componente de fre-qüência de um quadro de um sinal centralizado ao redor do tempotempo t. Essa notação se aplica a Xt(k), Zt(k), Ht(k), Wt(k) eBt(k). Na discussão a seguir, a referência ao componente defreqüência k é omitida em prol da clareza. No entanto, osversados na técnica reconhecerão que os cálculos realizados aseguir são realizados em uma base por componente de freqüência.
De acordo com essa concretização, as partes real eimaginária do ruido Zt e Wt são modeladas como Gaussianos demédia zero independentes, tal que:
<formula>formula see original document page 16</formula>
onde σ2ζ é a variação para o ruido Zt e a2w é a variação parao ruido Wt.
Ht também é modelado como um Gaussiano, tal que:
<formula>formula see original document page 16</formula>
onde HO é o meio da resposta de canal e a2h é a variação daresposta de canal.
Dados esses parâmetros de modelo, a probabilidade deum valor de fala limpa X e um valor de resposta de canal H sãodescritos pela probabilidade condicional:
<formula>formula see original document page 16</formula>
que é proporcional a:
<formula>formula see original document page 16</formula>
que é proporcional a:
<formula>formula see original document page 16</formula>
Em uma concretização, a probabilidade anterior paraa resposta de canal, p[Ht \ HOr σ2Η) , é ignorada e cada uma dasprobabilidades restantes é tratada como uma distribuiçãoGaussiana com a probabilidade anterior de fala limpa, ρ (Xt) ,sendo tratada como um Gaussiano de média zero com uma variaçãoa2x,t, tal que:
<formula>formula see original document page 17</formula>
Usando essa simplificação e a Equação 10, a estimativade probabilidade máxima de Xt para o quadro em t é determinadaminimizando:
<formula>formula see original document page 17</formula>
Visto que a Equação 12 está sendo minimizada comrespeito a Xt, a derivada parcial com respeito a Xt pode serobtida para determinar o valor de X, que minimiza a função.
Especificamente, ----- produz:
<formula>formula see original document page 17</formula>
onde H*t representa o complexo conjugado de Ht, e | Ht |representa a grandeza do valor de complexo Ht.
A resposta de canal Ht é estimada a partir da expressãovocal inteira minimizando:
<formula>formula see original document page 17</formula>
Substituindo a expressão de X, calculada na Equação
<formula>formula see original document page 17</formula>
13, na Equação 14, definindo a derivada parcial 1 , e, emseguida, supondo que H é constante em todos os quadros de tempoT, obtemos uma solução para H de:
<formula>formula see original document page 18</formula>
Na Equação 15, a estimação de H requer o cálculo devários somatórios nos últimos T quadros na forma de:
<formula>formula see original document page 18</formula>
onde é (σ2z | Bt|2 -a2w | Yt|2)_ ou B*t, Yt.
Com essa fórmula, o primeiro quadro (t = 1) é tãoimportante quanto o último quadro (t = T). Entretanto, em outrasconcretizações, é preferível que os últimos quadros contribuammais para a estimação de H do que os quadros antigos. Uma técnicapara obter isso é o "envelhecimento exponencial", em que ossomatórios da Equação 16 são substituídos por:
<formula>formula see original document page 18</formula>
onde c ^ 1. Se c = 1, então a Equação 17 é equivalenteà Equação 16. Se c < 1, então o último quadro é ponderado por1, o penúltimo quadro é ponderado por c (isto é, contribui menosdo que o último quadro) , e o primeiro quadro é ponderado por cT-1(isto é, contribui significativamente menos do que o últimoquadro). Vejamos um exemplo. Seja c = 0,99 e T = 100, então opeso para o primeiro quadro é de apenas 0,9999 = 0,37.
De acordo com uma concretização, a Equação 17 éestimada de maneira recursiva como<formula>formula see original document page 19</formula>
Uma vez que a Equação 18 pondera automaticamente menosdados antigos, um tamanho de janela fixo não precisa ser usado,e os dados dos últimos T quadros não precisar ser armazenadosna memória. Em vez disso, apenas o valor para S(T-I) no quadroanterior precisa ser armazenado.
Usando a Equação 18, a Equação 15 se torna:
<formula>formula see original document page 19</formula>
onde:
<formula>formula see original document page 19</formula>
O valor de c nas equações 20 e 21 proporciona umtamanho efetivo para o número de quadros anteriores que sãousados para calcular o valor atual de J(T) e K(T). Especi-ficamente, o tamanho efetivo é dado por:
<formula>formula see original document page 19</formula>
O tamanho efetivo assintótico é dado por:
<formula>formula see original document page 19</formula>
ou, de forma equivalente,
<formula>formula see original document page 19</formula>
Assim, usando a equação 24, c pode ser definido paraobter diferentes tamanhos efetivos na equação 19. Por exemplo,para obter um tamanho efetivo de 200 quadros, c é definido como:
<formula>formula see original document page 19</formula>Uma vez que H tenha sido estimado usando a Equação 15,ele pode ser usado no lugar de todos os Ht da Equação 13 paradeterminar um valor separado de Xt em cada quadro de tempo t.Como alternativa, a equação 19 pode ser usada para estimar Htem cada quadro de tempo t. Em seguida, o valor de Ht em cada quadroé usado na Equação 13 para determinar Xt.
A FIG. 5 ilustra um diagrama do fluxo de dados de ummétodo da presente invenção que usa as Equações 13 e 15 paraestimar um valor de fala limpa para uma expressão vocal.
Na etapa 500, os componentes de freqüência dos quadrosdo sinal do microfone de condução aérea e do sinal do sensoralternativo são capturados em toda a expressão vocal.
Na etapa 502, a variação para o ruido ambiente σ2ζ eo ruido do sensor alternativo a2w são determinados a partir dosquadros do sinal do microfone de condução aérea e do sinal dosensor alternativo, respectivamente, que são capturadospreviamente na expressão vocal durante os períodos em que ofalante não está falando.
O método determina quando o falante não está falandopela identificação dos segmentos de baixa energia do sinal dosensor alternativo, já que a energia do ruído do sensor al-ternativo é muito menor do que o sinal de fala capturado pelosinal do sensor alternativo. Em outras concretizações, técnicasconhecidas de detecção de fala podem ser aplicadas ao sinal defala de condução aérea para identificar quando o falante estáfalando. Durante os períodos em que se considera que o falantenão está falando, presume-se que X seja zero e qualquer sinalvindo do microfone de condução aérea ou do sensor alternativoé considerado como ruído. As amostras desses valores de ruídosão coletadas dos quadros sem fala e usadas para estimar avariação do ruído no sinal de condução aérea e no sinal do sensoralternativo.
Na etapa 504, é determinada a variação da distribuiçãode probabilidade anterior de fala limpa, a2x,t. De acordo comuma concretização, essa variação é calculada como:
<formula>formula see original document page 21</formula>
onde /Yd/ 2 é a energia do sinal do microfone decondução aérea e o somatório é realizado em um conjunto dequadros de fala que inclui os k quadros de fala antes do quadrode fala atual e os m quadros de fala após o quadro de fala atual.
Para evitar valores negativos ou um valor igual a zero para avariação, σ2χ, t, algumas concretizações da presente invençãoutilizam (0,01 · σν) como o menor valor possível para σ2χ, t.
Em uma concretização alternativa, uma implementaçãoem tempo real é realizada usando uma técnica de regularizaçãoque conta apenas com a variação do sinal de fala limpa no quadroprecedente da fala, tal que:
<formula>formula see original document page 21</formula>
onde a2t-l é a variação da distribuição deprobabilidade anterior de fala limpa do último quadro quecontinha a fala, ρ é um fator regularizador com um intervaloentre 0 e 1, α é uma constante pequena, e max ( | Yd | 2 -σ2ν, α | Yd | 2)indica que o maior dentre I Yd|2 -σ2ν e a|Yd|2 é selecionado paraassegurar valores positivos para σ2χ, 1. De acordo com umaconcretização específica, o fator regularizador possui um valorde 0,08 e α = 0,01.
Na etapa 506, os valores para o sinal do sensoralternativo e o sinal do microfone de condução aérea em todosos quadros da expressão vocal são usados para determinar um valorde H usando a Equação 15 acima. Na etapa 508, esse valor de Hé utilizado conjuntamente aos valores individuais do sinal domicrofone de condução aérea e do sinal do sensor alternativo nomesmo quadro de tempo para determinar um valor de fala a-perfeiçoado ou com redução de ruido para cada quadro de tempousando a Equação 13 acima.
Em outras concretizações, em vez de usar todos osquadros da expressão vocal para determinar um único valor de Husando a Equação 15, H é determinado para cada quadro usando aEquação 19. Em seguida, o valor de H é usado para calcular X parao quadro usando a equação 13 acima.
Em uma segunda concretização da presente invenção, aresposta de canal do sensor alternativo para o ruido ambienteé considerada como diferente de zero. Nessa concretização, osinal do microfone de condução aérea e o sinal do sensoralternativo são modelados como:
<formula>formula see original document page 22</formula>
onde a resposta de canal dos sensores alternativospara o ruido ambiente é um valor diferente de zero de Gt(k).
A probabilidade máxima para a fala limpa X pode serencontrada minimizando uma função objetivo resultando em umaequação para a fala limpa de:<formula>formula see original document page 23</formula>
Eq. 30
Para resolver a Equação 30, deve-se conhecer asvariações a2x,t, a2w e σ2ζ, bem como os valores de resposta decanal H e G. A FIG. 6 ilustra um diagrama do fluxo de dados paraidentificar esses valores e para determinar valores de falaaperfeiçoados para cada quadro.
Na etapa 600, os quadros da expressão vocal sãoidentificados em que o usuário não está falando. Em seguida,esses quadros são usados para determinar a variação a2w e σ2ζpara o sensor alternativo e o ruido ambiente, respectivamente.
Para identificar os quadros em que o usuário não estáfalando, o sinal do sensor alternativo pode ser examinado. Tendoem vista que o sinal do sensor alternativo produzirá valores desinal muito menores para a fala de fundo do que para o ruido,se a energia do sinal do sensor alternativo for baixa, pode-sesupor que o falante não está falando.
Após as variações para o ruido ambiente e para o ruidodo sensor alternativo houverem sido determinadas, o método daFIG. 6 continua na etapa 602, em ele que determina a variaçãoda probabilidade anterior de fala, σ2χ,1, usando as equações 26ou 27 anteriores. Conforme discutido anteriormente, apenas osquadros contendo fala são usados para determinar a variação daprobabilidade anterior de fala limpa.
Na etapa 604, os quadros identificados em que ousuário não está falando são usados para estimar a resposta decanal do sensor alternativo G para ruido ambiente. Especi-ficamente, G é determinado como:
<formula>formula see original document page 24</formula>
Onde D é o número de quadros em que o usuário não estáfalando. Na Equação 31, presume-se que G permanece constante emtodos os quadros da expressão vocal e, assim sendo, não é maisdependente do quadro de tempo t. Na equação 31, o somatório emt pode ser substituído pelo cálculo de decaimento exponencialdiscutido anteriormente com relação às equações 16 a 25.
Na etapa 606, o valor da resposta de canal do sensoralternativo G para a fala de fundo é usada para determinar aresposta de canal do sensor alternativo para o sinal de falalimpa. Especificamente, H é determinado como:
<formula>formula see original document page 24</formula>
Na Equação 32, o somatório em T pode ser substituídocom o cálculo de decaimento exponencial recursivo discutidopreviamente com relação às equações 16 a 25.
Após H houver sido determinado na etapa 606, a Equação30 pode ser usada para determinar um valor de fala limpa paratodos os quadros. Ao resolver a Equação 30, de acordo com algumasconcretizações, o termo Bl-GY é substituído por , poisse verificou ser difícil determinar com precisão a diferença defase entre a fala de fundo e seu escapamento para o sensoralternativo.
Se o cálculo de decaimento exponencial recursivo forusado no lugar dos somatórios na Equação 32, um valor separadode Hl poderá ser determinado para cada quadro de tempo e poderáser usado como H na equação 30.
Embora a presente invenção tenha sido descrita comreferência a concretizações especificas, os versados na técnicairão reconhecer podem ser feitas alterações na forma e nosdetalhes sem divergir do espirito e do âmbito da invenção.
Claims (17)
1. Método para determinar uma estimativa para um valorcom ruido reduzido que representa uma parte de um sinal de falacom ruído reduzido, o método CARACTERIZADO por compreender:gerar um sinal de sensor alternativo usando um sensoralternativo que não seja um microfone de condução aérea;gerar um sinal de microfone de condução aérea;usar o sinal de sensor alternativo e o sinal demicrofone de condução aérea para estimar um valor para umaresposta de canal do sinal de sensor alternativo; eusar a resposta de canal e uma probabilidade anteriordo valor com ruído reduzido para estimar o valor com ruídoreduzido.
2. Método, de acordo com a reivindicação 1,CARACTERIZADO pelo fato de que a probabilidade anterior do valorcom ruído reduzido possui uma distribuição definida por umavariação.
3. Método, de acordo com a reivindicação 2,CARACTERIZADO por adicionalmente compreender determinar avariação da distribuição com base no sinal do microfone decondução aérea.
4. Método, de acordo com a reivindicação 3,CARACTERIZADO pelo fato de que determinar a variação com baseno sinal de microfone de condução aérea compreende formar umasoma de valores de energia para quadros do sinal do microfonede condução aérea.
5. Método, de acordo com a reivindicação 4,CARACTERIZADO pelo fato de que todos os quadros do sinal domicrofone de condução aérea contêm fala.
6. Método, de acordo com a reivindicação 3,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreende determinar a variaçãocom base em uma variação do ruido ambiente.
7. Método, de acordo com a reivindicação 6,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreende determinar uma variaçãoassociada ao quadro atual do sinal de fala com ruido reduzidocom base em um quadro atual do sinal do microfone de conduçãoaérea e uma variação da distribuição associada a um quadroanterior do sinal de fala com ruido reduzido.
8. Método, de acordo com a reivindicação 7,CARACTERIZADO pelo fato de que determinar a variação dadistribuição adicionalmente compreender limitar os valores davariação, de modo que a variação sempre exceda algum valormínimo.
9. Método, de acordo com a reivindicação 8,CARACTERIZADO pelo fato de que o valor mínimo é uma porcentagemda variação do ruído ambiente.
10. Meio legível por computador contendo instruçõesexecutáveis por computador para realizar as etapasCARACTERIZADAS por compreender:determinar uma resposta de canal para um sensoralternativo usando um sinal do sensor alternativo e um sinal domicrofone de condução aérea; edeterminar uma variação para a distribuição deprobabilidade anterior para um valor de fala limpa com base nosinal de microfone de condução aérea; eusar a resposta.de canal e a variação para a dis-tribuição de probabilidade anterior para um valor de fala limpapara estimar um valor de fala limpa.
11. Meio de armazenamento legível por computador, deacordo com a reivindicação 10, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior adicionalmente compreende determinar a variação paraa distribuição de probabilidade anterior com base em umadistribuição de ruído ambiente.
12. Meio de armazenamento legível por computador, deacordo com a reivindicação 11, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior com base no sinal do microfone de condução aéreacompreende formar uma soma de valores de energia para quadrosdo sinal do microfone de condução aérea.
13. Meio de armazenamento legível por computador, deacordo com a reivindicação 11, CARACTERIZADO pelo fato de quedeterminar a variação para a distribuição de probabilidadeanterior adicionalmente compreende determinar uma variação paraa distribuição de probabilidade anterior associada a um valorde fala limpa atual com base em uma variação para uma dis-tribuição de probabilidade anterior associada a um valor de falalimpa anterior.
14. Meio legível por computador, de acordo com areivindicação 13, CARACTERIZADO pelo fato de que determinar avariação da distribuição de probabilidade anterior adicio-nalmente compreende obter uma soma ponderada da variação parauma distribuição de probabilidade anterior associada a um valorde fala limpa anterior e a diferença entre a energia de um quadrodo sinal do microfone de condução aérea e a variação dadistribuição do ruído ambiente.
15. Meio de armazenamento legível por computador, deacordo com a reivindicação 10, CARACTERIZADO pelo fato de quedeterminar a variação da distribuição de probabilidade anterioradicionalmente compreende definir um valor mínimo para avariação da distribuição de probabilidade anterior.
16. Meio de armazenamento legível por computador, deacordo com a reivindicação 15, CARACTERIZADO pelo fato de queo valor mínimo para a variação é em função de uma variação parauma distribuição do ruído ambiente.
17. Método para identificar um valor de fala limpapara um sinal de fala limpa, o método CARACTERIZADO porcompreender:determinar uma resposta de canal de um sensor al-ternativo para o ruído ambiente;determinar um parâmetro de distribuição de proba-bilidade anterior para valores de fala limpa a partir de um valorde um sinal de microfone de condução aérea;eusar a resposta de canal e a distribuição de pro-babilidade anterior para valores de fala limpa para determinarum valor de fala limpa.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/156,434 US7346504B2 (en) | 2005-06-20 | 2005-06-20 | Multi-sensory speech enhancement using a clean speech prior |
US11/156.434 | 2005-06-20 | ||
PCT/US2006/022058 WO2007001768A2 (en) | 2005-06-20 | 2006-06-06 | Multi-sensory speech enhancement using a clean speech prior |
Publications (2)
Publication Number | Publication Date |
---|---|
BRPI0611649A2 true BRPI0611649A2 (pt) | 2010-09-28 |
BRPI0611649B1 BRPI0611649B1 (pt) | 2019-09-24 |
Family
ID=37574502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0611649-3A BRPI0611649B1 (pt) | 2005-06-20 | 2006-06-06 | Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador |
Country Status (14)
Country | Link |
---|---|
US (1) | US7346504B2 (pt) |
EP (1) | EP1891627B1 (pt) |
JP (1) | JP4975025B2 (pt) |
KR (1) | KR101422844B1 (pt) |
CN (1) | CN101199006B (pt) |
AT (1) | ATE476734T1 (pt) |
AU (1) | AU2006262706B2 (pt) |
BR (1) | BRPI0611649B1 (pt) |
CA (1) | CA2607981C (pt) |
DE (1) | DE602006015954D1 (pt) |
MX (1) | MX2007014562A (pt) |
NO (1) | NO339834B1 (pt) |
RU (1) | RU2407074C2 (pt) |
WO (1) | WO2007001768A2 (pt) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7115093B2 (en) | 2001-11-21 | 2006-10-03 | Ge Medical Systems Global Technology Company, Llc | Method and system for PDA-based ultrasound system |
WO2006033104A1 (en) * | 2004-09-22 | 2006-03-30 | Shalon Ventures Research, Llc | Systems and methods for monitoring and modifying behavior |
US9767817B2 (en) * | 2008-05-14 | 2017-09-19 | Sony Corporation | Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking |
CN102405463B (zh) * | 2009-04-30 | 2015-07-29 | 三星电子株式会社 | 利用多模态信息的用户意图推理装置及方法 |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
CN102340719B (zh) * | 2010-07-19 | 2014-07-23 | 深圳市宇恒互动科技开发有限公司 | 一种基于传感器获取声音信号的方法及装置 |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
CN103871419B (zh) * | 2012-12-11 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
CN105611061A (zh) * | 2015-12-31 | 2016-05-25 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音传输的方法、装置及移动终端 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
Family Cites Families (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US629278A (en) * | 1898-07-23 | 1899-07-18 | Stickerei Feldmuehle | Shuttle for embroidering-machines. |
US636176A (en) * | 1899-01-10 | 1899-10-31 | Theodore Mundorff | Eyeglass-case. |
US785768A (en) * | 1904-06-27 | 1905-03-28 | Charles B Sippel | Collar-button. |
US3383466A (en) | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3746789A (en) * | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US3787641A (en) * | 1972-06-05 | 1974-01-22 | Setcom Corp | Bone conduction microphone assembly |
US4382164A (en) * | 1980-01-25 | 1983-05-03 | Bell Telephone Laboratories, Incorporated | Signal stretcher for envelope generator |
JPS62239231A (ja) * | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
JPH0755167B2 (ja) * | 1988-09-21 | 1995-06-14 | 松下電器産業株式会社 | 移動体 |
JPH03160851A (ja) * | 1989-11-20 | 1991-07-10 | Fujitsu Ltd | 携帯電話機 |
US5054079A (en) * | 1990-01-25 | 1991-10-01 | Stanton Magnetics, Inc. | Bone conduction microphone with mounting means |
US5404577A (en) * | 1990-07-13 | 1995-04-04 | Cairns & Brother Inc. | Combination head-protective helmet & communications system |
US5295193A (en) * | 1992-01-22 | 1994-03-15 | Hiroshi Ono | Device for picking up bone-conducted sound in external auditory meatus and communication device using the same |
US5590241A (en) * | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
US5446789A (en) * | 1993-11-10 | 1995-08-29 | International Business Machines Corporation | Electronic device having antenna for receiving soundwaves |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5828768A (en) * | 1994-05-11 | 1998-10-27 | Noise Cancellation Technologies, Inc. | Multimedia personal computer with active noise reduction and piezo speakers |
DE69527731T2 (de) * | 1994-05-18 | 2003-04-03 | Nippon Telegraph & Telephone Co., Tokio/Tokyo | Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ |
JPH08186654A (ja) | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
US5701390A (en) | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5692059A (en) * | 1995-02-24 | 1997-11-25 | Kruger; Frederick M. | Two active element in-the-ear microphone system |
US5555449A (en) * | 1995-03-07 | 1996-09-10 | Ericsson Inc. | Extendible antenna and microphone for portable communication unit |
US5651074A (en) | 1995-05-11 | 1997-07-22 | Lucent Technologies Inc. | Noise canceling gradient microphone assembly |
KR960042590A (ko) * | 1995-05-23 | 1996-12-21 | 김광호 | 테이프 재생용 음량기기에서의 발음비교방법 |
US5647834A (en) | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JPH09172479A (ja) * | 1995-12-20 | 1997-06-30 | Yokoi Kikaku:Kk | 送受話器およびそれを用いた通話装置 |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6243596B1 (en) * | 1996-04-10 | 2001-06-05 | Lextron Systems, Inc. | Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet |
US5943627A (en) * | 1996-09-12 | 1999-08-24 | Kim; Seong-Soo | Mobile cellular phone |
JPH10261910A (ja) * | 1997-01-16 | 1998-09-29 | Sony Corp | 携帯無線装置およびアンテナ装置 |
JP2874679B2 (ja) * | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
JPH10224253A (ja) * | 1997-02-10 | 1998-08-21 | Sony Corp | 携帯通信機 |
US6308062B1 (en) * | 1997-03-06 | 2001-10-23 | Ericsson Business Networks Ab | Wireless telephony system enabling access to PC based functionalities |
FR2761800A1 (fr) | 1997-04-02 | 1998-10-09 | Scanera Sc | Dispositif de transmission de voix et telephone le mettant en oeuvre |
US5983073A (en) * | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
US6175633B1 (en) * | 1997-04-09 | 2001-01-16 | Cavcom, Inc. | Radio communications apparatus with attenuating ear pieces for high noise environments |
US6151397A (en) * | 1997-05-16 | 2000-11-21 | Motorola, Inc. | Method and system for reducing undesired signals in a communication environment |
US6434239B1 (en) * | 1997-10-03 | 2002-08-13 | Deluca Michael Joseph | Anti-sound beam method and apparatus |
JPH11249692A (ja) | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
DE69936476T2 (de) | 1998-03-18 | 2007-11-08 | Nippon Telegraph And Telephone Corp. | Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen |
CA2332833A1 (en) * | 1998-05-19 | 1999-11-25 | Spectrx, Inc. | Apparatus and method for determining tissue characteristics |
US6717991B1 (en) * | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6052464A (en) * | 1998-05-29 | 2000-04-18 | Motorola, Inc. | Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad |
US6137883A (en) * | 1998-05-30 | 2000-10-24 | Motorola, Inc. | Telephone set having a microphone for receiving an acoustic signal via keypad |
JP3160714B2 (ja) * | 1998-07-08 | 2001-04-25 | 株式会社シコー技研 | 携帯無線通信機 |
US6292674B1 (en) * | 1998-08-05 | 2001-09-18 | Ericsson, Inc. | One-handed control for wireless telephone |
JP3893763B2 (ja) | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
US6760600B2 (en) * | 1999-01-27 | 2004-07-06 | Gateway, Inc. | Portable communication apparatus |
DE19917169A1 (de) | 1999-04-16 | 2000-11-02 | Kamecke Keller Orla | Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten |
US20020057810A1 (en) * | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
US6094492A (en) * | 1999-05-10 | 2000-07-25 | Boesen; Peter V. | Bone conduction voice transmission apparatus and system |
US6952483B2 (en) * | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US6738485B1 (en) * | 1999-05-10 | 2004-05-18 | Peter V. Boesen | Apparatus, method and system for ultra short range communication |
US6560468B1 (en) * | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US6542721B2 (en) * | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
US6258734B1 (en) * | 1999-07-16 | 2001-07-10 | Vanguard International Semiconductor Corporation | Method for patterning semiconductor devices on a silicon substrate using oxynitride film |
US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6603823B1 (en) * | 1999-11-12 | 2003-08-05 | Intel Corporation | Channel estimator |
US6339706B1 (en) * | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6411933B1 (en) * | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
GB2357400A (en) * | 1999-12-17 | 2001-06-20 | Nokia Mobile Phones Ltd | Controlling a terminal of a communication system |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
JP3339579B2 (ja) * | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
KR100394840B1 (ko) * | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
US6853850B2 (en) * | 2000-12-04 | 2005-02-08 | Mobigence, Inc. | Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors |
US20020075306A1 (en) * | 2000-12-18 | 2002-06-20 | Christopher Thompson | Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers |
US6985858B2 (en) | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
GB2375276B (en) | 2001-05-03 | 2003-05-28 | Motorola Inc | Method and system of sound processing |
WO2002098169A1 (en) * | 2001-05-30 | 2002-12-05 | Aliphcom | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US6701390B2 (en) * | 2001-06-06 | 2004-03-02 | Koninklijke Philips Electronics N.V. | FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle |
US6987986B2 (en) * | 2001-06-21 | 2006-01-17 | Boesen Peter V | Cellular telephone, personal digital assistant with dual lines for simultaneous uses |
US7054423B2 (en) * | 2001-09-24 | 2006-05-30 | Nebiker Robert M | Multi-media communication downloading |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6952482B2 (en) * | 2001-10-02 | 2005-10-04 | Siemens Corporation Research, Inc. | Method and apparatus for noise filtering |
JP3532544B2 (ja) * | 2001-10-30 | 2004-05-31 | 株式会社テムコジャパン | 面体又は帽体のストラップ装着用送受話装置 |
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6707921B2 (en) * | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
DE10158583A1 (de) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
US6664713B2 (en) * | 2001-12-04 | 2003-12-16 | Peter V. Boesen | Single chip device for voice communications |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US9374451B2 (en) | 2002-02-04 | 2016-06-21 | Nokia Technologies Oy | System and method for multimodal short-cuts to digital services |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7190797B1 (en) * | 2002-06-18 | 2007-03-13 | Plantronics, Inc. | Headset with foldable noise canceling and omnidirectional dual-mode boom |
US7047047B2 (en) | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
US7092529B2 (en) * | 2002-11-01 | 2006-08-15 | Nanyang Technological University | Adaptive control system for noise cancellation |
WO2004068464A2 (en) * | 2003-01-30 | 2004-08-12 | Aliphcom, Inc. | Acoustic vibration sensor |
US7593851B2 (en) * | 2003-03-21 | 2009-09-22 | Intel Corporation | Precision piecewise polynomial approximation for Ephraim-Malah filter |
US20060008256A1 (en) * | 2003-10-01 | 2006-01-12 | Khedouri Robert K | Audio visual player apparatus and system and method of content distribution using the same |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8095073B2 (en) * | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7283850B2 (en) * | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
-
2005
- 2005-06-20 US US11/156,434 patent/US7346504B2/en active Active
-
2006
- 2006-06-06 WO PCT/US2006/022058 patent/WO2007001768A2/en active Application Filing
- 2006-06-06 AU AU2006262706A patent/AU2006262706B2/en active Active
- 2006-06-06 AT AT06772389T patent/ATE476734T1/de not_active IP Right Cessation
- 2006-06-06 MX MX2007014562A patent/MX2007014562A/es active IP Right Grant
- 2006-06-06 DE DE602006015954T patent/DE602006015954D1/de active Active
- 2006-06-06 KR KR1020077026297A patent/KR101422844B1/ko active IP Right Grant
- 2006-06-06 JP JP2008518201A patent/JP4975025B2/ja active Active
- 2006-06-06 CN CN2006800195287A patent/CN101199006B/zh active Active
- 2006-06-06 RU RU2007147463/09A patent/RU2407074C2/ru active
- 2006-06-06 BR BRPI0611649-3A patent/BRPI0611649B1/pt active Search and Examination
- 2006-06-06 EP EP06772389A patent/EP1891627B1/en active Active
- 2006-06-06 CA CA2607981A patent/CA2607981C/en active Active
-
2007
- 2007-11-09 NO NO20075732A patent/NO339834B1/no unknown
Also Published As
Publication number | Publication date |
---|---|
WO2007001768A3 (en) | 2007-12-13 |
DE602006015954D1 (de) | 2010-09-16 |
KR20080018163A (ko) | 2008-02-27 |
RU2407074C2 (ru) | 2010-12-20 |
EP1891627A4 (en) | 2009-07-22 |
BRPI0611649B1 (pt) | 2019-09-24 |
WO2007001768A2 (en) | 2007-01-04 |
CA2607981A1 (en) | 2007-01-04 |
RU2007147463A (ru) | 2009-06-27 |
US7346504B2 (en) | 2008-03-18 |
JP2008544328A (ja) | 2008-12-04 |
NO20075732L (no) | 2008-03-17 |
EP1891627A2 (en) | 2008-02-27 |
CN101199006B (zh) | 2011-08-24 |
EP1891627B1 (en) | 2010-08-04 |
CA2607981C (en) | 2014-08-19 |
AU2006262706B2 (en) | 2010-11-25 |
ATE476734T1 (de) | 2010-08-15 |
KR101422844B1 (ko) | 2014-07-30 |
MX2007014562A (es) | 2008-01-16 |
AU2006262706A1 (en) | 2007-01-04 |
CN101199006A (zh) | 2008-06-11 |
US20060287852A1 (en) | 2006-12-21 |
JP4975025B2 (ja) | 2012-07-11 |
NO339834B1 (no) | 2017-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0611649A2 (pt) | fala multi-sensorial usando fala limpa anterior | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
JP4219774B2 (ja) | 劣化信号から雑音を除去する非線形観測モデル | |
KR101201146B1 (ko) | 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 | |
JP5021212B2 (ja) | 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置 | |
BR112015007625B1 (pt) | Aparelho, método de geração de uma medida de interferência de áudio e meio de armazenamento legível por computador | |
JP6891144B2 (ja) | 生成装置、生成方法及び生成プログラム | |
BR112014009338B1 (pt) | Aparelho de atenuação de ruído e método de atenuação de ruído |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B25A | Requested transfer of rights approved |
Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US) |
|
B15K | Others concerning applications: alteration of classification |
Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 21/02 , G10L 15/20 Ipc: G10L 21/0208 (2013.01), H04R 3/00 (1968.09) |
|
B06T | Formal requirements before examination [chapter 6.20 patent gazette] | ||
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] |