BRPI0611649B1 - Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador - Google Patents

Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador Download PDF

Info

Publication number
BRPI0611649B1
BRPI0611649B1 BRPI0611649-3A BRPI0611649A BRPI0611649B1 BR PI0611649 B1 BRPI0611649 B1 BR PI0611649B1 BR PI0611649 A BRPI0611649 A BR PI0611649A BR PI0611649 B1 BRPI0611649 B1 BR PI0611649B1
Authority
BR
Brazil
Prior art keywords
variance
signal
speech
fact
reduced noise
Prior art date
Application number
BRPI0611649-3A
Other languages
English (en)
Inventor
Zicheng Liu
Alejandro Acero
Zhengyou Zhang
Original Assignee
Microsoft Technology Licensing, Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing, Llc filed Critical Microsoft Technology Licensing, Llc
Publication of BRPI0611649A2 publication Critical patent/BRPI0611649A2/pt
Publication of BRPI0611649B1 publication Critical patent/BRPI0611649B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Meter Arrangements (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Machine Translation (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Mobile Radio Communication Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

fala multi-sensorial usando fala limpa anterior. trata-se de um método e aparelho para determinar uma resposta de canal para um sensor alternativo usando um sinal do sensor alternativo e um sinal do microfone de condução aérea. em seguida, a resposta de canal e uma distribuição de probabilidade anterior para valores de fala limpa são usadas para estimar um valor de fala limpa.

Description

[001] Um problema comum, tanto no reconhecimento de fala quanto na transmissão de fala, é o corrompimento do sinal de fala por ruídos aditivos. Em particular, demonstrou-se ser difícil a detecção e/ou a correção do corrompimento provocado pela fala de outro falante.
[002] Recentemente, foi desenvolvido um sistema que tenta remover o ruído usando uma combinação de um sensor alternativo, tal como um microfone de condução óssea e um microfone de condução de ar. Esse sistema é treinado usando três canais de treinamento: um sinal ruidoso de treinamento de sensor alternativo, um sinal ruidoso de treinamento de microfone de condução de ar e um sinal limpo de treinamento de microfone de condução de ar. Cada um dos sinais é convertido em um domínio de características. As características para o sinal ruidoso de sensor alternativo e o sinal ruidoso de microfone de condução de ar são combinadas em um vetor único representando um sinal ruidoso. As características para o sinal limpo de microfone de condução de ar formam um vetor limpo único. Esses vetores são então usados para treinar um mapeamento entre os vetores ruidosos e os vetores limpos. Uma vez treinados, os mapeamentos são aplicados a um vetor ruidoso formado de uma combinação de um sinal ruidoso de teste de sensor alternativo e de um sinal ruidoso de teste de microfone de condução de ar. Esse mapeamento produz um vetor de sinal limpo.
[003] Esse sistema está muito abaixo do ideal quando as condições de ruído dos sinais de teste não correspondem às condições de ruído dos sinais de treinamento, pois os mapeamentos são projetados para as condições de ruído dos sinais de treinamento.
Petição 870190002033, de 08/01/2019, pág. 3/31
2/22
SUMÁRIO DA INVENÇÃO [004] Um método e aparelho determinam uma resposta de canal para um sensor alternativo usando um sinal de sensor alternativo e um sinal de microfone de condução de ar. Em seguida, a resposta de canal e uma distribuição de probabilidade anterior para valores de fala limpa são usadas para estimar um valor de fala limpa.
BREVE DESCRIÇÃO DOS DESENHOS [005] A FIG. 1 é um diagrama de blocos de um ambiente de computação em que as concretizações da presente invenção podem ser praticadas.
[006] A FIG. 2 é um diagrama de blocos de um ambiente de computação alternativo em que as concretizações da presente invenção podem ser praticadas.
[007] A FIG. 3 é um diagrama de blocos de um sistema geral de processamento de fala de uma concretização da presente invenção. [008] A FIG. 4 é um diagrama de blocos de um sistema para aperfeiçoar a fala de acordo com uma concretização da presente invenção.
[009] A FIG. 5 é um diagrama de fluxo de dados para aperfeiçoar a fala de acordo com uma concretização da presente invenção.
[0010] A FIG. 6 é um diagrama de fluxo de dados para aperfeiçoar a fala de acordo com outra concretização da presente invenção. DESCRIÇÃO DETALHADA DAS CONCRETIZAÇÕES ILUSTRATIVAS [0011] A FIG. 1 ilustra um exemplo de um ambiente de sistema de computação adequado 100 em que a invenção pode ser implementada. O ambiente de sistema de computação 100 é apenas um exemplo de um ambiente de computação adequado e não tem a intenção de implicar em qualquer limitação ao âmbito de uso ou à funcionalidade da invenção. Tampouco se deve interpretar o ambiente de computação 100 como tendo qualquer dependência ou exigência com relação a
Petição 870190002033, de 08/01/2019, pág. 4/31
3/22 qualquer um dos componentes ilustrados, ou combinação desses, no ambiente operacional exemplificativo 100.
[0012] A invenção é operacional com vários ambientes ou configurações diferentes de sistema de computação de uso geral ou específico. Exemplos de sistemas, ambientes e/ou configurações de computação bem conhecidos que podem ser adequados para uso com a invenção incluem, sem a isto se restringir, computadores pessoais, computadores servidores, dispositivos portáteis ou laptop, sistemas multiprocessadores, sistemas baseados em microprocessador, decodificadores de sinais, componentes eletrônicos programados pelo consumidor, PCs de rede, microcomputadores, computadores de grande porte, sistemas de telefonia, ambientes de computação distribuída que incluem qualquer um dos sistemas ou dispositivos acima, entre outros. [0013] A invenção pode ser descrita no contexto geral de instruções executadas por computador, tais como módulos de programa sendo executados por um computador. Geralmente, os módulos de programa incluem rotinas, programas, objetos, estruturas de dados etc., que efetuam tarefas específicas ou implementam tipos de dados abstratos específicos. A invenção é projetada para ser praticada em ambientes de computação distribuída, nos quais as tarefas são efetuadas por dispositivos de processamento remoto ligados por meio de uma rede de comunicações. Em um ambiente de computação distribuída, os módulos de programa estão localizados tanto em meios de armazenamento de computador remotos quanto locais, incluindo dispositivos de armazenamento em memória.
[0014] Com referência à FIG. 1, um sistema exemplificativo para implementação de concretizações da invenção inclui um dispositivo de computação de uso geral na forma de um computador 110. Os componentes do computador 110 podem incluir, sem a isto se restringir, uma unidade de processamento 120, uma memória de sistema 130 e
Petição 870190002033, de 08/01/2019, pág. 5/31
4/22 um barramento de sistema 121 que acopla vários componentes do sistema, incluindo a memória do sistema à unidade de processamento 120. O barramento de sistema 121 pode possuir qualquer um dos diferentes tipos de estrutura de barramento, incluindo um barramento de memória ou controlador de memória, um barramento periférico e um barramento local usando qualquer uma das diferentes arquiteturas de barramento. A título exemplificativo, sem limitação, tais arquiteturas incluem barramento da Arquitetura Padrão da Indústria (ISA), barramento da Arquitetura de Microcanal (MCA), barramento ISA Aperfeiçoada (EISA), barramento local da Associação de Padrões Eletrônicos de Vídeo (VESA) e barramento de Interconexão de Componentes Periféricos (PCI), também chamado de barramento Mezanino.
[0015] O computador 110 geralmente inclui uma variedade de meios legíveis por computador. Meios legíveis por computador podem ser qualquer meio disponível que pode ser acessado por computador 110 e que inclui tanto meios voláteis e não-voláteis quanto meios removíveis e não-removíveis. A título exemplificativo, sem limitação, meios legíveis por computador podem compreender meios de armazenamento e meios de comunicação de computador. Os meios de armazenamento de computador incluem tanto meios voláteis e não-voláteis, quanto removíveis e não-removíveis implementados em qualquer método ou tecnologia para armazenamento de informações, tais como instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados. Os meios de armazenamento incluem, sem a isto se restringir, RAM, ROM, KEPROM, memória flash ou outra tecnologia de memória, CD-ROM, discos versáteis digitais (DVD) ou outro armazenamento em disco óptico, cassetes magnéticos, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético, ou qualquer outro meio que possa ser usado para armazenar as informações desejadas e que possa ser
Petição 870190002033, de 08/01/2019, pág. 6/31
5/22 acessado pelo computador 110. Os meios de comunicação geralmente abrangem instruções legíveis por computador, estruturas de dados, módulos de programa ou outros dados em um sinal de dados modulado tal como uma onda portadora ou outro mecanismo de transporte, e incluem quaisquer meios de distribuição de informações. O termo “sinal de dados modulados” significa um sinal que uma ou mais de suas características ajustadas ou alteradas de tal maneira a codificar as informações no sinal. A título exemplificativo, e sem limitação, os meios de comunicação incluem meios com fio, tal como uma rede com fio ou conexão direta com fio, e meios sem fio, tal como acústico, RF, infravermelho e outros meios sem fio. Combinações de qualquer um dos elementos anteriores também deverão ser incluídas no âmbito de meios legíveis por computador.
[0016] A memória de sistema 130 inclui meios de armazenamento de computador na forma de memória volátil e/ou não-volátil, tal como memória somente para leitura (ROM) 131 e memória de acesso aleatório (RAM) 132. Um sistema básico de entrada/saída 133 (BIOS), contendo as rotinas básicas para ajudar a transferir informações entre os elementos dentro do computador 110, tal como durante a inicialização, é geralmente armazenado na ROM 131. A RAM 132 geralmente contém dados e/ou módulos de programa que podem ser acessados a qualquer momento e/ou que estão sendo operados pela unidade de processamento 120. A título exemplificativo, e sem limitação, a FIG. 1 ilustra o sistema operacional 134, programas aplicativos 135, outros módulos de programa 136, e dados de programa 137.
[0017] O computador 110 também inclui outros meios de armazenamento de computador removíveis/não-removíveis e voláteis/não-voláteis. A título meramente exemplificativo, a FIG. 1 ilustra uma unidade de disco rígido 141 que lê ou grava em meios magnéticos não-removíveis e não-voláteis, uma unidade de disco magnético 151
Petição 870190002033, de 08/01/2019, pág. 7/31
6/22 que lê ou grava em um disco magnético removível e não-volátil 152, e uma unidade de disco óptica 155 que lê ou escreve em um disco óptico removível e não-volátil 156, tal como um CD-ROM ou outros meios ópticos. Outros meios de armazenamento de computador removíveis/não-removíveis e voláteis/não-voláteis que podem ser usados no ambiente operacional exemplificativo incluem, mas sem a isto se restringir, cassetes de fita magnética, cartões de memória flash, discos versáteis digitais, fitas de vídeo digital, RAM de estado sólido, ROM de estado sólido, entre outros. A unidade de disco rígido 141 é geralmente conectada ao barramento do sistema 121 por meio de uma interface de memória não-removível, tal como a interface 140, e a unidade de disco magnético 151 e a unidade de disco óptico 155 são geralmente conectadas ao barramento de sistema 121 por uma interface de memória removível, tal como a interface 150.
[0018] As unidades e seus meios de armazenamento de computador associados, discutidos acima na FIG. 1, fornecem o armazenamento de instruções legíveis por computador, estruturas de dados, módulos de programa e outros dados para o computador 110. Na FIG. 1, por exemplo, a unidade de disco rígido 141 é ilustrada armazenando o sistema operacional 144, os programas aplicativos 145, outros módulos de programa 146, e dados de programa 147. Observe que esses componentes podem ou ser os mesmos ou ser diferentes do sistema operacional 134, dos programas aplicativos 135, dos outros módulos de programa 136, e dos dados de programa 137. O sistema operacional 144, os programas aplicativos 145, os outros módulos de programa 146, e os dados de programa 147 recebem números diferentes neste documento para mostrar que se tratam, no mínimo, de cópias diferentes. [0019] Um usuário pode entrar com comandos e informações no computador 110 por meio de dispositivos de entrada, tal como um teclado 162, um microfone 163 e um dispositivo de apontamento 161, tal
Petição 870190002033, de 08/01/2019, pág. 8/31
7/22 como um mouse, trackball ou superfície de toque. Outros dispositivos de entrada (não ilustrados) podem incluir um joystick, controle de jogo, antena de satélite, scanner, entre outros. Esses e outros dispositivos de entrada são geralmente conectados à unidade de processamento 120 por meio de uma interface de entrada do usuário 160 que é acoplada ao barramento do sistema, mas que pode ser conectada por outra interface e estruturas de barramento, tal como uma porta paralela, porta de jogo ou um barramento serial universal (USB). Um monitor 191, ou outro tipo de dispositivo de exibição, também é conectado ao barramento de sistema 121 por meio de uma interface, tal como uma interface de vídeo 190. Além do monitor, os computadores também podem incluir outros periféricos de saída, tais como alto-falantes 197 e impressora 196, que podem ser conectados por meio de uma interface periférica de saída 195.
[0020] O computador 110 opera em um ambiente em rede usando conexões lógicas com um ou mais computadores remotos, tal como o computador remoto 180. O computador remoto 180 pode ser um computador pessoal, um dispositivo portátil, um servidor, um roteador, um PC de rede, um dispositivo não hierarquizado ou outro nó comum da rede, e geralmente inclui muitos ou todos os elementos supramencionados com relação ao computador 110. As conexões lógicas ilustradas na FIG. 1 incluem uma rede local (LAN) 171 e uma rede de longa distância (WAN) 173, mas também pode incluir outras redes. Tais ambientes de rede são comuns em escritórios, redes de computador a nível empresarial, intranets e a Internet.
[0021] Quando usado em um ambiente em rede LAN, o computador 110 é conectado à LAN 171 por meio de uma interface de rede ou adaptador 170. Quando usado em um ambiente em rede WAN, o computador 110 geralmente inclui um modem 172 ou outros meios para estabelecer comunicações pela WAN 173, tal como a Internet. O mo
Petição 870190002033, de 08/01/2019, pág. 9/31
8/22 dem 172, que pode ser interno ou externo, pode ser conectado ao barramento do sistema 121 por meio da interface de entrada do usuário 160, ou por outro mecanismo apropriado. Em um ambiente em rede, os módulos de programa representados com relação ao computador 110, ou partes deles, podem ser armazenados no dispositivo de armazenamento em memória remoto. A título exemplificativo, e sem limitação, a FIG. 1 ilustra programas aplicativos remotos 185 residindo no computador remoto 180. Será apreciado que as conexões de rede ilustradas são exemplificativas e que outros meios para estabelecer uma ligação de comunicações entre os computadores podem ser usados.
[0022] A FIG. 2 é um diagrama de blocos de um dispositivo móvel 200, que é um exemplo de um ambiente de computação. O dispositivo móvel 200 inclui um microprocessador 202, memória 204, componentes de entrada/saída (E/S) 206 e uma interface de comunicação 208 para prover a comunicação com computadores remotos ou outros dispositivos móveis. Em uma concretização, os componentes mencionados adiante estão acoplados para se comunicarem por meio de um barramento adequado 210.
[0023] A memória 204 é implementada como memória eletrônica não-volátil, tal como memória de acesso aleatório (RAM) com um módulo de bateria de segurança (não ilustrado), de modo que as informações armazenadas na memória 204 não sejam perdidas quando a alimentação geral do dispositivo móvel 200 for interrompida. Uma parte da memória 204 é, de preferência, alocada como memória endereçável para execução de programas, ao passo que outra parte da memória 204 é, de preferência, usada para armazenamento, de modo a simular o armazenamento em uma unidade de disco.
[0024] A Memória 204 inclui um sistema operacional 212, programas aplicativos 214, bem como um armazenamento de objetos 216 Enquanto operante, o sistema operacional 212 é, de preferência, exe
Petição 870190002033, de 08/01/2019, pág. 10/31
9/22 cutado pelo processador 202 da memória 204. O sistema operacional 212, em uma concretização preferida, é o sistema operacional da marca WINDOWS® CE, disponível para comercialização pela Microsoft Corporation. O sistema operacional 212 é, de preferência, projetado para dispositivos móveis, e aperfeiçoa características de banco de dados que podem ser utilizadas pelos aplicativos 214 por meio de um conjunto de interfaces e métodos expostos para programação de aplicativos. Os objetos no armazenamento de objetos 216 são mantidos pelos aplicativos 214 e pelo sistema operacional 212, ao menos parcialmente em resposta às chamadas às interfaces e métodos expostos para programação de aplicativos.
[0025] A interface de comunicação 208 representa vários dispositivos e tecnologias que permitem ao dispositivo móvel 200 enviar e receber informações. Os dispositivos incluem, para citar alguns, modens com fio e sem fio, receptores de satélite e sintonizadores de difusão. O dispositivo móvel 200 pode também ser conectado diretamente a um computador para trocar dados com ele. Em tais casos, a interface de comunicação 208 pode ser um transceptor de infravermelho ou uma conexão de comunicação serial ou paralela, todos os quais são capazes de transmitir informações de fluxo contínuo.
[0026] Os componentes de entrada/saída 206 incluem vários dispositivos de entrada, tal como uma tela sensível ao toque, botões, botões de rolagem e um microfone, bem como vários dispositivos de saída, incluindo um gerador de áudio, um dispositivo de vibração, e um meio de exibição. Os dispositivos listados acima são meramente exemplificativos e nem todos precisam estar presentes no dispositivo móvel 200. Além disso, outros dispositivos de entrada/saída podem ser ligados a ou incluídos no dispositivo móvel 200 dentro do âmbito da presente invenção.
[0027] A FIG. 3 ilustra um diagrama de bloco básico de concretiPetição 870190002033, de 08/01/2019, pág. 11/31
10/22 zações da presente invenção. Na FIG. 3, um falante 300 gera um sinal de fala 302 (X) que é detectado por um microfone de condução de ar 304 e um sensor alternativo 306. Exemplos de sensores alternativos incluem um microfone de garganta, que mede as vibrações da garganta do usuário, um sensor de condução ósseo, localizado no ou adjacente ao osso facial ou da cabeça do usuário (tal como o osso maxilar) ou na orelha do usuário e que detecta as vibrações da cabeça e do maxilar que correspondem à fala gerada pelo usuário. O microfone de condução de ar 304 é o tipo de microfone que é usado geralmente para converter ondas aéreas de som em sinais elétricos.
[0028] O microfone de condução de ar 304 também recebe ruído ambiente 308 (Z) gerado por uma ou mais fontes de ruído 310. Dependendo do tipo de ruído ambiente e da altura do ruído ambiente, o ruído ambiente 308 também pode ser detectado pelo sensor alternativo 306. Entretanto, de acordo com as concretizações da presente invenção, o sensor alternativo 306 é normalmente menos sensível ao ruído ambiente do que o microfone de condução de ar 304. Portanto, o sinal do sensor alternativo 316 (B), gerado pelo sensor alternativo 306, inclui, em geral, menos ruído do que o sinal do microfone de condução de ar 318 (Y), gerado pelo microfone de condução de ar 304. Embora o sensor alternativo 306 seja menos sensível ao ruído ambiente, ele não gera nenhum ruído no sensor 320 (W).
[0029] O percurso desde o falante 300 até o sinal do sensor alternativo 316 pode ser modelado como um canal tendo uma resposta de canal H. O percurso desde o ruído ambiente 308 até o sinal do sensor alternativo 316 pode ser modelado como um canal tendo uma resposta de canal G.
[0030] O sinal do sensor alternativo 316 (B) e o sinal do microfone de condução de ar 318 (Y) são transmitidos para um estimador de sinal limpo 322, que estima um sinal limpo 324. A estimativa de sinal limpo
Petição 870190002033, de 08/01/2019, pág. 12/31
11/22
324 é transmitida para o processo de fala 328. A estimativa de sinal limpo 324 pode tanto ser um sinal no domínio do tempo filtrado quanto um vetor da Transformada de Fourier. Caso a estimativa de sinal limpo 324 seja um sinal no domínio do tempo, o processo de fala 328 pode assumir a forma de um receptor de fala, de um sistema de codificação de fala ou de um sistema de reconhecimento de fala. Caso a estimativa de sinal limpo 324 seja um vetor da Transformada de Fourier, o processo de fala 328 será normalmente um sistema de reconhecimento de fala, ou conterá uma Transformada Inversa de Fourier para converter o vetor da Transformada de Fourier em formas de onda.
[0031] Dentro do aperfeiçoamento por filtragem direta 322, o sinal do sensor alternativo 316 e o sinal do microfone 318 são convertidos para o domínio de freqüência sendo usado para estimar a fala limpa. Conforme ilustra a FIG. 4, o sinal do sensor alternativo 316 e o sinal do microfone de condução de ar 318 são transmitidos para os conversores de analógico para digital 404 e 414, respectivamente, para gerar uma seqüência de valores digitais, que são agrupados em quadros de valores pelos construtores de quadros 406 e 416, respectivamente. Em uma concretização, os conversores A/D 404 e 414 amostram os sinais analógicos em 16 kHz e 16 bits por amostra, com isso criando 32 quilo bytes de dados de fala por segundo, e os construtores de quadro 406 e 416 criam um novo quadro respectivo a cada 10 milissegundos que inclui o equivalente a 20 milissegundos de dados.
[0032] Cada respectivo quadro de dados, fornecido pelos construtores de quadros 406 e 416, é convertido para o domínio de freqüência usando as Transformadas Rápidas de Fourier (FFT) 408 e 418, respectivamente.
[0033] Os valores de domínio de freqüência para o sinal do sensor alternativo e o sinal do microfone de condução de ar são fornecidos para o estimador de sinal limpo 420, que usa os valores de domínio de frePetição 870190002033, de 08/01/2019, pág. 13/31
12/22 qüência para estimar o sinal de fala limpa 324.
[0034] De acordo com algumas concretizações, o sinal de fala limpa 324 é convertido de volta para o domínio do tempo usando as Transformadas Rápidas de Fourier 422. Isso cria uma versão de domínio do tempo do sinal de fala limpa 324.
[0035] As concretizações da presente invenção oferecem técnicas de filtragem direta para estimar o sinal de fala limpa 324. Sob filtragem direta, uma estimativa de probabilidade máxima da(s) resposta(s) de canal para o sensor alternativo 306 é determinada minimizando uma função relacionada à(s) resposta(s) de canal. Em seguida, essas estimativas são usadas para determinar uma estimativa de probabilidade máxima do sinal de fala limpa minimizando uma função relacionada ao sinal de fala limpa.
[0036] De acordo com uma concretização da presente invenção, a resposta de canal G, correspondendo à fala de fundo sendo detectada pelo sensor alternativo, é considerada como zero. Isso resulta em um modelo entre o sinal de fala limpa e o sinal do microfone de condução de ar e o sinal do sensor alternativo de:
X/) = *(í)+*(0 Eq. 1 b 0) = * X0 4' w(í) E q. 2 onde y(t) é o sinal do microfone de condução de ar, b(t) é o sinal do sensor alternativo, x(t) é o sinal de fala limpa, z(t) é o ruído ambiente, w(t) é o ruído do sensor alternativo, e h(t) é a resposta de canal para o sinal de fala limpa em relação ao sensor alternativo. Sendo assim, na Equação 2, o sinal do sensor alternativo é modelado como uma versão filtrada da fala limpa, onde o filtro possui uma resposta de impulso de h(t).
[0037] No domínio de freqüência, as Equações 1 e 2 podem ser expressas como:
Petição 870190002033, de 08/01/2019, pág. 14/31
13/22 Eq_ 3 Eq, 4 onde a notação Yt(k) representa o k-ésimo componente de freqüência de um quadro de um sinal centralizado ao redor do tempo t. Essa notação se aplica a Xt(k), Zt(k), Ht(k), Wt(k) e Bt(k). Na discussão a seguir, a referência ao componente de freqüência k é omitida em prol da clareza. No entanto, os versados na técnica reconhecerão que os cálculos realizados a seguir são realizados em uma base por componente de freqüência.
[0038] De acordo com essa concretização, as partes real e imaginária do ruído Zt e Wt são modeladas como Gaussianos de média zero independentes, tal que:
zt=N(O,^) Eq s Eq. 6 onde σ2ζ é a variância para o ruído Zt e g2w é a variância para o ruído Wt.
Ht também é modelado como um Gaussiano, tal que:
Eq 7 onde HO é o meio da resposta de canal e σ2ίι é a variância da resposta de canal.
[0039] Dados esses parâmetros de modelo, a probabilidade de um valor de fala limpa X e um valor de resposta de canal H são descritos pela probabilidade condicional:
Eq·. 8 que é proporcional a:
Petição 870190002033, de 08/01/2019, pág. 15/31
14/22 que é proporcional a:
xr, | | H^pü^
Eq. 10 [0040] Em uma concretização, a probabilidade anterior para a resposta de canal, p(Ht | HO, <j2H), é ignorada e cada uma das probabilidades restantes é tratada como uma distribuição Gaussiana com a probabilidade anterior de fala limpa, p(Xt), sendo tratada como um Gaussiano de média zero com uma variância σ2χ,ί, tal que:
X, Eq- 11 [0041] Usando essa simplificação e a Equação 10, a estimativa de probabilidade máxima de Xt para o quadro em t é determinada minimizando:
^γ·-χ·'!+^ΒΜ+'Η;
Eq. 12 [0042] Visto que a Equação 12 está sendo minimizada com respeito a Xt, a derivada parcial com respeito a Xt pode ser obtida para deter^=0 minar o valor de X, que minimiza a função. Especificamente, ' produz:
x,. 13 onde H*t representa o complexo conjugado de Ht, e |Ht| representa a grandeza do valor de complexo Ht.
[0043] A resposta de canal Ht é estimada a partir da expressão vocal inteira minimizando:
Petição 870190002033, de 08/01/2019, pág. 16/31
15/22 f -Zé®*ι-χ,ι’+Αια-λ-λι2)
Μ
Eq. 14
Substituindo a expressão de X, calculada na Equação 13, na âíf
Equação 14, definindo a derivada parcial ' , e, em seguida, supondo que H é constante em todos os quadros de tempo T, obtemos uma solução para H de:
Σ<® i b, r i t,
-jy_________________________V jmí ____________________r-j________
2<ΣΒ
¢.=]
Eq. 15
Na Equação 15, a estimação de H requer o cálculo de vários somatórios nos últimos T quadros na forma de:
Γ = Eq. 16 onde é (σ2ζ | Bt|2 -a2w | Yt|2)_ ou B*t, Yt.
[0044] Com essa fórmula, o primeiro quadro (t = 1) é tão importante quanto o último quadro (t = T). Entretanto, em outras concretizações, é preferível que os últimos quadros contribuam mais para a estimação de H do que os quadros antigos. Uma técnica para obter isso é o “envelhecimento exponencial”, em que os somatórios da Equação 16 são substituídos por:
Eq. 17
P onde c < 1. Se c = 1, então a Equação 17 é equivalente à Equação 16. Se c < 1, então o último quadro é ponderado por 1, o pe
Petição 870190002033, de 08/01/2019, pág. 17/31
16/22 núltimo quadro é ponderado por c (isto é, contribui menos do que o último quadro), e o primeiro quadro é ponderado por cT-1 (isto é, contribui significativamente menos do que o último quadro). Vejamos um exemplo. Seja c = 0,99 e T = 100, então o peso para o primeiro quadro é de apenas 0,9999 = 0,37.
[0045] De acordo com uma concretização, a Equação 17 é estimada de maneira recursiva como + Eq. 18 [0046] Uma vez que a Equação 18 pondera automaticamente menos dados antigos, um tamanho de janela fixo não precisa ser usado, e os dados dos últimos T quadros não precisar ser armazenados na memória. Em vez disso, apenas o valor para S(T-1) no quadro anterior precisa ser armazenado.
[0047] Usando a Equação 18, a Equação 15 se torna:
.'(Tli.ímÇto.gimjl1
Hr------1--—------------- Eq, 19 onde:
757(7) = ^(7-1) + ^ Eq. 21 [0048] O valor de c nas equações 20 e 21 proporciona um tamanho efetivo para o número de quadros anteriores que são usados para calcular o valor atual de J(T) e K(T). Especificamente, o tamanho efetivo é dado por:
r r-i i ί(Ό=Σ·= -ΣΥ =— *ί· 22 ,=1 ;=& 1 — c [0049] O tamanho efetivo assintótico é dado por:
Z^límí(7) = — Eq. 23
Petição 870190002033, de 08/01/2019, pág. 18/31
17/22 ou, de forma equivalente,
Z-l c---- Eq. Ξ4
L [0050] Assim, usando a equação 24, c pode ser definido para obter diferentes tamanhos efetivos na equação 19. Por exemplo, para obter um tamanho efetivo de 200 quadros, c é definido como:
199 c=--0.995 Eq. 25
200 [0051] Uma vez que H tenha sido estimado usando a Equação 15, ele pode ser usado no lugar de todos os Ht da Equação 13 para determinar um valor separado de Xt em cada quadro de tempo t. Como alternativa, a equação 19 pode ser usada para estimar Ht em cada quadro de tempo t. Em seguida, o valor de Ht em cada quadro é usado na Equação 13 para determinar Xt.
[0052] A FIG. 5 ilustra um diagrama do fluxo de dados de um método da presente invenção que usa as Equações 13 e 15 para estimar um valor de fala limpa para uma expressão vocal.
[0053] Na etapa 500, os componentes de freqüência dos quadros do sinal do microfone de condução de ar e do sinal do sensor alternativo são capturados em toda a expressão vocal.
[0054] Na etapa 502, a variância para o ruído ambiente σ2ζ e o ruído do sensor alternativo g2w são determinados a partir dos quadros do sinal do microfone de condução de ar e do sinal do sensor alternativo, respectivamente, que são capturados previamente na expressão vocal durante os períodos em que o falante não está falando.
[0055] O método determina quando o falante não está falando pela identificação dos segmentos de baixa energia do sinal do sensor alternativo, já que a energia do ruído do sensor alternativo é muito menor do que o sinal de fala capturado pelo sinal do sensor alternativo. Em outras concretizações, técnicas conhecidas de detecção de fala podem
Petição 870190002033, de 08/01/2019, pág. 19/31
18/22 ser aplicadas ao sinal de fala de condução aérea para identificar quando o falante está falando. Durante os períodos em que se considera que o falante não está falando, presume-se que X seja zero e qualquer sinal vindo do microfone de condução de ar ou do sensor alternativo é considerado como ruído. As amostras desses valores de ruído são coletadas dos quadros sem fala e usadas para estimar a variância do ruído no sinal de condução aérea e no sinal do sensor alternativo.
[0056] Na etapa 504, é determinada a variância da distribuição de probabilidade anterior de fala limpa, σ2χ,ΐ. De acordo com uma concretização, essa variância é calculada como:
onde | Yd |2 é a energia do sinal do microfone de condução de ar e o somatório é realizado em um conjunto de quadros de fala que inclui os k quadros de fala antes do quadro de fala atual e os m quadros de fala após o quadro de fala atual. Para evitar valores negativos ou um valor igual a zero para a variância, σ2χ, t, algumas concretizações da presente invenção utilizam (0,01 · σν) como o menor valor possível para σ2χ, t.
[0057] Em uma concretização alternativa, uma implementação em tempo real é realizada usando uma técnica de regularização que conta apenas com a variância do sinal de fala limpa no quadro precedente da fala, tal que:
“= piriaxt]Ij. |2 Eq. 27 onde σ2ί-1 é a variância da distribuição de probabilidade anterior de fala limpa do último quadro que continha a fala, p é um fator regularizador com um intervalo entre Oe 1, aé uma constante pequena, e max(|Yd|2 -σ2ν, α |Yd|2) indica que o maior dentre |Yd|2 -σ2ν e a|Yd|2 é selecionado para assegurar valores positivos para σ2χ, I. De
Petição 870190002033, de 08/01/2019, pág. 20/31
19/22 acordo com uma concretização específica, o fator regularizador possui um valor de 0,08 e α = 0,01.
[0058] Na etapa 506, os valores para o sinal do sensor alternativo e o sinal do microfone de condução de ar em todos os quadros da expressão vocal são usados para determinar um valor de H usando a Equação 15 acima. Na etapa 508, esse valor de H é utilizado conjuntamente aos valores individuais do sinal do microfone de condução de ar e do sinal do sensor alternativo no mesmo quadro de tempo para determinar um valor de fala aperfeiçoado ou com redução de ruído para cada quadro de tempo usando a Equação 13 acima.
[0059] Em outras concretizações, em vez de usar todos os quadros da expressão vocal para determinar um único valor de H usando a Equação 15, H é determinado para cada quadro usando a Equação 19. Em seguida, o valor de H é usado para calcular X para o quadro usando a equação 13 acima.
[0060] Em uma segunda concretização da presente invenção, a resposta de canal do sensor alternativo para o ruído ambiente é considerada como diferente de zero. Nessa concretização, o sinal do microfone de condução de ar e o sinal do sensor alternativo são modelados como:
+ Eq. 29
A(*) - W,(k) + G, (Α)Ζ, (i) + fP/X) Bq. 29 onde a resposta de canal dos sensores alternativos para o ruído ambiente é um valor diferente de zero de Gt(k).
[0061] A probabilidade máxima para a fala limpa X pode ser encontrada minimizando uma função objetivo resultando em uma equação para a fala limpa de:
Petição 870190002033, de 08/01/2019, pág. 21/31
20/22 % ^(g-o)*(8, -gr,) | J7 - <? |2 )+σΧ
Eq. 30 [0062] Para resolver a Equação 30, deve-se conhecer as variações σ2χ,ί, a2w e σ2ζ, bem como os valores de resposta de canal H e G. A FIG. 6 ilustra um diagrama do fluxo de dados para identificar esses valores e para determinar valores de fala aperfeiçoados para cada quadro.
[0063] Na etapa 600, os quadros da expressão vocal são identificados em que o usuário não está falando. Em seguida, esses quadros são usados para determinar a variância g2w e σ2ζ para o sensor alternativo e o ruído ambiente, respectivamente.
[0064] Para identificar os quadros em que o usuário não está falando, o sinal do sensor alternativo pode ser examinado. Tendo em vista que o sinal do sensor alternativo produzirá valores de sinal muito menores para a fala de fundo do que para o ruído, se a energia do sinal do sensor alternativo for baixa, pode-se supor que o falante não está falando.
[0065] Após as variações para o ruído ambiente e para o ruído do sensor alternativo houverem sido determinadas, o método da FIG. 6 continua na etapa 602, em ele que determina a variância da probabilidade anterior de fala, σ2χ,1, usando as equações 26 ou 27 anteriores. Conforme discutido anteriormente, apenas os quadros contendo fala são usados para determinar a variância da probabilidade anterior de fala limpa.
[0066] Na etapa 604, os quadros identificados em que o usuário não está falando são usados para estimar a resposta de canal do sensor alternativo G para ruído ambiente. Especificamente, G é determinado como:
Petição 870190002033, de 08/01/2019, pág. 22/31
21/22
Eq. 31
Onde D é o número de quadros em que o usuário não está falando. Na Equação 31, presume-se que G permanece constante em todos os quadros da expressão vocal e, assim sendo, não é mais dependente do quadro de tempo t. Na equação 31, o somatório em t pode ser substituído pelo cálculo de decaimento exponencial discutido anteriormente com relação às equações 16 a 25.
[0067] Na etapa 606, o valor da resposta de canal do sensor alternativo G para a fala de fundo é usada para determinar a resposta de canal do sensor alternativo para o sinal de fala limpa. Especificamente, H é determinado como:
I B( -OTf I1 1 Etó 1ΛP -41 / I1))2 +4^4 | p + —--—_-_L±________________M__
Eq. 3Ξ [0068] Na Equação 32, o somatório em T pode ser substituído com o cálculo de decaimento exponencial recursivo discutido previamente com relação às equações 16 a 25.
[0069] Após H houver sido determinado na etapa 606, a Equação 30 pode ser usada para determinar um valor de fala limpa para todos os quadros. Ao resolver a Equação 30, de acordo com algumas concretizações, o termo B1-GY é substituído por , pois se verificou ser difícil determinar com precisão a diferença de fase entre a fala de fundo e seu escapamento para o sensor alternativo.
[0070] Se o cálculo de decaimento exponencial recursivo for usado
Petição 870190002033, de 08/01/2019, pág. 23/31
22/22 no lugar dos somatórios na Equação 32, um valor separado de H1 poderá ser determinado para cada quadro de tempo e poderá ser usado como H na equação 30.
[0071] Embora a presente invenção tenha sido descrita com referência a concretizações específicas, os versados na técnica irão reconhecer podem ser feitas alterações na forma e nos detalhes sem divergir do espírito e do âmbito da invenção.

Claims (10)

1. Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido, o método caracterizado pelo fato de que compreende as etapas de:
gerar (500) um sinal de sensor alternativo (316) usando um sensor alternativo (306) diferente de um microfone de condução de ar (304);
gerar (500) um sinal de microfone de condução de ar (318);
usar (506) o sinal de sensor alternativo (316) e o sinal de microfone de condução de ar (318) para estimar um valor para uma resposta de canal do sinal de sensor alternativo (316); e usar (508) o valor estimado da resposta de canal e uma probabilidade anterior do valor de ruído reduzido para estimar o valor de ruído reduzido.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a probabilidade anterior do valor de ruído reduzido possui uma distribuição definida por uma variância.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que ainda compreende determinar (502) a variância da distribuição com base no sinal de microfone de condução de ar (318).
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que determinar (502) a variância com base no sinal de microfone de condução de ar (318) compreende formar uma soma de valores de energia para quadros do sinal de microfone de condução de ar (318).
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que todos os quadros do sinal de microfone de condução de ar (318) contêm fala.
6. Método, de acordo com a reivindicação 3, caracterizado
Petição 870190002033, de 08/01/2019, pág. 25/31
2/2 pelo fato de que determinar (502) a variância da distribuição ainda compreende determinar a variância com base em uma variância de ruído ambiente (308).
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que determinar (502) a variância da distribuição ainda compreende determinar uma variância associada com um quadro atual do sinal de fala com ruído reduzido com base em um quadro atual do sinal de microfone de condução de ar (318) e uma variância da distribuição associada com um quadro anterior do sinal de fala com ruído reduzido.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que determinar (502) a variância da distribuição ainda compreende limitar os valores da variância, de modo que a variância sempre exceda algum valor mínimo.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que o valor mínimo é uma porcentagem da variância do ruído ambiente (308).
10. Meio legível por computador, caracterizado pelo fato de que possui instruções executáveis por computador adaptadas para realizar as etapas conforme definidas em qualquer uma das reivindicações 1 a 9.
BRPI0611649-3A 2005-06-20 2006-06-06 Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador BRPI0611649B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/156.434 2005-06-20
US11/156,434 US7346504B2 (en) 2005-06-20 2005-06-20 Multi-sensory speech enhancement using a clean speech prior
PCT/US2006/022058 WO2007001768A2 (en) 2005-06-20 2006-06-06 Multi-sensory speech enhancement using a clean speech prior

Publications (2)

Publication Number Publication Date
BRPI0611649A2 BRPI0611649A2 (pt) 2010-09-28
BRPI0611649B1 true BRPI0611649B1 (pt) 2019-09-24

Family

ID=37574502

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0611649-3A BRPI0611649B1 (pt) 2005-06-20 2006-06-06 Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador

Country Status (14)

Country Link
US (1) US7346504B2 (pt)
EP (1) EP1891627B1 (pt)
JP (1) JP4975025B2 (pt)
KR (1) KR101422844B1 (pt)
CN (1) CN101199006B (pt)
AT (1) ATE476734T1 (pt)
AU (1) AU2006262706B2 (pt)
BR (1) BRPI0611649B1 (pt)
CA (1) CA2607981C (pt)
DE (1) DE602006015954D1 (pt)
MX (1) MX2007014562A (pt)
NO (1) NO339834B1 (pt)
RU (1) RU2407074C2 (pt)
WO (1) WO2007001768A2 (pt)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7115093B2 (en) 2001-11-21 2006-10-03 Ge Medical Systems Global Technology Company, Llc Method and system for PDA-based ultrasound system
WO2006033104A1 (en) * 2004-09-22 2006-03-30 Shalon Ventures Research, Llc Systems and methods for monitoring and modifying behavior
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
CN102340719B (zh) * 2010-07-19 2014-07-23 深圳市宇恒互动科技开发有限公司 一种基于传感器获取声音信号的方法及装置
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN105611061A (zh) * 2015-12-31 2016-05-25 宇龙计算机通信科技(深圳)有限公司 一种语音传输的方法、装置及移动终端
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US629278A (en) * 1898-07-23 1899-07-18 Stickerei Feldmuehle Shuttle for embroidering-machines.
US636176A (en) * 1899-01-10 1899-10-31 Theodore Mundorff Eyeglass-case.
US785768A (en) * 1904-06-27 1905-03-28 Charles B Sippel Collar-button.
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
DE69531413T2 (de) 1994-05-18 2004-04-15 Nippon Telegraph And Telephone Corp. Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3591068B2 (ja) 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US6434239B1 (en) 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
DE69936476T2 (de) 1998-03-18 2007-11-08 Nippon Telegraph And Telephone Corp. Tragbares Kommunikationsgerät zur Eingabe von Befehlen durch Detektion der Fingeraufschläge oder Vibrationen der Fingerspitzen
AU763861B2 (en) 1998-05-19 2003-07-31 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6738485B1 (en) 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6258734B1 (en) * 1999-07-16 2001-07-10 Vanguard International Semiconductor Corporation Method for patterning semiconductor devices on a silicon substrate using oxynitride film
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
GB2357400A (en) 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
US7433484B2 (en) 2003-01-30 2008-10-07 Aliphcom, Inc. Acoustic vibration sensor
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6701390B2 (en) * 2001-06-06 2004-03-02 Koninklijke Philips Electronics N.V. FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7047047B2 (en) 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7092529B2 (en) 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
US7593851B2 (en) 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
NO339834B1 (no) 2017-02-06
AU2006262706B2 (en) 2010-11-25
JP2008544328A (ja) 2008-12-04
BRPI0611649A2 (pt) 2010-09-28
US20060287852A1 (en) 2006-12-21
JP4975025B2 (ja) 2012-07-11
WO2007001768A3 (en) 2007-12-13
EP1891627B1 (en) 2010-08-04
US7346504B2 (en) 2008-03-18
CN101199006B (zh) 2011-08-24
KR101422844B1 (ko) 2014-07-30
CA2607981A1 (en) 2007-01-04
NO20075732L (no) 2008-03-17
MX2007014562A (es) 2008-01-16
RU2007147463A (ru) 2009-06-27
KR20080018163A (ko) 2008-02-27
DE602006015954D1 (de) 2010-09-16
WO2007001768A2 (en) 2007-01-04
ATE476734T1 (de) 2010-08-15
EP1891627A4 (en) 2009-07-22
AU2006262706A1 (en) 2007-01-04
CN101199006A (zh) 2008-06-11
CA2607981C (en) 2014-08-19
EP1891627A2 (en) 2008-02-27
RU2407074C2 (ru) 2010-12-20

Similar Documents

Publication Publication Date Title
BRPI0611649B1 (pt) Método para determinar uma estimativa para um valor de ruído reduzido representando uma parte de um sinal de fala com ruído reduzido e meio legível por computador
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
RU2420813C2 (ru) Повышение качества речи с использованием множества датчиков с помощью модели состояний речи
JP6580990B2 (ja) オーディオ干渉推定のための方法及び装置
RU2370831C2 (ru) Способ оценки шума с использованием пошагового байесовского изучения
JP5021212B2 (ja) 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置
Llico et al. Real-time estimation of aerodynamic features for ambulatory voice biofeedback
BR112014009338B1 (pt) Aparelho de atenuação de ruído e método de atenuação de ruído
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
JP2019060976A (ja) 音声処理プログラム、音声処理方法および音声処理装置

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US)

B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 21/02 , G10L 15/20

Ipc: G10L 21/0208 (2013.01), H04R 3/00 (1968.09)

B06T Formal requirements before examination [chapter 6.20 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]