BRPI0713987A2 - processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz - Google Patents
processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz Download PDFInfo
- Publication number
- BRPI0713987A2 BRPI0713987A2 BRPI0713987-0A BRPI0713987A BRPI0713987A2 BR PI0713987 A2 BRPI0713987 A2 BR PI0713987A2 BR PI0713987 A BRPI0713987 A BR PI0713987A BR PI0713987 A2 BRPI0713987 A2 BR PI0713987A2
- Authority
- BR
- Brazil
- Prior art keywords
- recognition
- speech
- voice
- grammar
- manifestation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 2
- 238000012882 sequential analysis Methods 0.000 claims 1
- 230000014509 gene expression Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
PROCESSO E DISPOSITIVO PARA O RECONHECIMENTO DA VOZ NATURAL EM UMA MANIFESTAÇçO DE VOZ. A presente invenção refere-se a um processo e um dispositivo para o reconhecimento da voz natural e uma manifestação de voz. Uma manifestação de voz de uma pessoa é captada e transformada em um sinal de voz a ser processado por um dispositivo de reconhecimento de voz. Depois, é feita a análise do sinal de voz, de modo paralelo ou sequencial, em vários ramos de reconhecimento de voz do dispositivo de reconhecimento de voz, sob o uso de várias gramáticas, sendo que o processo de reconhecimento é terminado com êxito caso a análise do sinal de voz em pelo menos um ramo de reconhecimento de voz fornece um resultado de reconhecimento positivo.
Description
Relatório Descritivo da Patente de Invenção para "PROCESSO E DISPOSITIVO PARA O RECONHECIMENTO DA VOZ NATURAL EM UMA MANIFESTAÇÃO DE VOZ".
A presente invenção refere-se a um processo e a um dispositivo para o reconhecimento da voz natural em uma manifestação de voz, especi- almente na base de um sistema de reconhecimento de voz que pode ser executado, por exemplo, em um sistema de processamento de dados eletrô- nico.
Sistemas de reconhecimento de voz são previstos para serem usados em diversas áreas de aplicação. Por exemplo, sistemas de reconhe- cimento de voz são usados no contexto de aplicações de escritórios para a captação de textos ou junto com equipamentos técnicos, para seu controle e entrada de comandos. Sistemas de reconhecimento de voz também são u- sados para controlar equipamentos de informações e comunicação, tais co- mo por exemplo, rádio, telefone celular e sistemas de navegação. As firmas usam os sistemas de diálogo de voz também para atendimento e informação de clientes que também são baseados em sistemas de reconhecimento de voz. O presente pedido de patente refere-se a estes últimos.
Nisso, no reconhecimento de voz automático para a avaliação de seqüências de palavras, são usados os chamados modelos de voz que se baseiam em regras gramaticais, também denominado de gramática. As gramáticas definem regras de sintaxe claras. Sistemas de reconhecimento de voz baseados em gramáticas possuem uma alta segurança de reconhe- cimento.
Especialmente no atendimento aos clientes na área técnica, por
exemplo, no contexto de telefones celulares e tarifas, são exigidos sistemas de reconhecimento de voz cada vez mais eficientes. A fim de entender as numerosas manifestações dos clientes, são necessárias gramáticas muito complexas, cuja extensão se torna um prejuízo para a segurança de reco- nhecimento.
Cada processo de reconhecimento de voz automatizado é base- ado na comparação de uma manifestação de chamada concreta com pala- vras ou expressões depositadas. Somente em caso de uma coincidência, uma manifestação vale como sendo reconhecida e pode disparar uma de- terminada ação. Porém, disso resulta um "dilema de gramática". Gramáticas pequenas possuem um escopo de reconhecimento pequeno, mas em con- trapartida, uma segurança de reconhecimento maior. Gramáticas grandes, por outro lado, cobrem um grande espectro de manifestações, a etapa que a segurança de reconhecimento diminui.
A presente invenção tem a tarefa de realizar um processo de reconhecimento de voz e um sistema de reconhecimento de voz com um grande escopo de reconhecimento e com um escopo pequeno de gramática. Isto significa, procura-se um modelo de gramática que aproveita os aspectos positivos de gramáticas grandes e pequenas, sem ter seus aspectos negati- vos.
De acordo com a presente invenção, esta tarefa é solucionada com a ajuda de um processo e um dispositivo com as características das reivindicações independentes.
Realizações preferidas e outras características vantajosas da presente invenção são evidentes das sub-reivindicações.
O processo de acordo com a presente invenção baseia-se na determinação de uma manifestação de voz de uma pessoa e transformação em um sinal de voz a ser processado por um dispositivo de reconhecimento de voz, na análise do sinal de voz, paralela ou seqüencial em vários ramos de reconhecimento de voz, sob o uso de várias gramáticas, e no término bem-sucedido do processo de reconhecimento, caso a análise do sinal de voz em pelo menos um ramo de reconhecimento de voz fornece um resulta- do de reconhecimento positivo.
Em uma primeira realização da presente invenção ocorre uma análise simultânea da manifestação de voz através de duas ou várias gra- máticas independentes. Neste caso, através da manifestação de voz de uma pessoa, são disparados dois ou vários processos de reconhecimento simul- tâneos que analisam e avaliam a manifestação de voz independentemente um do outro. Por exemplo, no caso, uma gramática principal relativamente pequena com um pequeno escopo de reconhecimento é colocada lado a lado com uma gramática secundária mais ampla, com um escopo de reco- nhecimento ampliado. Ambas as gramáticas estão sem uma interseção co- mum.
Uma segunda realização da presente invenção refere-se a uma cascada de gramáticas. No caso deste modelo, diferentes gramáticas são usadas sucessivamente, isto é, seqüencialmente. No momento em que uma gramática fornece um resultado de reconhecimento, a cascada é deixada e o processo de reconhecimento começa. Neste processo, 100 % de todas as manifestações a serem reconhecidas são comparadas com a primeira gra- mática. Dependendo da capacidade e configuração dessa gramática, uma fração de, por exemplo, 20 % de manifestações não reconhecidas são trans- feridas para uma segunda fase de reconhecimento. Caso seja feita uma ter- ceira fase de reconhecimento, pode se partir do fato de que uma fração de, por exemplo, 5 % de todas as manifestações que entram alcançam esta ter- ceira fase de reconhecimento.
Em ambos os processos de reconhecimento pretende-se cobrir um espectro amplo de manifestações com várias gramáticas "menores", que em combinação garantem assim mesmo uma grande segurança de reco- nhecimento. Isto pode acontecer, conforme é descrito acima, na forma de um processo de reconhecimento simultâneo ou sucessivo.
Os dois exemplos de execução preferidos da presente invenção serão descritos a seguir com a ajuda dos desenhos.
A figura 1 mostra de modo esquemático uma primeira realização do sistema de reconhecimento de voz com ramos de reconhecimento de voz trabalhando paralelamente.
A figura 2 mostra de modo esquemático uma segunda realização do sistema de reconhecimento de voz com ramos de reconhecimento de voz trabalhando em seqüência, em cascada.
De acordo com a figura 1, uma manifestação de voz de uma pessoa que está disponível como sinal de voz 10 é levada simultaneamente a dois ramos de reconhecimento de voz e analisada por duas gramáticas 12 e 14 (Gramática A e gramática B). As duas gramáticas 12, 14 não têm ne- nhuma interseção comum, isto é, elas se baseiam em regras diferentes. De- vido ao processamento paralelo do sinal de voz aumenta o dispêndio de análise e, com isso, a carga de computador necessária na aplicação do pro- cesso em um computador. Porém, esta circunstância é compensada pelo reconhecimento mais rápido e pela segurança de reconhecimento conside- ravelmente melhor.
Uma comparação 16 do sinal de voz com a gramática (A) 12 ou produz um resultado de reconhecimento positivo (sim) ou um resultado de reconhecimento negativo (não). Do mesmo modo, uma comparação 18 do sinal de voz com a gramática (B) 14 ou produz um resultado de reconheci- mento positivo (sim) ou um resultado de reconhecimento negativo (não).
No escopo do processo de reconhecimento com as gramáticas .12, 14 trabalhando simultaneamente, resultam quatro casos de reconheci- mento possíveis que podem ser avaliados com processos diferentes por meio de uma lógica 20.
<table>table see original document page 5</column></row><table>
Os casos de reconhecimento 1 a 3 não são problemáticos, pois eles fornecem resultados claros: o caso 1 força um não-reconhecimento do sinal de voz e, portanto, uma recusa, posição 24. Os casos 2 e 3 indicam apenas cada vez um resultado positivo e com isso mostram claramente um reconhecimento do sinal de voz, posição 22.
Para o caso 4, onde as duas gramáticas 12, 14 reconheceram o sinal de voz 10, em contrapartida, precisa ser implementada uma lógica de processo especial, já que o resultado não é claro. Esta pode decidir rigida- mente em favor da gramática 12, ser orientada na segurança de reconheci- mento (nível de confiança), ou ser uma forma mista dos dois (por exemplo, resultado de gramática 14 somente é usada quando a segurança de reco- nhecimento é maior por um determinado valor predefinido do que na gramá- tica 12).
No lugar de dois ramos de reconhecimento de voz paralelos, de acordo com a presente invenção, também podem ser previstos três ou mais ramos de reconhecimento de voz trabalhando paralelamente.
A figura 2 mostra uma outra configuração preferida da presente invenção. Aqui, várias gramáticas 12, 14 e 26 (gramáticas A, B e C) são li- gadas entre si seqüencialmente na forma de uma cascada. Isto é, na casca- da de gramática, as diversas gramáticas 12, 14 e 26 não são ativadas simul- taneamente, e sim sucessivamente. De modo esquemático, o processo de reconhecimento pode ser apresentado como segue: no momento quando uma gramática fornece um resultado de reconhecimento positivo, a cascada é abandonada e o processo de reconhecimento terminou, posição 22.
O sinal de voz 10 é primeiro conduzido para uma primeira gra- mática (A) 12 e lá é analisado. Uma comparação 16 do sinal de voz com a gramática (A) 12, ou produz um resultado de reconhecimento positivo (sim), quando o processo de reconhecimento é terminado com sucesso, ou um resultado de reconhecimento negativo (não), onde o sinal de voz segue para uma outra análise, é conduzido a uma segunda gramática (B) 14. Uma com- paração 18 do sinal de voz 10 com a segunda gramática (B) 14 ou produz um resultado de reconhecimento positivo (sim), onde o processo de reco- nhecimento termina com sucesso, ou um resultado de reconhecimento nega- tivo (não), onde o sinal de voz vai para uma outra análise e é conduzido a uma terceira gramática (C) 26. Uma comparação 28 do sinal de voz com a terceira gramática (C) 26, ou produz um resultado de reconhecimento positi- vo (sim) onde o processo de reconhecimento termina com sucesso, ou um resultado de reconhecimento negativo (não), onde o sinal de voz é recusado como não reconhecido, posição 24.
Neste processo, primeiro 100 % de todos os sinais de voz 10 que entram são comparados com a primeira gramática 12. Dependendo da capacidade e configuração dessa gramática, uma parte das manifestações de voz não é reconhecida. Estes sinais de voz não reconhecidos são então conduzidos à segunda fase de reconhecimento. Dependendo da capacidade e configuração da segunda fase de reconhecimento, outra vez uma parte das manifestações de voz não é reconhecida. Estes sinais de voz não reco- nhecidos são transferidos para a terceira fase de reconhecimento.
A preferência da cascada de gramáticas em relação ao processo do reconhecimento simulado através de várias gramáticas está no fato de que não há nenhuma carga adicional para o computador, já que o sinal de voz 10 a qualquer momento somente é comparado com uma gramática. De- vido ao reconhecimento sucessivo, porém, necessariamente ocorrerá um aumento dos tempos latentes no sistema.
No lugar de três ramos de reconhecimento de voz em cascada, de acordo com a presente invenção, também podem ser previstos quatro ou mais ramos de reconhecimento de voz que trabalham seqüencialmente.
LISTAGEM DE REFERÊNCIAS
10 Sinal de voz
12 Gramática A
20 14 Gramática B
18 Ramo A
20 Ramo B
22 Reconhecimento bem-sucedido
24 Reconhecimento sem sucesso
25 26 Gramática C
28 Ramo C
Claims (11)
1. Processo para o reconhecimento da voz natural em uma ma- nifestação de voz, com as etapas: - captação da manifestação de voz e transformação em um sinal de voz (10) a ser processado por um dispositivo de reconhecimento de voz; - análise do sinal de voz (10), de modo paralelo ou seqüencial, em vários ramos de reconhecimento de voz do dispositivo de reconhecimen- to de voz sob o uso de várias gramáticas (12, 14, 26); e - término bem-sucedido do processo de reconhecimento da ma- nifestação de voz, caso a análise do sinal de voz forneça um resultado posi- tivo em pelo menos um ramo de reconhecimento de voz.
2. Processo, de acordo com a reivindicação 1, caracterizado pe- las etapas: (a) levar o sinal de voz (10) a pelo menos um primeiro ramo de reconhecimento de voz compreendendo uma primeira gramática (12) para a análise do sinal de voz, e ao mesmo tempo para um segundo ramo de reco- nhecimento de voz, compreendendo uma segunda gramática (14), para a análise do sinal de voz; (b) análise do sinal de voz por uma primeira gramática (12), sen- do que em caso de reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento positivo, e no caso de não- reconhecimento da manifestação de voz, é gerado um primeiro resultado de reconhecimento negativo; (c) análise do sinal de voz pela segunda gramática (14), sendo que em caso de um reconhecimento da manifestação de voz é gerado um segundo resultado de reconhecimento positivo, e no caso de um não- reconhecimento da manifestação de voz, é gerado um segundo resultado de reconhecimento negativo; (d) decisão sobre o reconhecimento bem-sucedido da manifes- tação de voz com a ajuda de uma avaliação do primeiro e do segundo resul- tado de reconhecimento.
3. Processo, de acordo com a reivindicação 1, caracterizado pe- las etapas: (a) levar o sinal de voz (10) a um primeiro ramo de reconheci- mento de voz compreendendo uma primeira gramática (12), para a análise do sinal de voz; (b) análise do sinal de voz (10) pela primeira gramática (12), sendo que em caso de reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento positivo, e o processo de reconheci- mento é terminado, e em caso de um não reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento negativo, (c) sendo que em caso de um resultado de reconhecimento ne- gativo o sinal de voz é conduzido para um outro ramo de reconhecimento de voz compreendendo uma outra gramática (14); (d) Análise do sinal de voz (10) pela outra gramática (14), sendo que em caso de um reconhecimento da manifestação de voz é gerado um resultado de reconhecimento positivo, e o processo de reconhecimento é terminado, e em caso de um não-reconhecimento da manifestação da voz é gerado um resultado de reconhecimento negativo; e (e) sendo que em caso de um resultado de reconhecimento ne- gativo é continuado com a etapa (c) até que as gramáticas (26) de todos os ramos de reconhecimento de voz tenham sido consultadas.
4. Processo, de acordo com uma das reivindicações 1 a 3, ca- racterizado pelo fato de que as regras das gramáticas (12, 14, 26) não pos- suem nenhuma interseção comum.
5. Processo, de acordo com uma das reivindicações 1 a 3, ca- racterizado pelo fato de que as regras das gramáticas (12, 14, 26) não pos- suem nenhuma interseção comum.
6. Processo, de acordo com uma das reivindicações 1 a 5, ca- racterizado pelo fato de que uma primeira gramática (12) analisa manifesta- ções de voz que ocorrem freqüentemente, uma segunda gramática (14) ana- lisa manifestações de voz menos freqüentes, e cada outra gramática (26) analisa manifestações de voz menos freqüentes ainda.
7. Processo, de acordo com uma das reivindicações 1 a 6, ca- racterizado pelo fato de que, quando tanto o primeiro como também o se- gundo resultado de reconhecimento estiver positivo, é usado o resultado de reconhecimento fornecido pela primeira gramática (12).
8. Processo, de acordo com uma das reivindicações 1 a 6, ca- racterizado pelo fato de que, quando tanto o primeiro como também o se- gundo resultado de reconhecimento for positivo, é usado aquele resultado de reconhecimento, cuja confiabilidade de reconhecimento é maior.
9. Dispositivo para o reconhecimento da voz natural de uma ma- nifestação de voz, que compreende: - meios (10) para a captação da manifestação de voz e para transformar em um sinal de voz a ser processado por um dispositivo de re- conhecimento de voz; - um dispositivo de reconhecimento de voz com vários ramos de reconhecimento de voz, sendo que cada ramo de reconhecimento de voz possui uma gramática (12; 14; 26) para analisar o sinal de voz (10), sendo que o sinal de voz é levado aos ramos de reconhecimento de voz de modo paralelo ou seqüencial; e - meios (20; 22, 24) para o controle e a avaliação do processo de reconhecimento em dependência do resultado de reconhecimento de pelo menos um ramo de reconhecimento de voz.
10. Programa de computador com um código de programa que, executado em um computador, executa um processo como definido em uma das reivindicações 1 a 8.
11. Produto de programa de computador que compreende um código de computador executável em um computador para a execução do processo como definido em uma das reivindicações 1 a 8.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006029755A DE102006029755A1 (de) | 2006-06-27 | 2006-06-27 | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
DE102006029755.5 | 2006-06-27 | ||
PCT/EP2007/005224 WO2008000353A1 (de) | 2006-06-27 | 2007-06-14 | Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung |
Publications (1)
Publication Number | Publication Date |
---|---|
BRPI0713987A2 true BRPI0713987A2 (pt) | 2012-11-20 |
Family
ID=38543007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0713987-0A BRPI0713987A2 (pt) | 2006-06-27 | 2007-06-14 | processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz |
Country Status (9)
Country | Link |
---|---|
US (1) | US9208787B2 (pt) |
EP (1) | EP2036078A1 (pt) |
KR (1) | KR20090033459A (pt) |
CN (1) | CN101484934B (pt) |
BR (1) | BRPI0713987A2 (pt) |
CA (1) | CA2656114C (pt) |
DE (1) | DE102006029755A1 (pt) |
RU (1) | RU2432623C2 (pt) |
WO (1) | WO2008000353A1 (pt) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195461B2 (en) | 2006-12-15 | 2012-06-05 | Mitsubishi Electric Corporation | Voice recognition system |
DE102008025532B4 (de) * | 2008-05-28 | 2014-01-09 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102010040553A1 (de) * | 2010-09-10 | 2012-03-15 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
DE102010049869B4 (de) * | 2010-10-28 | 2023-03-16 | Volkswagen Ag | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
US9093076B2 (en) | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
EP2733697A1 (en) * | 2012-11-16 | 2014-05-21 | QNX Software Systems Limited | Application services interface to ASR |
US9135916B2 (en) * | 2013-02-26 | 2015-09-15 | Honeywell International Inc. | System and method for correcting accent induced speech transmission problems |
KR101370539B1 (ko) | 2013-03-15 | 2014-03-06 | 포항공과대학교 산학협력단 | 지시 표현 처리에 기반한 대화 처리 방법 및 장치 |
US10186262B2 (en) | 2013-07-31 | 2019-01-22 | Microsoft Technology Licensing, Llc | System with multiple simultaneous speech recognizers |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US9698999B2 (en) | 2013-12-02 | 2017-07-04 | Amazon Technologies, Inc. | Natural language control of secondary device |
US9601108B2 (en) * | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US9552817B2 (en) | 2014-03-19 | 2017-01-24 | Microsoft Technology Licensing, Llc | Incremental utterance decoder combination for efficient and accurate decoding |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
CN113259736B (zh) * | 2021-05-08 | 2022-08-09 | 深圳市康意数码科技有限公司 | 一种语音控制电视机的方法及电视机 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6249761B1 (en) * | 1997-09-30 | 2001-06-19 | At&T Corp. | Assigning and processing states and arcs of a speech recognition model in parallel processors |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
AU2001251354A1 (en) * | 2000-04-06 | 2001-10-23 | One Voice Technologies, Inc. | Natural language and dialogue generation processing |
US6912498B2 (en) * | 2000-05-02 | 2005-06-28 | Scansoft, Inc. | Error correction in speech recognition by correcting text around selected area |
US7464033B2 (en) * | 2000-07-31 | 2008-12-09 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
JP2002116796A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
US20020107695A1 (en) * | 2001-02-08 | 2002-08-08 | Roth Daniel L. | Feedback for unrecognized speech |
US6964020B1 (en) * | 2001-02-22 | 2005-11-08 | Sprint Communications Company L.P. | Method and system for facilitating construction of a canned message in a microbrowser environment |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
FR2832524A1 (fr) * | 2001-11-22 | 2003-05-23 | Cegetel Groupe | Procede de gestion d'un document principal |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US7177814B2 (en) * | 2002-02-07 | 2007-02-13 | Sap Aktiengesellschaft | Dynamic grammar for voice-enabled applications |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7184957B2 (en) * | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
US20040158468A1 (en) * | 2003-02-12 | 2004-08-12 | Aurilab, Llc | Speech recognition with soft pruning |
DE602004011753T2 (de) * | 2003-03-01 | 2009-02-05 | Coifman, Robert E. | Verfahren und Vorrichtung zum Verbessern der Transkriptionsgenauigkeit bei der Spracherkennung |
US7603267B2 (en) * | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
US7647645B2 (en) * | 2003-07-23 | 2010-01-12 | Omon Ayodele Edeki | System and method for securing computer system against unauthorized access |
NZ582991A (en) * | 2004-06-04 | 2011-04-29 | Keyless Systems Ltd | Using gliding stroke on touch screen and second input to choose character |
JP4574390B2 (ja) * | 2005-02-22 | 2010-11-04 | キヤノン株式会社 | 音声認識方法 |
DE102005030967B4 (de) * | 2005-06-30 | 2007-08-09 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
-
2006
- 2006-06-27 DE DE102006029755A patent/DE102006029755A1/de not_active Ceased
-
2007
- 2007-06-14 CN CN2007800246599A patent/CN101484934B/zh not_active Expired - Fee Related
- 2007-06-14 WO PCT/EP2007/005224 patent/WO2008000353A1/de active Application Filing
- 2007-06-14 EP EP07764643A patent/EP2036078A1/de not_active Withdrawn
- 2007-06-14 US US12/306,350 patent/US9208787B2/en not_active Expired - Fee Related
- 2007-06-14 CA CA2656114A patent/CA2656114C/en not_active Expired - Fee Related
- 2007-06-14 BR BRPI0713987-0A patent/BRPI0713987A2/pt not_active Application Discontinuation
- 2007-06-14 KR KR1020097001732A patent/KR20090033459A/ko not_active Application Discontinuation
- 2007-06-14 RU RU2009102507/09A patent/RU2432623C2/ru active
Also Published As
Publication number | Publication date |
---|---|
CA2656114C (en) | 2016-02-09 |
WO2008000353A1 (de) | 2008-01-03 |
US9208787B2 (en) | 2015-12-08 |
CA2656114A1 (en) | 2008-01-03 |
CN101484934A (zh) | 2009-07-15 |
EP2036078A1 (de) | 2009-03-18 |
RU2009102507A (ru) | 2010-08-10 |
KR20090033459A (ko) | 2009-04-03 |
CN101484934B (zh) | 2013-01-02 |
US20100114577A1 (en) | 2010-05-06 |
RU2432623C2 (ru) | 2011-10-27 |
DE102006029755A1 (de) | 2008-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0713987A2 (pt) | processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz | |
US8976941B2 (en) | Apparatus and method for reporting speech recognition failures | |
US9081590B2 (en) | Multimodal input using scratchpad graphical user interface to edit speech text input with keyboard input | |
EP2028645B1 (en) | Method and system of optimal selection strategy for statistical classifications in dialog systems | |
US20130262090A1 (en) | System and method for reducing semantic ambiguity | |
CN102063328B (zh) | 一种用于检测中断驱动型程序数据竞争的系统 | |
CN101482596B (zh) | 多因素工业系统的故障快速识别方法 | |
US11620992B2 (en) | Automated speech recognition confidence classifier | |
CN105183642A (zh) | 基于插桩的程序行为获取及结构分析方法 | |
CN111402865A (zh) | 语音识别训练数据的生成方法、语音识别模型的训练方法 | |
KR20070094690A (ko) | 음성 신호 분리 시스템 및 그 방법 | |
US11295728B2 (en) | Method and system for improving recognition of disordered speech | |
KR20160100887A (ko) | 코드 블록 비교를 통한 악성 코드 탐지 방법 | |
CN114420102B (zh) | 语音断句方法、装置、电子设备及存储介质 | |
KR100833096B1 (ko) | 사용자 인식 장치 및 그에 의한 사용자 인식 방법 | |
US8689327B2 (en) | Method for characterization of a computer program part | |
US10055341B2 (en) | To-be-stubbed target determining apparatus, to-be-stubbed target determining method and non-transitory recording medium storing to-be-stubbed target determining program | |
JPH08221429A (ja) | 文書自動分類装置 | |
CN111858289B (zh) | 图形用户界面的测试方法、装置和计算机可读存储介质 | |
CN110083807B (zh) | 合同的修改影响自动预测方法、装置、介质及电子设备 | |
CN113539264A (zh) | 一种语音控制电动门的语音指令数据传输方法及系统 | |
KR20140077788A (ko) | 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법 | |
CN116416983A (zh) | 基于用户对话的智能设备控制方法及装置 | |
CN114464192A (zh) | 一种说话人语音分割方法、装置、电子设备和存储介质 | |
CN114254177A (zh) | 基于词义分布假设构造的语言处理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06T | Formal requirements before examination [chapter 6.20 patent gazette] | ||
B15K | Others concerning applications: alteration of classification |
Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 15/18 , G10L 15/28 Ipc: G10L 15/19 (2013.01), G10L 15/32 (2013.01) |
|
B11E | Dismissal acc. art. 34 of ipl - requirements for examination incomplete | ||
B11T | Dismissal: dismissal of application maintained |