BRPI0713987A2 - processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz - Google Patents

processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz Download PDF

Info

Publication number
BRPI0713987A2
BRPI0713987A2 BRPI0713987-0A BRPI0713987A BRPI0713987A2 BR PI0713987 A2 BRPI0713987 A2 BR PI0713987A2 BR PI0713987 A BRPI0713987 A BR PI0713987A BR PI0713987 A2 BRPI0713987 A2 BR PI0713987A2
Authority
BR
Brazil
Prior art keywords
recognition
speech
voice
grammar
manifestation
Prior art date
Application number
BRPI0713987-0A
Other languages
English (en)
Inventor
Ekkhard Hayn
Original Assignee
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom Ag filed Critical Deutsche Telekom Ag
Publication of BRPI0713987A2 publication Critical patent/BRPI0713987A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

PROCESSO E DISPOSITIVO PARA O RECONHECIMENTO DA VOZ NATURAL EM UMA MANIFESTAÇçO DE VOZ. A presente invenção refere-se a um processo e um dispositivo para o reconhecimento da voz natural e uma manifestação de voz. Uma manifestação de voz de uma pessoa é captada e transformada em um sinal de voz a ser processado por um dispositivo de reconhecimento de voz. Depois, é feita a análise do sinal de voz, de modo paralelo ou sequencial, em vários ramos de reconhecimento de voz do dispositivo de reconhecimento de voz, sob o uso de várias gramáticas, sendo que o processo de reconhecimento é terminado com êxito caso a análise do sinal de voz em pelo menos um ramo de reconhecimento de voz fornece um resultado de reconhecimento positivo.

Description

Relatório Descritivo da Patente de Invenção para "PROCESSO E DISPOSITIVO PARA O RECONHECIMENTO DA VOZ NATURAL EM UMA MANIFESTAÇÃO DE VOZ".
A presente invenção refere-se a um processo e a um dispositivo para o reconhecimento da voz natural em uma manifestação de voz, especi- almente na base de um sistema de reconhecimento de voz que pode ser executado, por exemplo, em um sistema de processamento de dados eletrô- nico.
Sistemas de reconhecimento de voz são previstos para serem usados em diversas áreas de aplicação. Por exemplo, sistemas de reconhe- cimento de voz são usados no contexto de aplicações de escritórios para a captação de textos ou junto com equipamentos técnicos, para seu controle e entrada de comandos. Sistemas de reconhecimento de voz também são u- sados para controlar equipamentos de informações e comunicação, tais co- mo por exemplo, rádio, telefone celular e sistemas de navegação. As firmas usam os sistemas de diálogo de voz também para atendimento e informação de clientes que também são baseados em sistemas de reconhecimento de voz. O presente pedido de patente refere-se a estes últimos.
Nisso, no reconhecimento de voz automático para a avaliação de seqüências de palavras, são usados os chamados modelos de voz que se baseiam em regras gramaticais, também denominado de gramática. As gramáticas definem regras de sintaxe claras. Sistemas de reconhecimento de voz baseados em gramáticas possuem uma alta segurança de reconhe- cimento.
Especialmente no atendimento aos clientes na área técnica, por
exemplo, no contexto de telefones celulares e tarifas, são exigidos sistemas de reconhecimento de voz cada vez mais eficientes. A fim de entender as numerosas manifestações dos clientes, são necessárias gramáticas muito complexas, cuja extensão se torna um prejuízo para a segurança de reco- nhecimento.
Cada processo de reconhecimento de voz automatizado é base- ado na comparação de uma manifestação de chamada concreta com pala- vras ou expressões depositadas. Somente em caso de uma coincidência, uma manifestação vale como sendo reconhecida e pode disparar uma de- terminada ação. Porém, disso resulta um "dilema de gramática". Gramáticas pequenas possuem um escopo de reconhecimento pequeno, mas em con- trapartida, uma segurança de reconhecimento maior. Gramáticas grandes, por outro lado, cobrem um grande espectro de manifestações, a etapa que a segurança de reconhecimento diminui.
A presente invenção tem a tarefa de realizar um processo de reconhecimento de voz e um sistema de reconhecimento de voz com um grande escopo de reconhecimento e com um escopo pequeno de gramática. Isto significa, procura-se um modelo de gramática que aproveita os aspectos positivos de gramáticas grandes e pequenas, sem ter seus aspectos negati- vos.
De acordo com a presente invenção, esta tarefa é solucionada com a ajuda de um processo e um dispositivo com as características das reivindicações independentes.
Realizações preferidas e outras características vantajosas da presente invenção são evidentes das sub-reivindicações.
O processo de acordo com a presente invenção baseia-se na determinação de uma manifestação de voz de uma pessoa e transformação em um sinal de voz a ser processado por um dispositivo de reconhecimento de voz, na análise do sinal de voz, paralela ou seqüencial em vários ramos de reconhecimento de voz, sob o uso de várias gramáticas, e no término bem-sucedido do processo de reconhecimento, caso a análise do sinal de voz em pelo menos um ramo de reconhecimento de voz fornece um resulta- do de reconhecimento positivo.
Em uma primeira realização da presente invenção ocorre uma análise simultânea da manifestação de voz através de duas ou várias gra- máticas independentes. Neste caso, através da manifestação de voz de uma pessoa, são disparados dois ou vários processos de reconhecimento simul- tâneos que analisam e avaliam a manifestação de voz independentemente um do outro. Por exemplo, no caso, uma gramática principal relativamente pequena com um pequeno escopo de reconhecimento é colocada lado a lado com uma gramática secundária mais ampla, com um escopo de reco- nhecimento ampliado. Ambas as gramáticas estão sem uma interseção co- mum.
Uma segunda realização da presente invenção refere-se a uma cascada de gramáticas. No caso deste modelo, diferentes gramáticas são usadas sucessivamente, isto é, seqüencialmente. No momento em que uma gramática fornece um resultado de reconhecimento, a cascada é deixada e o processo de reconhecimento começa. Neste processo, 100 % de todas as manifestações a serem reconhecidas são comparadas com a primeira gra- mática. Dependendo da capacidade e configuração dessa gramática, uma fração de, por exemplo, 20 % de manifestações não reconhecidas são trans- feridas para uma segunda fase de reconhecimento. Caso seja feita uma ter- ceira fase de reconhecimento, pode se partir do fato de que uma fração de, por exemplo, 5 % de todas as manifestações que entram alcançam esta ter- ceira fase de reconhecimento.
Em ambos os processos de reconhecimento pretende-se cobrir um espectro amplo de manifestações com várias gramáticas "menores", que em combinação garantem assim mesmo uma grande segurança de reco- nhecimento. Isto pode acontecer, conforme é descrito acima, na forma de um processo de reconhecimento simultâneo ou sucessivo.
Os dois exemplos de execução preferidos da presente invenção serão descritos a seguir com a ajuda dos desenhos.
A figura 1 mostra de modo esquemático uma primeira realização do sistema de reconhecimento de voz com ramos de reconhecimento de voz trabalhando paralelamente.
A figura 2 mostra de modo esquemático uma segunda realização do sistema de reconhecimento de voz com ramos de reconhecimento de voz trabalhando em seqüência, em cascada.
De acordo com a figura 1, uma manifestação de voz de uma pessoa que está disponível como sinal de voz 10 é levada simultaneamente a dois ramos de reconhecimento de voz e analisada por duas gramáticas 12 e 14 (Gramática A e gramática B). As duas gramáticas 12, 14 não têm ne- nhuma interseção comum, isto é, elas se baseiam em regras diferentes. De- vido ao processamento paralelo do sinal de voz aumenta o dispêndio de análise e, com isso, a carga de computador necessária na aplicação do pro- cesso em um computador. Porém, esta circunstância é compensada pelo reconhecimento mais rápido e pela segurança de reconhecimento conside- ravelmente melhor.
Uma comparação 16 do sinal de voz com a gramática (A) 12 ou produz um resultado de reconhecimento positivo (sim) ou um resultado de reconhecimento negativo (não). Do mesmo modo, uma comparação 18 do sinal de voz com a gramática (B) 14 ou produz um resultado de reconheci- mento positivo (sim) ou um resultado de reconhecimento negativo (não).
No escopo do processo de reconhecimento com as gramáticas .12, 14 trabalhando simultaneamente, resultam quatro casos de reconheci- mento possíveis que podem ser avaliados com processos diferentes por meio de uma lógica 20.
<table>table see original document page 5</column></row><table>
Os casos de reconhecimento 1 a 3 não são problemáticos, pois eles fornecem resultados claros: o caso 1 força um não-reconhecimento do sinal de voz e, portanto, uma recusa, posição 24. Os casos 2 e 3 indicam apenas cada vez um resultado positivo e com isso mostram claramente um reconhecimento do sinal de voz, posição 22.
Para o caso 4, onde as duas gramáticas 12, 14 reconheceram o sinal de voz 10, em contrapartida, precisa ser implementada uma lógica de processo especial, já que o resultado não é claro. Esta pode decidir rigida- mente em favor da gramática 12, ser orientada na segurança de reconheci- mento (nível de confiança), ou ser uma forma mista dos dois (por exemplo, resultado de gramática 14 somente é usada quando a segurança de reco- nhecimento é maior por um determinado valor predefinido do que na gramá- tica 12).
No lugar de dois ramos de reconhecimento de voz paralelos, de acordo com a presente invenção, também podem ser previstos três ou mais ramos de reconhecimento de voz trabalhando paralelamente.
A figura 2 mostra uma outra configuração preferida da presente invenção. Aqui, várias gramáticas 12, 14 e 26 (gramáticas A, B e C) são li- gadas entre si seqüencialmente na forma de uma cascada. Isto é, na casca- da de gramática, as diversas gramáticas 12, 14 e 26 não são ativadas simul- taneamente, e sim sucessivamente. De modo esquemático, o processo de reconhecimento pode ser apresentado como segue: no momento quando uma gramática fornece um resultado de reconhecimento positivo, a cascada é abandonada e o processo de reconhecimento terminou, posição 22.
O sinal de voz 10 é primeiro conduzido para uma primeira gra- mática (A) 12 e lá é analisado. Uma comparação 16 do sinal de voz com a gramática (A) 12, ou produz um resultado de reconhecimento positivo (sim), quando o processo de reconhecimento é terminado com sucesso, ou um resultado de reconhecimento negativo (não), onde o sinal de voz segue para uma outra análise, é conduzido a uma segunda gramática (B) 14. Uma com- paração 18 do sinal de voz 10 com a segunda gramática (B) 14 ou produz um resultado de reconhecimento positivo (sim), onde o processo de reco- nhecimento termina com sucesso, ou um resultado de reconhecimento nega- tivo (não), onde o sinal de voz vai para uma outra análise e é conduzido a uma terceira gramática (C) 26. Uma comparação 28 do sinal de voz com a terceira gramática (C) 26, ou produz um resultado de reconhecimento positi- vo (sim) onde o processo de reconhecimento termina com sucesso, ou um resultado de reconhecimento negativo (não), onde o sinal de voz é recusado como não reconhecido, posição 24.
Neste processo, primeiro 100 % de todos os sinais de voz 10 que entram são comparados com a primeira gramática 12. Dependendo da capacidade e configuração dessa gramática, uma parte das manifestações de voz não é reconhecida. Estes sinais de voz não reconhecidos são então conduzidos à segunda fase de reconhecimento. Dependendo da capacidade e configuração da segunda fase de reconhecimento, outra vez uma parte das manifestações de voz não é reconhecida. Estes sinais de voz não reco- nhecidos são transferidos para a terceira fase de reconhecimento.
A preferência da cascada de gramáticas em relação ao processo do reconhecimento simulado através de várias gramáticas está no fato de que não há nenhuma carga adicional para o computador, já que o sinal de voz 10 a qualquer momento somente é comparado com uma gramática. De- vido ao reconhecimento sucessivo, porém, necessariamente ocorrerá um aumento dos tempos latentes no sistema.
No lugar de três ramos de reconhecimento de voz em cascada, de acordo com a presente invenção, também podem ser previstos quatro ou mais ramos de reconhecimento de voz que trabalham seqüencialmente.
LISTAGEM DE REFERÊNCIAS
10 Sinal de voz
12 Gramática A
20 14 Gramática B
18 Ramo A
20 Ramo B
22 Reconhecimento bem-sucedido
24 Reconhecimento sem sucesso
25 26 Gramática C
28 Ramo C

Claims (11)

1. Processo para o reconhecimento da voz natural em uma ma- nifestação de voz, com as etapas: - captação da manifestação de voz e transformação em um sinal de voz (10) a ser processado por um dispositivo de reconhecimento de voz; - análise do sinal de voz (10), de modo paralelo ou seqüencial, em vários ramos de reconhecimento de voz do dispositivo de reconhecimen- to de voz sob o uso de várias gramáticas (12, 14, 26); e - término bem-sucedido do processo de reconhecimento da ma- nifestação de voz, caso a análise do sinal de voz forneça um resultado posi- tivo em pelo menos um ramo de reconhecimento de voz.
2. Processo, de acordo com a reivindicação 1, caracterizado pe- las etapas: (a) levar o sinal de voz (10) a pelo menos um primeiro ramo de reconhecimento de voz compreendendo uma primeira gramática (12) para a análise do sinal de voz, e ao mesmo tempo para um segundo ramo de reco- nhecimento de voz, compreendendo uma segunda gramática (14), para a análise do sinal de voz; (b) análise do sinal de voz por uma primeira gramática (12), sen- do que em caso de reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento positivo, e no caso de não- reconhecimento da manifestação de voz, é gerado um primeiro resultado de reconhecimento negativo; (c) análise do sinal de voz pela segunda gramática (14), sendo que em caso de um reconhecimento da manifestação de voz é gerado um segundo resultado de reconhecimento positivo, e no caso de um não- reconhecimento da manifestação de voz, é gerado um segundo resultado de reconhecimento negativo; (d) decisão sobre o reconhecimento bem-sucedido da manifes- tação de voz com a ajuda de uma avaliação do primeiro e do segundo resul- tado de reconhecimento.
3. Processo, de acordo com a reivindicação 1, caracterizado pe- las etapas: (a) levar o sinal de voz (10) a um primeiro ramo de reconheci- mento de voz compreendendo uma primeira gramática (12), para a análise do sinal de voz; (b) análise do sinal de voz (10) pela primeira gramática (12), sendo que em caso de reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento positivo, e o processo de reconheci- mento é terminado, e em caso de um não reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento negativo, (c) sendo que em caso de um resultado de reconhecimento ne- gativo o sinal de voz é conduzido para um outro ramo de reconhecimento de voz compreendendo uma outra gramática (14); (d) Análise do sinal de voz (10) pela outra gramática (14), sendo que em caso de um reconhecimento da manifestação de voz é gerado um resultado de reconhecimento positivo, e o processo de reconhecimento é terminado, e em caso de um não-reconhecimento da manifestação da voz é gerado um resultado de reconhecimento negativo; e (e) sendo que em caso de um resultado de reconhecimento ne- gativo é continuado com a etapa (c) até que as gramáticas (26) de todos os ramos de reconhecimento de voz tenham sido consultadas.
4. Processo, de acordo com uma das reivindicações 1 a 3, ca- racterizado pelo fato de que as regras das gramáticas (12, 14, 26) não pos- suem nenhuma interseção comum.
5. Processo, de acordo com uma das reivindicações 1 a 3, ca- racterizado pelo fato de que as regras das gramáticas (12, 14, 26) não pos- suem nenhuma interseção comum.
6. Processo, de acordo com uma das reivindicações 1 a 5, ca- racterizado pelo fato de que uma primeira gramática (12) analisa manifesta- ções de voz que ocorrem freqüentemente, uma segunda gramática (14) ana- lisa manifestações de voz menos freqüentes, e cada outra gramática (26) analisa manifestações de voz menos freqüentes ainda.
7. Processo, de acordo com uma das reivindicações 1 a 6, ca- racterizado pelo fato de que, quando tanto o primeiro como também o se- gundo resultado de reconhecimento estiver positivo, é usado o resultado de reconhecimento fornecido pela primeira gramática (12).
8. Processo, de acordo com uma das reivindicações 1 a 6, ca- racterizado pelo fato de que, quando tanto o primeiro como também o se- gundo resultado de reconhecimento for positivo, é usado aquele resultado de reconhecimento, cuja confiabilidade de reconhecimento é maior.
9. Dispositivo para o reconhecimento da voz natural de uma ma- nifestação de voz, que compreende: - meios (10) para a captação da manifestação de voz e para transformar em um sinal de voz a ser processado por um dispositivo de re- conhecimento de voz; - um dispositivo de reconhecimento de voz com vários ramos de reconhecimento de voz, sendo que cada ramo de reconhecimento de voz possui uma gramática (12; 14; 26) para analisar o sinal de voz (10), sendo que o sinal de voz é levado aos ramos de reconhecimento de voz de modo paralelo ou seqüencial; e - meios (20; 22, 24) para o controle e a avaliação do processo de reconhecimento em dependência do resultado de reconhecimento de pelo menos um ramo de reconhecimento de voz.
10. Programa de computador com um código de programa que, executado em um computador, executa um processo como definido em uma das reivindicações 1 a 8.
11. Produto de programa de computador que compreende um código de computador executável em um computador para a execução do processo como definido em uma das reivindicações 1 a 8.
BRPI0713987-0A 2006-06-27 2007-06-14 processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz BRPI0713987A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006029755A DE102006029755A1 (de) 2006-06-27 2006-06-27 Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
DE102006029755.5 2006-06-27
PCT/EP2007/005224 WO2008000353A1 (de) 2006-06-27 2007-06-14 Verfahren und vorrichtung zur natürlichsprachlichen erkennung einer sprachäusserung

Publications (1)

Publication Number Publication Date
BRPI0713987A2 true BRPI0713987A2 (pt) 2012-11-20

Family

ID=38543007

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0713987-0A BRPI0713987A2 (pt) 2006-06-27 2007-06-14 processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz

Country Status (9)

Country Link
US (1) US9208787B2 (pt)
EP (1) EP2036078A1 (pt)
KR (1) KR20090033459A (pt)
CN (1) CN101484934B (pt)
BR (1) BRPI0713987A2 (pt)
CA (1) CA2656114C (pt)
DE (1) DE102006029755A1 (pt)
RU (1) RU2432623C2 (pt)
WO (1) WO2008000353A1 (pt)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195461B2 (en) 2006-12-15 2012-06-05 Mitsubishi Electric Corporation Voice recognition system
DE102008025532B4 (de) * 2008-05-28 2014-01-09 Audi Ag Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren
DE102010049869B4 (de) * 2010-10-28 2023-03-16 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
US9093076B2 (en) 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
EP2733697A1 (en) * 2012-11-16 2014-05-21 QNX Software Systems Limited Application services interface to ASR
US9135916B2 (en) * 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
KR101370539B1 (ko) 2013-03-15 2014-03-06 포항공과대학교 산학협력단 지시 표현 처리에 기반한 대화 처리 방법 및 장치
US10186262B2 (en) 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US9698999B2 (en) 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9601108B2 (en) * 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US9552817B2 (en) 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CN113259736B (zh) * 2021-05-08 2022-08-09 深圳市康意数码科技有限公司 一种语音控制电视机的方法及电视机

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249761B1 (en) * 1997-09-30 2001-06-19 At&T Corp. Assigning and processing states and arcs of a speech recognition model in parallel processors
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
AU2001251354A1 (en) * 2000-04-06 2001-10-23 One Voice Technologies, Inc. Natural language and dialogue generation processing
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US7464033B2 (en) * 2000-07-31 2008-12-09 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US20020107695A1 (en) * 2001-02-08 2002-08-08 Roth Daniel L. Feedback for unrecognized speech
US6964020B1 (en) * 2001-02-22 2005-11-08 Sprint Communications Company L.P. Method and system for facilitating construction of a canned message in a microbrowser environment
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
FR2832524A1 (fr) * 2001-11-22 2003-05-23 Cegetel Groupe Procede de gestion d'un document principal
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
DE602004011753T2 (de) * 2003-03-01 2009-02-05 Coifman, Robert E. Verfahren und Vorrichtung zum Verbessern der Transkriptionsgenauigkeit bei der Spracherkennung
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US7647645B2 (en) * 2003-07-23 2010-01-12 Omon Ayodele Edeki System and method for securing computer system against unauthorized access
NZ582991A (en) * 2004-06-04 2011-04-29 Keyless Systems Ltd Using gliding stroke on touch screen and second input to choose character
JP4574390B2 (ja) * 2005-02-22 2010-11-04 キヤノン株式会社 音声認識方法
DE102005030967B4 (de) * 2005-06-30 2007-08-09 Daimlerchrysler Ag Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech

Also Published As

Publication number Publication date
CA2656114C (en) 2016-02-09
WO2008000353A1 (de) 2008-01-03
US9208787B2 (en) 2015-12-08
CA2656114A1 (en) 2008-01-03
CN101484934A (zh) 2009-07-15
EP2036078A1 (de) 2009-03-18
RU2009102507A (ru) 2010-08-10
KR20090033459A (ko) 2009-04-03
CN101484934B (zh) 2013-01-02
US20100114577A1 (en) 2010-05-06
RU2432623C2 (ru) 2011-10-27
DE102006029755A1 (de) 2008-01-03

Similar Documents

Publication Publication Date Title
BRPI0713987A2 (pt) processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz
US8976941B2 (en) Apparatus and method for reporting speech recognition failures
US9081590B2 (en) Multimodal input using scratchpad graphical user interface to edit speech text input with keyboard input
EP2028645B1 (en) Method and system of optimal selection strategy for statistical classifications in dialog systems
US20130262090A1 (en) System and method for reducing semantic ambiguity
CN102063328B (zh) 一种用于检测中断驱动型程序数据竞争的系统
CN101482596B (zh) 多因素工业系统的故障快速识别方法
US11620992B2 (en) Automated speech recognition confidence classifier
CN105183642A (zh) 基于插桩的程序行为获取及结构分析方法
CN111402865A (zh) 语音识别训练数据的生成方法、语音识别模型的训练方法
KR20070094690A (ko) 음성 신호 분리 시스템 및 그 방법
US11295728B2 (en) Method and system for improving recognition of disordered speech
KR20160100887A (ko) 코드 블록 비교를 통한 악성 코드 탐지 방법
CN114420102B (zh) 语音断句方法、装置、电子设备及存储介质
KR100833096B1 (ko) 사용자 인식 장치 및 그에 의한 사용자 인식 방법
US8689327B2 (en) Method for characterization of a computer program part
US10055341B2 (en) To-be-stubbed target determining apparatus, to-be-stubbed target determining method and non-transitory recording medium storing to-be-stubbed target determining program
JPH08221429A (ja) 文書自動分類装置
CN111858289B (zh) 图形用户界面的测试方法、装置和计算机可读存储介质
CN110083807B (zh) 合同的修改影响自动预测方法、装置、介质及电子设备
CN113539264A (zh) 一种语音控制电动门的语音指令数据传输方法及系统
KR20140077788A (ko) 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법
CN116416983A (zh) 基于用户对话的智能设备控制方法及装置
CN114464192A (zh) 一种说话人语音分割方法、装置、电子设备和存储介质
CN114254177A (zh) 基于词义分布假设构造的语言处理方法和系统

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06T Formal requirements before examination [chapter 6.20 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G10L 15/18 , G10L 15/28

Ipc: G10L 15/19 (2013.01), G10L 15/32 (2013.01)

B11E Dismissal acc. art. 34 of ipl - requirements for examination incomplete
B11T Dismissal: dismissal of application maintained