DE60317218T2 - Verfahren zur spracherkennung mit automatischen korrektur - Google Patents

Verfahren zur spracherkennung mit automatischen korrektur Download PDF

Info

Publication number
DE60317218T2
DE60317218T2 DE60317218T DE60317218T DE60317218T2 DE 60317218 T2 DE60317218 T2 DE 60317218T2 DE 60317218 T DE60317218 T DE 60317218T DE 60317218 T DE60317218 T DE 60317218T DE 60317218 T2 DE60317218 T2 DE 60317218T2
Authority
DE
Germany
Prior art keywords
sentence
syntax
signal
speech recognition
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60317218T
Other languages
English (en)
Other versions
DE60317218D1 (de
Inventor
Gilles Thales Intellectual Property POUSSIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Publication of DE60317218D1 publication Critical patent/DE60317218D1/de
Application granted granted Critical
Publication of DE60317218T2 publication Critical patent/DE60317218T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Details Of Television Systems (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Document Processing Apparatus (AREA)
  • Devices For Executing Special Programs (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren der Spracherkennung mit automatischer Korrektur in den Spracherkennungssystemen mit beschränkter Syntax, d. h. dass die erkennbaren Sätze sich in einer Einheit von bestimmten Möglichkeiten befinden. Dieses Verfahren ist besonders geeignet für die Spracherkennung in geräuschvoller Umgebung, zum Beispiel in den Cockpits von Militär- oder Zivilflugzeugen, in den Hubschraubern oder im Auto.
  • Viele Arbeiten auf dem Gebiet der Spracherkennung mit beschränkter Syntax haben es ermöglicht, Erkennungsraten in der Größenordnung von 95% zu erhalten, und dies selbst in der geräuschvollen Umgebung eines Cockpits eines Militärflugzeugs (etwa 100–110 dBA um den Helm des Piloten herum). Diese Leistung ist aber nicht ausreichend für eine sprachliche Steuerung eines Hauptsteuermediums für aus der Sicht der Flugsicherheit kritische Parameter.
  • Eine verwendete Strategie besteht darin, die kritischen Steuerungen einer Validierung durch den Piloten zu unterziehen, der durch den erkannten Satz überprüft, ob die richtigen Werte den richtigen Parametern zugeordnet werden ("primäres Feedback"). Bei einem Fehler des Erkennungssystems – oder Aussprachefehler des Piloten – muss der Pilot erneut den ganzen Satz aussprechen, und die Fehlerwahrscheinlichkeit bei der Erkennung des erneut ausgesprochenen Satzes ist die gleiche. Wenn zum Beispiel der Pilot ausspricht "Select altitude two five five zero feet", führt das System die Erkennungsalgorithmen durch und gibt dem Piloten eine visuelle Antwort. Wenn man den Fall in Betracht zieht, in dem ein Fehler auftritt, schlägt das System zum Beispiel vor "SEL ALT 2 5 9 0 FT". Bei einem klassischen System muss der Pilot dann erneut den ganzen Satz sagen, mit den gleichen Fehlerwahrscheinlichkeiten.
  • Ein bezüglich der Erkennungsrate besseres Fehlerkorrektursystem besteht darin, den Piloten einen Korrektursatz sagen zu lassen, der als solcher erkannt wird. Wenn man zum Beispiel das vorherige Beispiel wieder aufnimmt, kann der Pilot sagen "Correction third digit five". Diese Methode erhöht aber die Arbeitslast des Piloten im Erkennungsverfahren, was nicht wünschenswert ist.
  • Die Druckschrift US 6 141 661 zeigt so die Möglichkeit, ein Wort zu wiederholen, indem die Erkennung des ersten zurückgewiesenen Kandidaten ausgeschlossen wird.
  • Die Erfindung schlägt ein Spracherkennungsverfahren vor, das eine automatische Korrektur des gesprochenen Satzes anwendet, die es ermöglicht, eine Erkennungsrate nahe 100% zu erhalten, ohne Erhöhung der Belastung des Piloten.
  • Hierzu betrifft die Erfindung, wie sie im Anspruch 1 definiert ist, ein Verfahren zur Spracherkennung eines von einem Sprecher ausgesprochenen Sprachsignals mit automatischer Korrektur, das insbesondere einen Schritt der Verarbeitung des Sprachsignals, der ein Signal in komprimierter Form liefert, und einen Schritt der Formerkennung aufweist, um ausgehend von einer Syntax, die von einer Einheit von Sätzen gebildet wird, die die Gesamtheit der möglichen Wege zwischen einer Einheit von bei einem vorhergehenden Satz voreingespeicherten Wörtern darstellen, einen Satz der Syntax zu suchen, der dem Signal in seiner komprimierten Form am nächsten ist, dadurch gekennzeichnet, dass es aufweist
    • – die Speicherung (16) des Signals in seiner komprimierten Form,
    • – die Erzeugung (17) einer neuen Syntax (SYNT2), in der der Weg, der dem im vorherigen Erkennungsschritt bestimmten Satz entspricht, verboten ist,
    • – die Wiederholung des Formerkennungsschritts, um ausgehend von der neuen Syntax einen anderen Satz zu suchen, der dem gespeicherten Signal am nächsten ist.
  • Weitere Vorteile und Merkmale gehen klarer aus der nachfolgenden Beschreibung hervor, die von den beiliegenden Figuren veranschaulicht wird. Es zeigen:
  • 1 das Prinzipschema eines Spracherkennungssystems von bekanntem Typ;
  • 2 das Schema eines Spracherkennungssystems vom Typ desjenigen der 1, das das erfindungsgemäße Verfahren anwendet;
  • 3 ein Schema, das die Veränderung der Syntax im erfindungsgemäßen Verfahren veranschaulicht.
  • In diesen Figuren tragen gleiche Elemente die gleichen Bezugszeichen.
  • 1 zeigt das Prinzipschema eines Spracherkennungssystems mit beschränkter Syntax von bekanntem Typ, zum Beispiel ein in sehr geräuschvoller Umgebung installiertes System. Bei einem System mit beschränkter Syntax mit einem Sprecher ermöglicht eine Lernphase in Nicht-Echtzeit es einem gegebenen Sprecher, eine Einheit von akustischen Referenzen (Wörtern) aufzuzeichnen, die in einem Referenzraum 10 gespeichert werden. Die Syntax 11 wird von einer Einheit von Sätzen geformt, die die Gesamtheit der möglichen Wege oder Übergänge zwischen den verschiedenen Wörtern darstellen. Typischerweise werden etwa 300 Wörter im Referenzraum aufgezeichnet, die typischerweise 400 000 mögliche Sätze der Syntax bilden.
  • In klassischer Weise weist ein Spracherkennungssystem mindestens drei Blöcke auf, wie in 1 dargestellt ist. Es weist einen Block 12 der Erfassung des Sprachsignals (oder Tonaufnahme), einen Block 13 der Verarbeitung des Signals und einen Block 14 der Formerkennung auf. Eine ausführliche Beschreibung der Einheit dieser Blöcke gemäß einer Ausführungsform findet sich zum Beispiel in der französischen Patentanmeldung FR 2 808 917 im Namen der Anmelderin.
  • In bekannter Weise ist das vom Tonaufnahmeblock 12 verarbeitete akustische Signal ein Sprachsignal, das von einem elektroakustischen Transducer aufgefangen wird. Dieses Signal wird durch Abtastung digitalisiert und in eine bestimmte Anzahl von überlappenden oder nicht überlappenden Rahmen von gleicher Dauer oder nicht zerschnitten. Im Block 13 der Signalverarbeitung wird in klassischer Weise jeder Rahmen einem Parametervektor zugeordnet, der die im Rahmen enthaltene akustische Information übersetzt. Es gibt mehrere Methoden, um einen Parametervektor zu bestimmen. Ein klassisches Beispiel einer Methode ist diejenige, die die cepstralen Koeffizienten vom Typ MFCC (Abkürzung des englischen Ausdrucks "Mel Frequency Cepstral Coefficient") verwendet. Der Block 13 ermöglicht es, zuerst die Spektralenergie jedes Rahmens in einer bestimmten Anzahl von Frequenzkanälen oder Fenstern zu bestimmen. Er liefert für jeden der Rahmen einen Spektralenergiewert oder Spektralkoeffizient pro Frequenzkanal. Er führt anschließend eine Komprimierung der erhaltenen Spektralkoeffizienten durch, um das Verhalten des menschlichen Hörsystems zu berücksichtigen. Er führt schließlich eine Umwandlung der komprimierten Koeffizienten durch, wobei diese umgewandelten komprimierten Spektralkoeffizienten die Parameter des gesuchten Parametervektors sind.
  • Der Block 14 der Formerkennung ist mit dem Referenzraum 10 verbunden. Er vergleicht die Reihe der vom Signalverarbeitungsblock stammenden Parametervektoren mit den während der Lernphase erhaltenen Referenzen, wobei diese Referenzen die akustischen Eindrücke jedes Worts, jedes Phonems, allgemeiner jedes Befehls, und dessen, was in der nachfolgenden Beschreibung generisch "Satz" genannt wird, übersetzen. Da die Formerkennung durch Vergleich zwischen Parametervektoren durchgeführt wird, muss man diese Basisparametervektoren zur Verfügung haben. Man erhält sie in gleicher Weise wie für die Nutzsignalrahmen, indem für jeden Basisrahmen seine Spektralenergie in einer bestimmten Anzahl von Frequenzkanälen berechnet wird und indem gleiche Gewichtungsfenster verwendet werden.
  • Am Ende des letzten Rahmens, was allgemein dem Ende eines Befehls entspricht, ergibt der Vergleich entweder einen Abstand zwischen dem getesteten Befehl und Referenzbefehlen, wobei der Referenzbefehl, der den geringsten Abstand hat, erkannt wird, oder eine Wahrscheinlichkeit, dass die Reihe der Parametervektoren zu einer Folge von Phonemen gehören. Die üblicherweise während der Formerkennungsphase verwendeten Algorithmen sind im ersten Fall vom Typ DTW (Abkürzung des englischen Ausdrucks für Dynamic Time Warping) oder im zweiten Fall vom Typ HMM (Abkürzung des englischen Ausdrucks Hidden Markov Models). Im Fall eines Algorithmus vom Typ HMM sind die Referenzen gaußsche Funktionen, die je einem Phonem und nicht Reihen von Parametervektoren zugeordnet sind. Diese gaußschen Funktionen sind durch ihr Zentrum und ihre typische Abweichung gekennzeichnet. Dieses Zentrum und diese Abweichung hängen von den Parametern aller Rahmen des Phonems ab, d. h. den komprimierten Spektralkoeffizienten aller Rahmen des Phonems.
  • Die einen erkannten Satz darstellenden digitalen Signale werden an eine Vorrichtung 15 übertragen, die die Kopplung mit der Umgebung durchführt, zum Beispiel durch Anzeige des erkannten Satzes auf dem Head-up-Display eines Flugzeugcockpits.
  • Wie oben erläutert, kann der Pilot für die kritischen Befehle über einen Validierungsknopf verfügen, der die Durchführung des Befehls erlaubt. Wenn der erkannte Satz fehlerhaft ist, muss er allgemein den Satz wiederholen, mit der gleichen Fehlerwahrscheinlichkeit.
  • Das erfindungsgemäße Verfahren erlaubt eine automatische Korrektur mit großer Wirksamkeit und einfacher Anwendung. Seine Implementierung in einem Spracherkennungssystem des Typs der 1 ist in 2 schematisch dargestellt.
  • Erfindungsgemäß wird nach der Verarbeitungsphase des Signals 13 das Sprachsignal in seiner komprimierten Form (Einheit der Parametervektoren, auch "Cepstren" genannt) gespeichert (Schritt 16). Sobald ein Satz erkannt wird, wird eine neue Syntax erzeugt (Schritt 17), in der der erkannte Satz nicht mehr ein möglicher Weg der Syntax ist. Dann wird die Phase der Formerkennung mit dem gespeicherten Signal, aber an der neuen Syntax wiederholt. Vorzugsweise wird die Formerkennung systematisch wiederholt, um eine andere mögliche Lösung vorzubereiten. Wenn der Pilot einen Fehler im erkannten Befehl entdeckt, drückt er zum Beispiel auf einen spezifischen Korrekturknopf oder übt einen kurzen Druck oder einen Doppelklick auf die Sprechsteuertaste aus, und das System schlägt ihm die neue Lösung vor, die bei der Wiederholung der Formerkennung gefunden wurde. Man wiederholt die vorhergehenden Schritte, um neue Syntaxen zu erzeugen, die alle vorher gefundenen Lösungen verbieten. Wenn der Pilot die Lösung sieht, die tatsächlich dem gesprochenen Satz entspricht, validiert er über ein beliebiges Mittel (Knopf, Stimme, usw.).
  • Nun wird das vorher erwähnte Beispiel unter Nutzung der Erfindung wieder aufgenommen. Der Pilot sagt gemäß diesem Beispiel "Select altitude two five five zero feet". Das System führt die Erkennungsalgorithmen durch, und erkennt zum Beispiel aufgrund des Umgebungsgeräuschs "Select altitude two five nine zero feet". Ein visuelles Feedback wird dem Piloten angezeigt: "SEL ALT 2 5 9 0 FT". Während der Sprecher den erkannten Satz liest, greift das System einem möglichen Fehler voraus, indem es automatisch eine neue Syntax erzeugt, in der der erkannte Satz gelöscht wird und indem der Schritt der Formerkennung wiederholt wird.
  • 3 veranschaulicht durch ein einfaches Schema den Fall des vorherigen Beispiels, wobei die Veränderung der Syntax mit einem Formerkennungsalgorithmus des Typs DTW die Suche eines neuen Satzes erlaubt. Der vom Sprecher gemäß dem vorhergehenden Beispiel gesprochene Satz ist "SEL ALT 2 5 5 0 FT". Es wird angenommen, dass der von der ersten Formerkennungsphase erkannte Satz "SEL ALT 2 5 9 0 FT" ist. Diese erste Phase nutzt die Anfangssyntax SYNT1, in der alle Kombinationen (oder Wege) für die vier zu erkennenden Zahlen möglich sind. In einer zweiten Formerkennungsphase wird der erkannte Satz aus den möglichen Kombinationen entfernt, wodurch der Syntaxbaum verändert wird, wie dies in 3 dargestellt ist. Es wird eine neue Syntax erzeugt, die den der erkannten Lösung entsprechenden Weg verbietet. Dann wird ein zweiter Satz erkannt. Die Formerkennungsphase kann wiederholt werden, mit jedes Mal der Erzeugung einer neuen Syntax, die die vorhergehenden Syntax wieder aufnimmt, aber bei der der vorher gefundene Satz gelöscht wird.
  • So wird die neue Syntax durch Umorganisation der vorherigen Syntax erhalten, in der Weise, dass der Weg, der dem im vorhergehenden Erkennungsschritt bestimmten Satz entspricht, gekennzeichnet wird, und dann dieser Weg entfernt wird. Diese Umorganisation wird zum Beispiel durchgeführt, indem die frühere Syntax in Abhängigkeit von den Wörtern des vorher erkannten Satzes durchlaufen wird und indem im Laufe dieses Durchlaufs der für diesen Satz spezifische Weg geformt wird.
  • In einem möglichen Betriebsmodus zeigt der Pilot dem System an, dass er eine Korrektur wünscht (zum Beispiel durch kurzes Drücken auf die Sprechsteuertaste), und sobald eine neue Lösung verfügbar ist, wird sie angezeigt. Die automatische Suche eines neuen Satzes endet zum Beispiel, wenn ein erkannter Satz vom Piloten validiert wird. In unserem Beispiel ist es wahrscheinlich, dass der Pilot schon in der zweiten Formerkennungsphase sieht "SEL ALT 2 5 5 0 FT". Dann kann er den Befehl validieren. Da viele Erkennungsfehler durch Konfusionen zwischen nahen Wörtern verursacht werden (zum Beispiel five-nine), ermöglicht es die Erfindung, diese Fehler fast sicher mit einem Minimum an zusätzlicher Arbeitsbelastung des Piloten und sehr schnell zu korrigieren aufgrund des Vorgreifens auf die Korrektur, das das erfindungsgemäße Verfahren durchführen kann.
  • Durch Erzeugen einer neuen Syntax und durch Wiederholung des Formerkennungsschritts an der neuen Syntax erhöht man außerdem nicht die Komplexität des Syntaxbaums. Der Verarbeitungsalgorithmus kann also die Erkennung mit einer ähnlichen Verzögerung bei jeder Wiederholung durchführen, wobei diese Verzögerung für den Piloten aufgrund des Vorgreifens auf die Korrektur nicht wahrnehmbar ist.

Claims (8)

  1. Verfahren zur Spracherkennung eines von einem Sprecher ausgesprochenen Sprachsignals mit automatischer Korrektur, das insbesondere einen Schritt (13) der Verarbeitung des Sprachsignals, der ein Signal in komprimierter Form liefert, und einen Schritt (14) der Formerkennung aufweist, um ausgehend von einer Syntax (SYNT1), die von einer Einheit von Sätzen gebildet wird, die die Gesamtheit der möglichen Wege zwischen einer Einheit von bei einem vorhergehenden Satz voreingespeicherten Wörtern darstellen, einen Satz der Syntax zu suchen, der dem Signal in seiner komprimierten Form am nächsten ist, dadurch gekennzeichnet, dass es aufweist – die Speicherung (16) des Signals in seiner komprimierten Form, – die Erzeugung (17) einer neuen Syntax (SYNT2), in der der Weg, der dem im vorherigen Erkennungsschritt bestimmten Satz entspricht, verboten ist, wobei die neue Syntax durch eine derartige Umorganisierung der vorherigen Syntax erhalten wird, dass der dem im vorherigen Erkennungsschritt bestimmten Satz entsprechende Weg differenziert wird, und dann Löschen dieses Wegs, – die Wiederholung des Formerkennungsschritts, um ausgehend von der neuen Syntax einen anderen Satz zu suchen, der dem gespeicherten Signal am nächsten ist.
  2. Spracherkennungsverfahren nach Anspruch 1, bei dem die Umorganisierung mittels Durchlauf der vorherigen Syntax in Abhängigkeit von den Wörtern des Satzes und Bildung während dieses Durchlauf des für diesen Satz spezifischen Wegs erfolgt.
  3. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Suche nach einem neuen Satz systematisch wiederholt wird, um der Korrektur vorzugreifen.
  4. Spracherkennungsverfahren nach Anspruch 3, dadurch gekennzeichnet, dass jeder neue erkannte Satz dem Sprecher auf seine Anfrage vorgeschlagen wird.
  5. Spracherkennungsverfahren nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, dass die Suche nach einem neuen Satz durch Validierung eines vom Sprecher erkannten Satzes beendet wird.
  6. Spracherkennungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Verarbeitungsschritt (13) aufweist: – einen Schritt der Digitalisierung und des Zerschneidens in eine Folge von Zeitrahmen des akustischen Signals, – eine Phase der Parametrisierung von Sprache enthaltenden Zeitrahmen, um pro Rahmen einen Parametervektor im Frequenzbereich zu erhalten, wobei die Gesamtheit dieser Parametervektoren das Signal in seiner komprimierten Form bildet.
  7. Spracherkennungsverfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Formerkennung einen Algorithmus vom Typ DTW verwendet.
  8. Spracherkennungsverfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Formerkennung einen Algorithmus vom Typ HMM verwendet.
DE60317218T 2002-09-24 2003-09-19 Verfahren zur spracherkennung mit automatischen korrektur Expired - Fee Related DE60317218T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0211789 2002-09-24
FR0211789A FR2844911B1 (fr) 2002-09-24 2002-09-24 Procede de reconnaissance vocale avec correction automatique
PCT/FR2003/002770 WO2004029934A1 (fr) 2002-09-24 2003-09-19 Procede de reconnaissance vocale avec correction automatique

Publications (2)

Publication Number Publication Date
DE60317218D1 DE60317218D1 (de) 2007-12-13
DE60317218T2 true DE60317218T2 (de) 2008-08-07

Family

ID=31970934

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60317218T Expired - Fee Related DE60317218T2 (de) 2002-09-24 2003-09-19 Verfahren zur spracherkennung mit automatischen korrektur

Country Status (7)

Country Link
US (1) US20060015338A1 (de)
EP (1) EP1543502B1 (de)
AT (1) ATE377241T1 (de)
AU (1) AU2003282176A1 (de)
DE (1) DE60317218T2 (de)
FR (1) FR2844911B1 (de)
WO (1) WO2004029934A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002346116A1 (en) * 2001-07-20 2003-03-03 Gracenote, Inc. Automatic identification of sound recordings
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7912592B2 (en) * 2006-06-09 2011-03-22 Garmin International, Inc. Automatic speech recognition system and method for aircraft
US7881832B2 (en) * 2006-06-09 2011-02-01 Garmin International, Inc. Automatic speech recognition system and method for aircraft
US9293130B2 (en) * 2008-05-02 2016-03-22 Nuance Communications, Inc. Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit
US8224653B2 (en) 2008-12-19 2012-07-17 Honeywell International Inc. Method and system for operating a vehicular electronic system with categorized voice commands
US9830910B1 (en) * 2013-09-26 2017-11-28 Rockwell Collins, Inc. Natrual voice speech recognition for flight deck applications
US9824689B1 (en) 2015-12-07 2017-11-21 Rockwell Collins Inc. Speech recognition for avionic systems
US10049655B1 (en) 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
US9971758B1 (en) 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
US10019986B2 (en) 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
CN113506564B (zh) * 2020-03-24 2024-04-12 百度在线网络技术(北京)有限公司 用于生成对抗声音信号的方法、装置、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI111673B (fi) * 1997-05-06 2003-08-29 Nokia Corp Menetelmä puhelinnumeron valitsemiseksi puhekomennoilla ja puhekomennoilla ohjattava telepäätelaite
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
US20030009341A1 (en) * 2001-07-05 2003-01-09 Tien-Yao Cheng Humanistic devices and methods for same

Also Published As

Publication number Publication date
EP1543502A1 (de) 2005-06-22
FR2844911A1 (fr) 2004-03-26
DE60317218D1 (de) 2007-12-13
FR2844911B1 (fr) 2006-07-21
US20060015338A1 (en) 2006-01-19
WO2004029934A1 (fr) 2004-04-08
ATE377241T1 (de) 2007-11-15
EP1543502B1 (de) 2007-10-31
AU2003282176A1 (en) 2004-04-19

Similar Documents

Publication Publication Date Title
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69701774T2 (de) Spracherkennung in geräuschvoller umgebung und vorrichtung zur durchführung des verfahrens
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE60317218T2 (de) Verfahren zur spracherkennung mit automatischen korrektur
WO2005013261A1 (de) Verfahren zur spracherkennung und kommunikationsgerät
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee