DE69827202T2 - Verfahren und Vorrichtung zum Zählen von Wörtern für die Erkennung kontinuierlicher Sprache zur Verwendung bei zuverlässiger Sprachansage-Unterbrechung und frühzeitiger Sprach-Endpunktbestimmung - Google Patents

Verfahren und Vorrichtung zum Zählen von Wörtern für die Erkennung kontinuierlicher Sprache zur Verwendung bei zuverlässiger Sprachansage-Unterbrechung und frühzeitiger Sprach-Endpunktbestimmung Download PDF

Info

Publication number
DE69827202T2
DE69827202T2 DE69827202T DE69827202T DE69827202T2 DE 69827202 T2 DE69827202 T2 DE 69827202T2 DE 69827202 T DE69827202 T DE 69827202T DE 69827202 T DE69827202 T DE 69827202T DE 69827202 T2 DE69827202 T2 DE 69827202T2
Authority
DE
Germany
Prior art keywords
speech
word
utterance
words
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69827202T
Other languages
English (en)
Other versions
DE69827202D1 (de
Inventor
Anand Rangaswamy Warrenville Setlur
Rafid Antoon Aurora Sukkar
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of DE69827202D1 publication Critical patent/DE69827202D1/de
Application granted granted Critical
Publication of DE69827202T2 publication Critical patent/DE69827202T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

  • Technisches Gebiet
  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur automatischen Spracherkennung und insbesondere ein Verfahren und eine Vorrichtung, wodurch die Erkennung verbundener Wörter beschleunigt wird.
  • Allgemeiner Stand der Technik
  • Es existieren verschiedene Verfahren und Systeme zur automatischen Spracherkennung und sind wohlbekannt. Es sind Verfahren bekannt, die dynamische Programmierung und Hidden-Markov-Modelle (HMMs) verwenden, wie in dem Artikel „Frame-Synchronous Network Search Algorithm for Connected Word Recognition" von Chin-Hui Lee und Lawrence R. Rabiner, veröffentlicht in den IEEE Transactions on Acoustics, Speech, and Signal Processing, Band 37, Nr. 11, November 1989, gezeigt. Der Artikel von Lee-Rabiner gibt eine gute Übersicht über den Stand von Verfahren und Systemen zur automatischen Spracherkennung verbundener Wörter im Jahre 1989.
  • Ein Artikel mit dem Titel „A Wave Decoder for Continuous Speech Recognition" von E. Buhrke, W. Chou und Q. Zhou veröffentlicht in den Proceedings of ICSLP, Oktober 1996, beschreibt eine als Beam-Searching bekannte Technik zur Verbesserung der Spracherkennungsleistung und Hardwareanforderungen. Der Artikel von Buhrke-Chou-Zouh erwähnt außerdem einen Artikel von D. B. Paul mit dem Titel „An Efficient A* Stack Decoder ...", der Best-first-Suchstrategien und -techniken beschreibt. Aus US-A-4049913 ist ein Spracherkennungssystem bekannt, das eine vorgewählte Anzahl von Wörtern erkennt, und aus US-A-5125024 das Barge-in auf Spracherkennungsbasis.
  • Bei der in den oben erwähnten Artikeln erläuterten Spracherkennung wird nach einer besten Sequenz (d. h. mit der höchsten Wahrscheinlichkeitsbewertung) von Wörtern W1–Wn gesucht, die einer Eingangssprachäußerung entspricht. Der vorherrschende Suchalgorithmus, der für die Spracherkennung verwendet wird, ist der dynamische Viterbi-Decodierer. Die Implementierung dieses Decodierers ist effizient. Eine volle Suche aller möglichen Wörter zum Finden der besten einer Äußerung entsprechenden Wortsequenz ist immer noch zu groß und zeitaufwendig. Um die Größen- und Zeitprobleme zu behandeln, muß häufig beam-searching implementiert werden. Bei einer beam-Suche werden die Wortsequenzhypothesen, die wahrscheinlich sind, d. h. innerhalb einer vorgeschriebenen mathematischen Distanz von der aktuellen besten Bewertung liegt, beibehalten und erweitert. Unwahrscheinliche Hypothesen werden aus der Suche gestutzt oder entfernt. Dieses Stutzen unwahrscheinlicher Wortsequenzhypothesen hat den Effekt, die erforderliche Größe und Zeit für die Suche zu verringern und erlaubt die Konstruktion praktischer Implementierungen von Spracherkennungssystemen.
  • Am Anfang einer zu erkennenden Äußerung können nur die Wörter aktiviert werden, die auf der Basis einer vorbestimmten Grammatik gültige Wörter zum Beginnen einer Sequenz sind. In jedem Zeitrahmen wird über den aktiven Teil des Wortnetzwerks hinweg eine dynamische Programmierung unter Verwendung des Viterbi-Algorithmus durchgeführt. Es sollte erwähnt werden, daß der aktive Teil des Wortnetzwerks über die Zeit hinweg variiert, wenn eine beam-Suchstrategie verwendet wird. Unwahrscheinliche Wortsequenzen werden weggestutzt und wahrscheinlichere Wortsequenzen werden erweitert, so wie es in einer vorbestimmten Grammatik spezifiziert wird. Diese wahrscheinlicheren Wortsequenzen werden wie in der vorbestimmten Grammatik spezifiziert erweitert und werden in den aktiven Teil des Wortnetzwerks aufgenommen. In jedem Zeitrahmen stellt das System eine Verbundliste aller machbaren Wortsequenzen zu jeweiligen Knoten auf einem Decodierungsbaum zusammen. Dieser Decodierungsbaum wird zusammen mit seinen Knoten für jeden Zeitraum aktualisiert. Jeder Knoten, der nicht mehr aktiv ist, wird entfernt, und neue Knoten werden für neuaktive Wörter hinzugefügt. Der Decodierungsbaum behält also machbare Wortsequenzen, die nicht weggestutzt werden, durch Betrieb des beam-Suchalgorithmus mittels der Verbundliste. Jeder Knoten des decodierten Baums entspricht einem Wort und enthält Informationen, wie zum Beispiel die Wortendzeit, einen Zeiger auf den vorherigen Wortknoten der Wortsequenz und die kumulative Bewertung der darin gespeicherten Wortsequenz. Am Ende der Äußerung werden die Wortknoten mit den besten kumulativen Bewertungen durch ihre Sequenzen von Zeigereinträgen in den Decodierungsbaum zurückdurchquert, um die wahrscheinlichste Wortsequenz zu erhalten. Dieses Zurückdurchqueren ist in der Spracherkennung gewöhnlich als Backtracking bekannt.
  • Ein üblicher Nachteil der bekannten Verfahren und Systeme zur automatischen Spracherkennung ist die Verwendung von Energiedetektoren zur Bestimmung des Endes einer gesprochenen Äußerung. Energiedetektion liefert eine wohlbekannte Technik in der Signalverarbeitung und verwandten Gebieten zur Bestimmung des Anfangs und des Endes einer Äußerung. Ein Spracherkennungsverfahren 200 auf Energiedetektionsbasis ist in 2 gezeigt. Das Verfahren 200 verwendet eine (nicht gezeigte) Hintergrundzeitrahmenbildungsanordnung zur Digitalisierung des Eingangssignals, das zum Beispiel an einem Fernsprechanschluß empfangen wird, zu Zeitrahmen zur Sprachverarbeitung. Im Schritt 202 werden Zeitrahmen analysiert, um zu bestimmen, ob irgendein Rahmen Energie aufweist, die signifikant genug sein könnte, um die Sprachverarbeitung zu starten. Wenn ein Rahmen nicht genug Energie zur Berücksichtigung aufweist, wird Schritt 202 mit dem nächsten Rahmen wiederholt, wenn jedoch genug Energie zur Berücksichtigung des Inhalts eines Rahmens vorliegt, schreitet das Verfahren 200 zu den Schritten 204210 voran, typische Spracherkennungsschritte sind. Als nächstes werden im Schritt 220 der bzw. die Rahmen, die den Spracherkennungsprozeß gestartet haben, geprüft, um zu sehen, ob die empfangene Energie und eine etwaige vom System abgespielte hörbare Aufforderung zur selben Zeit aufgetreten sind. Wenn die Antwort ja ist, ist eine Barge-in-Bedingung aufgetreten und die hörbare Aufforderung wird im Schritt 222 für den Rest der Sprachverarbeitung der Äußerung abgebrochen. Entweder von einer negativen Bestimmung im Schritt 220 oder einer Aufforderungssperrung im Schritt 222 an bestimmt Schritt 224 als nächstes, ob eine Lückenzeit ohne signifikante Energie aufgetreten ist. Eine solche Lückenzeit bedeutet das Ende der vorliegenden Äußerung. Wenn sie nicht aufgetreten ist, bedeutet dies, daß weitere Sprache zu analysieren ist, und das Verfahren kehrt zum Schritt 204 zurück, andernfalls wird die Lückenzeit ohne Energie als ein Ende der aktuellen Äußerung interpretiert und das Backtracking wird gestartet, um die wahrscheinlichste Wortsequenz zu finden, die der Äußerung entspricht. Leider entspricht diese Lückenzeit einer Zeitverzögerung, die in der Regel von einer bis zu eineinhalb Sekunden beträgt. Bei einem individuellen Anrufer ist diese Verzögerung in der Regel kein Problem, aber für einen Fernsprechdienstanbieter können sich eine bis eineinhalb Sekunden an tausenden Anrufen pro Tag, wie zum Beispiel bei automatisierten Collekt-Placing-Diensten, aufaddieren. Für 6000 Anrufe entsprechen eineinhalb Sekunden einer Verzögerung von zweieinhalb Stunden, während Spracherkennungssysteme verwendet werden. Für stark benutzte Systeme verursachen diese eine bis eineinhalb Sekunden Verzögerung, daß der Fernsprechdienstanbieter mehr Spracherkenner anschaffen muß oder mehrere Stunden gebührenfähiger Fernsprechdienste verliert. Da das Backtracking zum Finden der wahrscheinlichsten Wortsequenz erst dann beginnt, wenn die Bestimmung des Endes der Äußerung auf der Basis der Energielückenzeit durchgeführt wurde, ist es des weiteren nicht möglich, teilweise Wortsequenzen für parallele und/oder Pipeline-Prozesse zu verwenden.
  • Kurze Darstellung der Erfindung
  • Gemäß der Erfindung wird ein Verfahren nach Anspruch 1 und eine Vorrichtung nach Anspruch 6 bereitgestellt.
  • Kurze Beschreibung der Zeichnung
  • 1 ist ein Blockschaltbild eines Systems mit einer Spracherkennungsvorrichtung gemäß der Erfindung.
  • 2 ist ein Flußdiagramm eines vorbekannten durch Energiepegel getriggerten Spracherkennungsverfahrens.
  • 3 ist ein Flußdiagramm eines auf Energie und Erkennung basierenden Spracherkennungsverfahrens.
  • 4 ist ein Flußdiagramm eines auf Erkennung basierenden Spracherkennungsverfahrens zur Ausgabe teilweiser Ergebnisse einer Äußerung.
  • Ausführliche Beschreibung
  • Nunmehr mit Bezug auf 1 ist ein Blockschaltbild einer Anordnung 10 zur Verwendung eines Systems 102 gemäß der vorliegenden Erfindung gezeigt.
  • Das System 102 enthält einen Prozessor 104, der im Speicher 106 gespeicherte Programme befolgt. Es können mehrere Instanzen des Systems 102 auf einer Leiterplatte implementiert werden, wodurch mehrere Kanäle zur Spracherkennung bereitgestellt werden. Der Speicher 106 enthält alle Arten von Speicher, bzw. ROM, RAM und Massenspeicherung zum Speichern des Spracherkennungsprogramms und unterstützender Daten. Das System 102 nimmt kontinuierlich Daten aus dem Fernsprechnetz 80 an, unterteilt die Daten in Zeitrahmen und verarbeitet dann jeden Zeitrahmen, um zahlreiche Kenngrößen und Koeffizienten der empfangenen Eingangssignale bereitzustellen, die durch Spracherkennungsverfahren analysiert werden sollen, die durch den Prozessor und seine gespeicherten Programme bereitgestellt werden. Wie bereits im allgemeinen Stand erwähnt, umfassen diese Sprachverarbeitungstechniken hidden-Markov-Modelle (HMMs) und beam-Suchtechniken.
  • Wie im allgemeinen Stand erwähnt, zeigt 2 ein bekanntes Verfahren 200 zur Spracherkennung. Das Verfahren 200 kann für die Verwendung auf dem in 1 gezeigten System 102 implementiert werden.
  • Nunmehr mit Bezug auf 1 und 3 ist ein anderes Verfahren gezeigt, das unter Verwendung des Systems 102 implementiert werden konnte. Das Verfahren 300 ist ein Verfahren gemäß der vorliegenden Erfindung. Das Verfahren 300 beginnt mit dem Schritt 302, in dem bestimmt wird, ob Energie, die Sprache sein könnte, durch das System 102 empfangen worden ist oder nicht. Wenn die Bestimmung ist, daß keine Energie, die Sprache sein kann, empfangen wurde, dann wird Schritt 302 für den nächsten Zeitraum wiederholt. Schritt 302 erfordert also wie der Schritt 202 in 2 einen Zeitrahmenbildungsprozeß zur kontinuierlichen Einteilung der aus dem Fernsprechnetz 80 empfangenen Signale im Rahmen. Häufig sind diese Rahmen leer oder weisen nur Rauschsignale auf. In solchen Fällen ist der Energiepegel niedrig und Schritt 302 berücksichtigt also keinen leeren oder energiearmen Rahmen als zu erkennende Sprache. Wenn mehr Rauschen besteht oder jemand Geräusche oder eine bestimmte Art von Äußerung tätigt, wie zum Beispiel Husten, Atmen oder Sprechen bestimmt Schritt 302, daß genug Sprachenergie vorhanden ist, um Spracherkennungsprozesse zu starten und der Spracherkennungsprozeß beginnt. Als nächstes lädt Schritt 304 sequenziell den letzten Zeitrahmen: Wenn es sich dabei nur um den Anfang handelt, ist dies der erste Rahmen. Nach dem ersten Rahmen lädt Schritt 304 sequenziell alle Zeitrahmen, bis die Sprachverarbeitung der vorliegenden Äußerung abgeschlossen ist. Nach dem Laden in Schritt 304 sind von jedem Rahmen seine Merkmale extrahiert und gespeichert worden (Schritt 306). Diese Merkmalextraktion ist typische Merkmalextraktion.
  • Im Schritt 308 werden die extrahierten Merkmale mit Modellen, wie zum Beispiel hidden-Markov-Modellen, von Wörtern und Wortsequenzen der vorbestimmten Grammatik verglichen. Während die extrahierten Merkmale mit den Wortmodellen verglichen werden, die aktiv sind, werden im Schritt 308 Wahrscheinlichkeitsbewertungen zusammengestellt. Schritt 310 nimmt die Aktivknotenmodellbewertungen und führt eine dynamische Programmierung durch, um ein Wortnetzwerk möglicher Wortsequenzen aufzubauen, die die erkannte Äußerung sein könnte. Diese dynamische Programmierung verwendet bei ihrem Betrieb einen Viterbi-Algorithmus. Nachdem die dynamische Programmierung für den vorliegenden Rahmen abgeschlossen ist, wird im Schritt 312 eine beam-Suche durchgeführt. Diese beam-Suche stutzt unwahrscheinliche Wortsequenzen weg und erweitert wahrscheinliche Wortsequenzen und speichert eine aktualisierte Aktivwortliste. Als nächstes aktualisiert Schritt 314 einen Decodierungsbaum, der aufgebaut wird, um am Ende der Äußerung die der Äußerung entsprechende wahrscheinlichste Wortsequenz herzustellen. Nach Schritt 314 arbeitet das Verfahren 300 mit zwei parallelen Wegen. Beide Wege sind aktiv und beide suchen nach einem Ende der Äußerung gemäß ihren jeweiligen Definitionen eines Endes einer Äußerung.
  • Schritt 320 bestimmt, ob ein erstes Wort der vorbestimmten Grammatik in der Äußerung erkannt wurde. Diese Bestimmung basiert auf Spracherkennung, nicht auf Energie. Diese Bestimmung erfolgt durch Untersuchen der in dem Decodierungsbaum enthaltenen machbaren Wortsequenzen durch Durchqueren von Zeigern, die Nicht-Stille-Knoten des Decodierungsbaums zugeordnet sind. Es wird bestimmt, daß das erste Wort gesprochen wurde, wenn alle machbaren Wege mindestens ein Nicht-Stille-Wort enthalten, das sich in der vorbestimmten Grammatik befindet. Wenn ein erstes Wort der Grammatik gesprochen wurde, wird ein auf Spracherkennung basierendes Barge-in deklariert und jede hörbare Aufforderung wird gesperrt (Schritt 322). Wenn dies nicht das erste Wort ist oder wenn der nächste Schritt nach dem Erstwortprozeßschritt 322 erfolgt, schreitet das Verfahren 300 zum Schritt 324 voran. Es sollte beachtet werden, daß das auf Erkennung basierende Barge-in der Schritte 320 und 322 im absoluten Sinne langsamer als Energiedetektionsverfahren ist, obwohl für Wörter oder Klänge, die nicht Teil der vorbestimmten Grammatik sind, auf Spracherkennung basierende Barge-in zuverlässiger ist. Diese verbesserte Barge-in-Zuverlässigkeit bedeutet, daß die hörbare Aufforderung, die für ein Barge-in gestoppt wird, nicht für Husten, Nebengespräche oder andere Klänge, die nicht mit der erwarteten Antwort auf die hörbare Aufforderung zusammenhängen, gestoppt wird. Somit wird ein Sprecher nicht durch eine unabsichtlich durch einen bestimmten Klang, der von der wahren Barge-in-Sprache verschieden ist, gestoppte hörbare Aufforderung verwirrt und verlangsamt.
  • Im Schritt 324 erfolgt eine jeweilige Zählung der Anzahl von Wörtern in den wahrscheinlichsten Wortsequenzen. Im Schritt 324 werden der Decodierungsbauminhalt für den vorliegenden Rahmen und Zählwerte der Anzahl von Wörtern aller machbaren Wortsequenzen untersucht. Diese Untersuchung erfolgt durch Untersuchen der in dem Decodierungsbaum enthaltenen machbaren Wortsequenzen und anschließendes Durchqueren von Zeigern, die mit Nicht-Stille-Knoten des Decodierungsbaums assoziiert sind. Es wird bestimmt, daß n Wörter gesprochen wurden, wenn jede der Wortsequenzen in dem Decodierungsbaum genau n Wörter in ihrer jeweiligen Sequenz aufweist. Wenn jedoch mindestens eine der machbaren Wortsequenzen eine von n verschiedene Anzahl von Wörtern aufweist, dann schließt die Untersuchung nicht mit einem Wortzählwert n für den vorliegenden Rahmen. Wenn ein Wortzählwert von n erreicht wird, ein Wortzählwert n mit einem maximalen Wortzählwert N. Wenn der Zählwert n gleich N ist, d. h. der maximalen erwarteten Anzahl von Wörtern in der Sequenz, dann wird die Sprachverarbeitung der Äußerung als vollständig deklariert und es wird ein Backtracking gestartet, um die wahrscheinlichste Wortsequenz auszugeben. Die Ausgabe der wahrscheinlichsten Wortsequenz von N Wörtern beendet die Aufgabe des Erkennens der vorliegenden Äußerung. Die auf Spracherkennung basierende Äußerungsbeendigung spart ungefähr eine Sekunde für jede verarbeitete Wortsequenz ohne Beeinträchtigung der Genauigkeit des Ergebnisses.
  • Parallel zu den Schritten 320324 verläuft der Schritt 330, der die Lückenzeit zwischen dem letzten, signifikante Energie enthaltenden Rahmen und dem vorliegenden leeren Rahmen mißt. Wenn diese Lückenzeit überschritten wird, bedeutet dies, daß die Äußerung aufgehört hat, bevor die erwartete Anzahl N von Wörtern erkannt wurde. Wenn die Lückenzeit bestimmt wird, bevor das n-te Wort bestimmt wurde, deklariert Schritt 330 die Äußerung als abgeschlossen und das Backtracking zur Ausgabe der wahrscheinlichsten Wortsequenz wird gestartet. In der Regel bedeutet in dem Verfahren 300 eine Lückenzeitbeendigung einen Fehler, aber die Ausgabe der Erkennungsvorrichtung kann angenommen oder dem Äußerer mittels eines (nicht gezeigten) Sprachsynthetisierers zurückgelesen werden. Beispiele für N wären Ferngesprächs-Telefonnummern und die 16 Zahlen auf den meisten Kreditkarten.
  • Nunmehr mit Bezug auf 4 ist eine weitere Ausführungsform der Erfindung gezeigt. Das Verfahren 400 ist dem Verfahren 300 sehr ähnlich. Die Schritte 402414 des Verfahrens 400 sind im wesentlichen mit den Schritten 302314 des Verfahrens 300 identisch und werden also nicht weiter besprochen.
  • Nach dem Schritt 414 des Aktualisierens des Dekodierungsbaums verzweigt sich das Verfahren 400 wie das Verfahren 300 in zwei parallele Wege. Schritt 421 untersucht den Decodierungsbauminhalt für den vorliegenden Rahmen und zählt die Anzahl von Wörtern aller machbaren Wortsequenzen. Diese Untersuchung wird durchgeführt, in dem die in dem Decodierungsbaum enthaltenen machbaren Wortsequenzen untersucht und dann durch Zeiger durchquert werden, die Nicht-Stille-Knoten des Decodierungsbaums zugeordnet sind. Es wird bestimmt, daß n Wörter gesprochen wurden, wenn jede der Wortsequenzen in dem Decodierungsbaum genau n Wörter in ihrer jeweiligen Sequenz aufweist. Wenn jedoch mindestens eine der machbaren Wortsequenzen eine von n verschiedene Anzahl von Wörtern aufweist, dann schließt die Untersuchung nicht mit einem Wortzählwert n für den vorliegenden Rahmen. Wenn ein Wortzählwert von n durch Schritt 421 erreicht wird, wird der Wortzählwert zur Verwendung durch Schritt 424 ausgegeben und das Verfahren 400 wird mit dem Schritt 424 fortgeführt. In Schritt 424 wird der Wortzählwert n mit 1 und mit einem maximalen Wortzählwert N verglichen. Der Vergleich mit 1 ist Schritt 320 des Verfahrens 300 insofern sehr ähnlich, als, wenn ein erstes Wort gesprochen wurde und das vorliegende Wort das erste Wort ist, ein auf Spracherkennung basierendes Barge-in deklariert und jede hörbare Aufforderung gesperrt wird (Schritt 426). Wenn in Schritt 424 der Vergleich des Wortzählwerts n zeigt, daß n größer als 1 aber kleiner als N ist, dann existiert eine gültige Wortsubsequenz oder -gruppe, andernfalls würde eine Übereinstimmung an n nicht existieren und das Ergebnis von Schritt 421 wäre ein unbestimmtes n und das Verfahren 400 würde zum Schritt 404 zurückkehren. Der Vorteil dieses Teils des Verfahrens besteht darin, daß für die 10-Wort-Ferngesprächs-Telefonnummer oder die 16-Wort-Kreditkartennummer, sobald die ersten drei oder vier Wörter stabilisiert wurden, diese vor dem Ende der Wortsequenz zur Ausgabe zur Verfügung stehen. Diese drei, vier oder sogar sieben Wortgruppen können ausgegeben werden, bevor die gesamte Äußerung und die gesamte spracherkannte Wortsequenz abgeschlossen ist. Somit könnte auf Vorwahlnummern, Vorwahlnummern und Vermittlungsstellen oder Kreditkartenfirmen-Zugangsleitungen zugegriffen werden und man könnte auf den Rest der Wortsequenz warten, wenn sie abgeschlossen ist. Dies ermöglicht ein Pipeline-Verfahren für während früher Teile einer Äußerung erkannter Daten zur unmittelbaren Verwendung und dem Rest der Äußerung, die Pipeline-Benutzung abzuschließen, wenn er ankommt. Entweder nach Schritt 426 oder nach Schritt 427 kehrt das Verfahren 400 zum Schritt 404 zurück, um den nächsten Zeitrahmen von Daten zu verarbeiten, bis das Ende der Äußerung erreicht ist.
  • Wenn das Ergebnis von Schritt 421 ein Wortzählwert n = N ist, dann wurde der maximale Zählwert von Wörtern von Äußerungen erreicht und die Spracherkennung kann mit der Verarbeitung aufhören und das Backtracking beginnen, um die meiste Wortsequenz zu finden, die der Äußerung entspricht. Im Fall n = N kann dieses Backtracking sofort beginnen, es ist nicht notwendig, die eine bis eineinhalb Sekunden zu warten, die von der Energiedetektionsentscheidung verwendet werden, um zu schließen, daß die Äußerung abgeschlossen ist. Der Grund dafür, daß das Wortzählen funktioniert, besteht darin, daß, wenn die korrekte Anzahl von Wörtern erkannt wurde, die Verarbeitung dann enden kann und das Backtracking für die wahrscheinlichste Antwort beginnen kann.
  • Es ist zu beachten, daß eine teilweise Wortsequenz auch mit einer Nachschlagetabelle verwendet werden kann, um den maximalen Wortzählwert N zu ändern, wenn dies angebracht ist. Wenn zum Beispiel eine Kreditkartenfirma eine vom Standard abweichende Anzahl von Wörtern in ihrer Wortsequenz aufweist, dann bewirkt die Erkennung einer teilweisen Wortsequenz, die eines der Konten der Kreditkartenfirma anzeigt, daß das Verfahren 400 den maximalen Wortzählwert N entsprechend ändert – bevor das letzte Wort der Äußerung erreicht wird. Auf ähnliche Weise kann man Telefonvornummern, Vornummern, die keine Vorwahl oder Vermittlungsstelle sind, dazu verwenden, von der üblichen 10stelligen Vorwahl und Hausnummer zu einem maximalen Wortzählwert zu wechseln, der je nach Bedarf größer oder kleiner ist. Teilweise Wortsequenzen, die offensichtlich keine Vorwahlnummern oder Vornummern sind, aber Kennzeichnungen für Kreditkartenfirmen sein könnten, können außerdem dazu verwendet werden, die Funktion von der Telefonnummererkennung auf Kreditkartennummererkennung umzuschalten. Dieses gegenseitige Umschalten von Kreditkartennummernabnahmefunktion auf Telefonnummerabnahme kann auch bereitgestellt werden. Bei einem solchen Umschalten muß in der Regel der maximale Wortzählwert N verändert werden.
  • Das Verfahren 400 enthält wie das Verfahren 300 einen parallel zu den Schritten 421427 laufenden Zweig für Entscheidungen auf Energiebasis. Schritt 430 mißt die Lückenzeit zwischen dem letzten Rahmen mit signifikanter Energie darin und dem vorliegenden leeren Rahmen. Wenn diese Lückenzeit überschritten wird, dann hat die Äußerung aufgehört, bevor die erwartete Anzahl n von Wörtern erkannt wurde. Wenn die Lückenzeit bestimmt wird, bevor das n-te Wort bestimmt wird, deklariert Schritt 430 die Äußerung als abgeschlossen, und das Backtracking zur Ausgabe der wahrscheinlichsten Wortsequenz wird begonnen. In dem Verfahren 400 zeigt eine Lückenzeitbeendigung auf Energiebasis in der Regel einen Fehler an, aber die Ausgabe der Erkennungsvorrichtung kann je nach Fall zur Verwendung angenommen oder dem Sprecher mittels eines (nicht gezeigten) Sprachsynthetisierers abgespielt werden.
  • Am Ende des Verfahrens 400, das entweder durch Spracherkennung oder Energiedetektion bestimmt wird, wird an dem Decodierungsbaum eine Backtracking-Operation durchgeführt, um die wahrscheinlichste Wortsequenz zu erhalten, die der Eingangsäußerung entspricht, und diese Wortsequenz wird durch das Verfahren 400 ausgegeben.
  • Es versteht sich nun also, daß durch Verwendung des Wortzählens ein schnelleres Spracherkennungsverfahren und eine schnellere Spracherkennungsvorrichtung offengelegt wurden. Dieses schnellere Spracherkennungsverfahren und diese schnellere Spracherkennungsvorrichtung können teilweise Wortsequenzen für das Spracherkennung zugeordnete parallele oder Pipeline-Tasks ausgeben. Ferner können dieses Verfahren und diese Vorrichtung einen zuverlässigeren Barge-in-Betrieb für Sprachantwortsysteme bereitstellen.

Claims (6)

  1. Interaktives Spracherkennungsverfahren, bei dem dem Benutzer eine hörbare Aufforderung abgespielt wird, mit den folgenden Schritten: Bestimmen (302) eines Anfangs einer Sprachäußerung durch den Benutzer und Erhalten sequentieller Sprachrahmen (304) der Sprachäußerung, wobei jeder Rahmen Sprache während eines Zeitrahmens darstellt, Extrahieren von Merkmalen (306) aus den Sprachrahmen, um einen dynamischen Baum wahrscheinlicher Äußerungen aufzubauen, der für jeden Sprachrahmen aktualisiert wird, Bestimmen (320), ob ein erstes Wort der Sprachäußerung empfangen wurde, Sperren der hörbaren Aufforderung (322), wenn bestimmt wird, daß das erste Wort der Sprachäußerung empfangen wurde, gekennzeichnet durch Bestimmen (324), ob eine maximale vorbestimmte Anzahl von Wörtern empfangen wurde, Bestimmen (330), ob eine Lückenzeit zwischen einem letzten Rahmen mit signifikanter Energie darin und einem vorliegenden leeren Rahmen überschritten ist, Bestimmen, daß ein Ende der Sprachäußerung aufgetreten ist, wenn die maximale vorbestimmte Anzahl von Wörtern empfangen wurde oder wenn die Lückenzeit überschritten ist, und Bestimmen einer Wortkette, die die empfangene Äußerung darstellt, aus dem Baum.
  2. Verfahren nach Anspruch 1, bei dem weiterhin die Wortkette ausgegeben wird.
  3. Verfahren nach Anspruch 1, bei dem weiterhin das Erkennen einer partiellen Wortkette bestimmt wird, bevor die maximale vorbestimmte Anzahl von Wörtern empfangen wurde, und die maximale vorbestimmte Anzahl geändert wird, wenn die partielle Wortkette empfangen wird.
  4. Verfahren nach Anspruch 3, wobei die partielle Wortkette eine Rufnummernvorwahl ist.
  5. Verfahren nach Anspruch 3, wobei die partielle Wortkette Teil einer Kreditkartenkontonummer ist.
  6. Vorrichtung zur Spracherkennung mit Mitteln, die so angeordnet sind, daß sie alle Schritte eines Verfahrens nach einem der vorhergehenden Ansprüche ausführen.
DE69827202T 1997-07-31 1998-07-31 Verfahren und Vorrichtung zum Zählen von Wörtern für die Erkennung kontinuierlicher Sprache zur Verwendung bei zuverlässiger Sprachansage-Unterbrechung und frühzeitiger Sprach-Endpunktbestimmung Expired - Fee Related DE69827202T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US903633 1997-07-31
US08/903,633 US5956675A (en) 1997-07-31 1997-07-31 Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection

Publications (2)

Publication Number Publication Date
DE69827202D1 DE69827202D1 (de) 2004-12-02
DE69827202T2 true DE69827202T2 (de) 2006-02-16

Family

ID=25417832

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69827202T Expired - Fee Related DE69827202T2 (de) 1997-07-31 1998-07-31 Verfahren und Vorrichtung zum Zählen von Wörtern für die Erkennung kontinuierlicher Sprache zur Verwendung bei zuverlässiger Sprachansage-Unterbrechung und frühzeitiger Sprach-Endpunktbestimmung

Country Status (6)

Country Link
US (2) US5956675A (de)
EP (1) EP0895224B1 (de)
JP (1) JP3568785B2 (de)
KR (1) KR100512662B1 (de)
CA (1) CA2238642C (de)
DE (1) DE69827202T2 (de)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US7224790B1 (en) * 1999-05-27 2007-05-29 Sbc Technology Resources, Inc. Method to identify and categorize customer's goals and behaviors within a customer service center environment
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
DE10040466C2 (de) * 2000-08-18 2003-04-10 Bosch Gmbh Robert Verfahren zur Steuerung einer Spracheingabe und -ausgabe
US6606595B1 (en) 2000-08-31 2003-08-12 Lucent Technologies Inc. HMM-based echo model for noise cancellation avoiding the problem of false triggers
WO2002060162A2 (en) * 2000-11-30 2002-08-01 Enterprise Integration Group, Inc. Method and system for preventing error amplification in natural language dialogues
US7437286B2 (en) * 2000-12-27 2008-10-14 Intel Corporation Voice barge-in in telephony speech recognition
US6850887B2 (en) * 2001-02-28 2005-02-01 International Business Machines Corporation Speech recognition in noisy environments
DE60233561D1 (de) * 2001-04-19 2009-10-15 British Telecomm Sprachantwortsystem
US20030023439A1 (en) * 2001-05-02 2003-01-30 Gregory Ciurpita Method and apparatus for automatic recognition of long sequences of spoken digits
US20020173333A1 (en) * 2001-05-18 2002-11-21 Buchholz Dale R. Method and apparatus for processing barge-in requests
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
US20030088403A1 (en) * 2001-10-23 2003-05-08 Chan Norman C Call classification by automatic recognition of speech
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
US7069213B2 (en) * 2001-11-09 2006-06-27 Netbytel, Inc. Influencing a voice recognition matching operation with user barge-in time
US7305070B2 (en) 2002-01-30 2007-12-04 At&T Labs, Inc. Sequential presentation of long instructions in an interactive voice response system
US6914975B2 (en) 2002-02-21 2005-07-05 Sbc Properties, L.P. Interactive dialog-based training method
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US20040064315A1 (en) * 2002-09-30 2004-04-01 Deisher Michael E. Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments
JP3984526B2 (ja) * 2002-10-21 2007-10-03 富士通株式会社 音声対話システム及び方法
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
EP1494208A1 (de) * 2003-06-30 2005-01-05 Harman Becker Automotive Systems GmbH Verfahren zur Steuerung eines Sprachdialogsystems und Sprachdialogsystem
US20050010418A1 (en) * 2003-07-10 2005-01-13 Vocollect, Inc. Method and system for intelligent prompt control in a multimodal software application
US7073203B2 (en) * 2003-08-08 2006-07-11 Simms Fishing Products Corporation Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing
US20050049873A1 (en) * 2003-08-28 2005-03-03 Itamar Bartur Dynamic ranges for viterbi calculations
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US7027586B2 (en) 2003-12-18 2006-04-11 Sbc Knowledge Ventures, L.P. Intelligently routing customer communications
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US8054951B1 (en) 2005-04-29 2011-11-08 Ignite Media Solutions, Llc Method for order taking using interactive virtual human agents
US8185400B1 (en) * 2005-10-07 2012-05-22 At&T Intellectual Property Ii, L.P. System and method for isolating and processing common dialog cues
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
EP2107553B1 (de) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Verfahren zur Erkennung einer Unterbrechung einer Sprachausgabe
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
EP2148325B1 (de) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Verfahren zur Bestimmung der Anwesenheit einer gewollten Signalkomponente
US8442831B2 (en) * 2008-10-31 2013-05-14 International Business Machines Corporation Sound envelope deconstruction to identify words in continuous speech
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
US8639513B2 (en) * 2009-08-05 2014-01-28 Verizon Patent And Licensing Inc. Automated communication integrator
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10546597B2 (en) * 2016-08-01 2020-01-28 International Business Machines Corporation Emotional state-based control of a device
US11488590B2 (en) * 2018-05-09 2022-11-01 Staton Techiya Llc Methods and systems for processing, storing, and publishing data collected by an in-ear device

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
JPS5734599A (en) * 1980-08-12 1982-02-24 Nippon Electric Co Continuous voice recognizing device
JPS5962900A (ja) * 1982-10-04 1984-04-10 株式会社日立製作所 音声認識方式
JPS59111529A (ja) * 1982-12-17 1984-06-27 Hitachi Ltd 音声応答装置の入力機器識別方式
JPS59195739A (ja) * 1983-04-20 1984-11-06 Sanyo Electric Co Ltd 音声応答装置
JPS6085655A (ja) * 1983-10-15 1985-05-15 Fujitsu Ten Ltd 音声ダイヤリング装置
JPH068999B2 (ja) * 1985-08-21 1994-02-02 株式会社日立製作所 音声入力方法
JPS62291700A (ja) * 1986-06-10 1987-12-18 富士通株式会社 連続数字音声認識方式
JP2646080B2 (ja) * 1986-08-05 1997-08-25 沖電気工業 株式会社 音声認識方法
JPS63121096A (ja) * 1986-11-10 1988-05-25 松下電器産業株式会社 対話型音声入出力装置
JPS63142950A (ja) * 1986-12-05 1988-06-15 Toshiba Corp 音声ダイヤル電話方式
JPH0618395B2 (ja) * 1986-12-26 1994-03-09 株式会社日立製作所 音声ダイヤル装置
US4910784A (en) * 1987-07-30 1990-03-20 Texas Instruments Incorporated Low cost speech recognition system and method
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
CA2006230C (en) * 1989-12-20 1993-10-26 Timothy James Littlewood Method and apparatus for validating character strings
US5125024A (en) * 1990-03-28 1992-06-23 At&T Bell Laboratories Voice response unit
JP2734750B2 (ja) 1990-07-02 1998-04-02 日本電気株式会社 音声認識装置
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
JP3398401B2 (ja) * 1992-03-16 2003-04-21 株式会社東芝 音声認識方法及び音声対話装置
JPH0582703U (ja) * 1992-04-14 1993-11-09 ナイルス部品株式会社 音声認識装置
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
JP3535292B2 (ja) * 1995-12-27 2004-06-07 Kddi株式会社 音声認識システム
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
GB2325112B (en) * 1997-05-06 2002-07-31 Ibm Voice processing system
US5991726A (en) * 1997-05-09 1999-11-23 Immarco; Peter Speech recognition devices
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems

Also Published As

Publication number Publication date
CA2238642A1 (en) 1999-01-31
EP0895224A2 (de) 1999-02-03
EP0895224A3 (de) 1999-08-18
EP0895224B1 (de) 2004-10-27
JP3568785B2 (ja) 2004-09-22
CA2238642C (en) 2002-02-26
KR19990014292A (ko) 1999-02-25
DE69827202D1 (de) 2004-12-02
KR100512662B1 (ko) 2005-11-21
USRE38649E1 (en) 2004-11-09
US5956675A (en) 1999-09-21
JPH1195791A (ja) 1999-04-09

Similar Documents

Publication Publication Date Title
DE69827202T2 (de) Verfahren und Vorrichtung zum Zählen von Wörtern für die Erkennung kontinuierlicher Sprache zur Verwendung bei zuverlässiger Sprachansage-Unterbrechung und frühzeitiger Sprach-Endpunktbestimmung
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
US5822730A (en) Lexical tree pre-filtering in speech recognition
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
EP0299572B1 (de) Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
DE19510083C2 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
WO1998011534A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60023736T2 (de) Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE19944608A1 (de) Erkennung einer in buchstabierter Form vorliegenden Sprachäußerungseingabe
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
EP0981129A2 (de) Verfahren und Anordnung zum Durchführen einer Datenbankabfrage
DE60026366T2 (de) Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog
EP1012828B1 (de) Verfahren zur erkennung eines schlüsselworts in gesprochener sprache
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
DE60025687T2 (de) Vorrichtung zum Spracherkennung mit Durchführung einer syntaktischen Permutationsregel
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE69908034T2 (de) Minimierung eines Suchnetzwerks für die Spracherkennung
DE102007042971A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
EP1063633A2 (de) Verfahren zum Training eines automatischen Spracherkenners

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee