DE60032776T2

DE60032776T2 - Verfahren zur Spracherkennung

Info

Publication number: DE60032776T2
Application number: DE60032776T
Authority: DE
Inventors: Krzysztof Marasek; Thomas Kemp; Silke Goronzy; Ralf Kompe
Original assignee: Sony Deutschland GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2000-11-16
Filing date: 2000-11-16
Publication date: 2007-11-08
Anticipated expiration: 2020-11-17
Also published as: EP1207517A1; DE60032776D1; US20020082833A1; EP1207517B1; KR20020038545A; JP2002202797A

Description

Die Erfindung bezieht sich auf ein Verfahren zur Spracherkennung gemäß Anspruch 1 und insbesondere auf ein Verfahren zur Spracherkennung unter Verwendung von Vertraulichkeitsmaßen bzw. Konfidenzmaßen in einem Erkennungsprozess kontinuierlicher Sprache mit großem Vokabular (LVCSR).
In vielen herkömmlichen Vorrichtungen und Verfahren zur Spracherkennung wird nach einer Erkennung einer empfangenen Äußerung oder Sprachphrase eine Schätzung bezüglich der Zuverlässigkeit der erkannten Äußerung oder Sprachphrase gegeben, um insbesondere eine Entscheidung zu ermöglichen, ob die fragliche Äußerung oder Sprachphrase und ihre erkannte Form für eine Weiterverarbeitung akzeptiert werden kann oder verworfen und durch eine durch den Sprecher oder Benutzer neu einzugebende Äußerung oder Sprachphrase ausgetauscht werden muss.
Ein Hauptnachteil der Verfahren des Standes der Technik zur Spracherken nung besteht darin, dass die Gesamtrechenbelastung über die gesamte empfangene Äußerung verteilt wird, um eine genaue und vollständige Analyse sicherzustellen. Daher können viele Verfahren nicht in kleinen Systemen oder Vorrichtungen, z. B. in Handgeräten oder dergleichen, implementiert werden, da diese kleinen Systeme einen Leistungsgrad besitzen, der zum Erkennen kontinuierlicher Sprache und Schätzen der Zuverlässigkeit der erkannten Phrasen nicht ausreicht, wenn die gesamte empfangene Äußerung vollständig analysiert werden muss.
Ein bekanntes Verfahren zur Spracherkennung ist in "A dialog control strategy based on the reliability of speech recognition" von Y. Nimi u. a. in PROCEEDINGS OF ICSLP, 3.-6. Oktober 1996, Seite 534-537, offenbart. Damit wird ein Zuverlässigkeitsmaß für eine Äußerung eines Benutzers berechnet, wobei die Äußerung verworfen, direkt bestätigt oder indirekt bestätigt wird.
Es ist daher eine Aufgabe der Erfindung, ein Verfahren zur Spracherkennung zu schaffen, insbesondere auf dem Gebiet der Erkennung kontinuierlicher Sprache bei großem Vokabular, das leicht in kleinen Dialogsystemen implementiert werden kann und das außerdem eine robuste und zuverlässige Schätzung bezüglich der Erkennungsqualität liefert.
Die Aufgabe wird durch ein Verfahren zur Spracherkennung mit den kennzeichnenden Merkmalen aus Anspruch 1 gelöst. Bevorzugte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung liegen innerhalb des Umfangs der abhängigen Ansprüche.
In dem Verfahren zur Spracherkennung gemäß der Erfindung wird eine empfangene Äußerung als Ganzes einem Erkennungsprozess unterworfen. Ferner erfolgt eine lediglich grobe Schätzung, ob die empfangene und erkannte Äuße rung als Ganzes akzeptiert oder verworfen wird. Außerdem wird im Fall des Akzeptierens der Äußerung diese erneut vollständig analysiert, um ihre Bedeutung und/oder ihre Intention zu extrahieren. Außerdem werden anhand der erneuten Analyse und ihres Ergebnisses Schlüsselphrasen und/oder Schlüsselwörter aus der Äußerung extrahiert, die für ihre Bedeutung im Wesentlichen repräsentativ sind.
Im Gegensatz zu Verfahren des Standes der Technik zur Spracherkennung wird nach Erkennung der Äußerung als Ganzes in einem Erkennungsprozess eine lediglich grobe Schätzung ausgeführt, die die Zuverlässigkeit der erkannten Äußerung hinsichtlich erforderlicher Sprachphrasen beschreibt. Daher ist in einem ersten Schritt lediglich eine kleine Belastung hinsichtlich Schätzung und Berechnung auf die gesamte empfangene Äußerung zu konzentrieren. Der Hauptteil der Berechnung wird danach auf die erneute Analyse der Äußerung konzentriert, um ihre Bedeutung und Intention zu extrahieren und dadurch Schlüsselphrasen und/oder Schlüsselwörter der Äußerung zu erzeugen. Schlüsselwörter oder Schlüsselphrasen sind Teile oder Untereinheiten der Äußerungen, die die Hauptbedeutung der durch die Äußerung zu transportierenden Nachricht tragen. Folglich sichert das erfindungsgemäße Verfahren zur Spracherkennung die Berechnungs- und Schätzleistung durch eine Konzentra tion auf wichtige Teile einer Äußerung, d. h. die Schlüsselphrasen und Schlüsselwörter, sowie auf deren Erzeugung, Extraktion und/oder Konfidenzschätzung aus der Äußerung.
Für Dialogsysteme wird es bevorzugt, dass im Fall des Verwerfens der Äußerung als Ganzes ein Verwerfungssignal erzeugt wird. Insbesondere wird ein Neuaufforderungssignal und/oder eine Aufforderung zum Wiederholen oder Neubeginnen der letzten Äußerung erzeugt und/oder als das Verwerfungssignal ausgegeben. Dies ist in einem Dialogsystem von besonderem Vorteil, da der Benutzer oder momentane Sprecher informiert wird, dass seine letzte Äußerung oder Sprachphrase durch das Erkennungssystem oder -verfahren nicht richtig erkannt worden ist.
Zum Ausführen der oben erwähnten groben Schätzung nach dem Akzeptieren und/oder Verwerfen einer empfangenen und/oder erkannten Äußerung wird ein grobes oder einfaches Konfidenzmaß für die gesamte Äußerung bestimmt. Dies ist von besonderem Vorteil im Gegensatz zu Verfahren des Standes der Technik zur Spracherkennung, da diese Verfahren des Standes der Technik im Allgemeinen Konfidenzmaße berechnen, die auf jedem einzelnen Wort oder jeder einzelnen Teilworteinheit in der Äußerung basieren. Folglich müssen Verfahren des Standes der Technik eine relativ große Anzahl Einzelwort-Konfidenzmaße für die gesamte Äußerung berechnen und bestimmen.
Außerdem müssen Verfahren des Standes der Technik zur Spracherkennung ferner anschließend eine Gesamtschätzung ausführen, um eine Konfidenz für die ganze Äußerung in Bezug auf den Satz an Einzelwort-Konfidenzmaßen zu finden. Im Gegensatz zu diesen Verfahren des Standes der Technik berechnet das erfindungsgemäße Verfahren in der Anfangsphase der Erkennung ein Konfidenzmaß in einfacher und grober Weise für die ganze Äußerung in ihrer Gesamtheit. Nur wenn auf der Grundlage des Gesamtäußerungs-Konfidenzmaßes eine Annahme der Äußerung und ihrer erkannten Phrasen vorgeschlagen wird, wird eine Weiterverarbeitung ausgelöst.
Es wird bevorzugt, die erneute Analyse auf eine Satzanalyse und insbesondere auf eine grammatische, syntaktische und/oder semantische Analyse oder dergleichen zu gründen. Diese Maße sind nützlich, da sie sowohl auf das Extrahieren der Intention und der Bedeutung als auch auf das Extrahieren der Schlüs selphrasen oder Schlüsselwörter der Äußerung konzentriert sind. Insbesondere in Dialogsystemen ist es erforderlich, dass das in dem System implementierte Verfahren aus der mehr oder weniger komplexen empfangenen Äußerung die wichtigsten Teile hiervon extrahieren kann, um die mehr oder weniger komplexe Äußerung auf ihre Intention und Bedeutung zu reduzieren, insbesondere durch ein Sammeln der Schlüsselphrasen oder Schlüsselwörter.
Es ist somit ein weiterer Vorteil, eine relativ vollständige Schätzung, ob die extrahierten Schlüsselphrasen und/oder Schlüsselwörter der Äußerung akzeptiert werden können oder verworfen werden müssen, zu bilden, insbesondere durch das vorherige Konfidenzmaß.
Entsprechend dem erfindungsgemäßen Verfahren zur Spracherkennung wird ein genaues und/oder robustes Konfidenzmaß für jede einzelne Schlüsselphrase/jedes einzelne Schlüsselwort zur vollständigen Schätzung zum Akzeptieren/Verwerfen der Schlüsselphrasen und/oder Schlüsselwörter bestimmt.
Um die Rechenbelastung des erfindungsgemäßen Verfahrens zur Spracherkennung weiter zu verringern, wird das oben beschriebene genaue und/oder robuste Konfidenzmaß für die abgeleiteten Schlüsselphrasen/Schlüsselwörter der empfangenen und erkannten Äußerung nur abgeleitet, falls im Schritt des Ableitens der Schlüsselphrase/des Schlüsselworts ein Hinweis und/oder ein Bedarf hierfür erzeugt wird oder vorkommt.
Einige der Grundideen des erfindungsgemäßen Verfahrens zur Spracherkennung im Gegensatz zu Verfahren des Standes der Technik können wie folgt beschrieben und zusammengefasst werden:
Konfidenzmaße (CM) versuchen darüber zu entscheiden, wie ein zuverlässiger und automatischer Spracherkennungsprozess in Bezug auf ein gegebenes Wort oder eine gegebene Äußerung ausgeführt wird. Das in Zusammenhang mit der Erfindung vorgeschlagene Konfidenzmaß ist insbesondere für Dialogsysteme vorgesehen, die eine kontinuierliche Spracheingabe behandeln müssen und die verschiedene Aktionen basierend auf Daten, die anhand der eingegebenen und erkannten Sprache extrahiert und gesammelt werden, ausführen müssen. Das erfindungsgemäße Verfahren zur Spracherkennung kombiniert verschiedene Informationsquellen, um zu entscheiden, ob eine eingegebene und erkannte Äußerung und/oder die einzelnen gewählten Wörter richtig erkannt werden.
Nach einem ersten Schritt zur Erkennung der Äußerung in ihrer Gesamtheit wird ein einfaches, grobes und sehr allgemeines Konfidenzmaß für das Ganze, d. h. die gesamte Äußerung, berechnet und erzeugt. Wenn die erkannte Äußerung als akzeptiert eingestuft wird, wendet sich das Verfahren einem weiteren Verarbeitungsschritt zu. Je nach den Erfordernissen des Verfahrens, das insbesondere in ein System implementiert ist, kann bei Bedarf eine genauere Kon fidenzenbeurteilung für die Wörter oder Teilworteinheiten, die von besonderer Bedeutung sind, erzeugt werden. Diese Wörter oder Teilworteinheiten besonderer Bedeutung werden als Schlüsselphrasen oder Schlüsselwörter bezeichnet. Die weiteren Verarbeitungsschritte, d. h. die erneute Analyse der Äußerung, können explizit die Berechnung der Zuverlässigkeit der Schlüsselphrasen und/oder Schlüsselwörter im Sinn eines genauen und robusteren, auf die entsprechenden einzelnen Schlüsselphrasen und Schlüsselwörter konzentrierten Konfidenzmaßes verlangen.
Für die Beurteilung der Erkennungsqualität in Dialogsystemen für kontinuier liche Sprache mit großem Vokabular wird deshalb ein Zweischrittsystem vorgeschlagen. Der erste Schritt der Erkennung der Äußerung als Ganzes sowie der Berechnung eines einfachen Konfidenzmaßes gibt einen Hinweis, ob der größte Teil der Äußerung richtig erkannt wurde. Für solch eine Einstufung ist jedoch nicht jedes einzelne Wort der Benutzereingabe gleichermaßen wichtig. Das Wissen über die Wichtigkeit befindet sich normalerweise nicht in den Informationen, die in dem Spracherkennungssystem gespeichert sind. Es wird daher vorgeschlagen, eine Schnittstelle zu dem Spracherkennungsuntersystem hinzuzufügen, die es einer nachfolgenden Komponente ermöglicht, speziell nach der Konfidenz eines einzelnen Wortes der erkannten Äußerung zu fragen.
Daher wird nach der Analyse der Bedeutung oder Intention der Äußerung in ihrer Gesamtheit, eines isolierten Wortes, ein komplizierteres und robusteres Konfidenzmaß auf die isolierten Wörter oder kurzen Phrasen von speziellem Interesse angewendet, d. h., es wird auf die Schlüsselphrasen oder Schlüssel wörter der Äußerung angewendet, insbesondere auf Anforderung von nachfolgenden Spracherkennungsuntersystemen zur vollständigen Spezifikation der Äußerung.
Falls auf dieser Stufe Standardverfahren für die Konfidenzmaßbeurteilung angewendet werden würden, würde dies die Rechenbelastung vergrößern. Der bis jetzt für isolierte Wörter entwickelte Lösungsweg könnte einfach auf die Erkennung kontinuierlicher Sprache erweitert werden, wobei ein sehr genaues Konfidenzmaß für jedes einzelne Wort in der Äußerung berechnet werden kann. Da dies sehr aufwändig wäre, würde die Systemreaktion verlangsamt werden. Für Dialogsysteme, die schnell auf die Eingabe einer Äußerung des Benutzers oder Sprechers reagieren müssen, ist dies nicht annehmbar. Daher wird das erfindungsgemäße Verfahren folgendermaßen vorgeschlagen.
Das Ziel des ersten Verarbeitungsschritts zur Berechnung eines eher einfachen Konfidenzmaßes für eine Äußerung ist es, das Finden der allgemeinen Struktur der Äußerung zu unterstützen. Wenn diese Einstufung mit einer genügend großen Konfidenz erfolgt ist, können nachfolgende Verarbeitungsschritte die empfangene und erkannte Äußerung weiterverarbeiten. In diesen weiteren Verarbeitungsschritten wird der Satz oder die Äußerung weiter analysiert, um die wichtigen Schlüsselwörter des Satzes oder der Äußerung zu erkennen. Bei Bedarf kann für diese Schlüsselwörter ein zweites genaueres und vollständiges Konfidenzmaß berechnet werden. Abgesehen davon können zusätzliche und anspruchsvollere Merkmale, die einen höheren Grad an Rechenaufwand benötigen, im zweiten Durchlauf zur Berechnung eines Konfidenzmaßes verwendet werden. Dadurch wird der aufwändige Rechenweg reduziert und auf die Orte der Äußerung konzentriert, wo er tatsächlich im Kontext der Anwendung benötigt wird. Dies verringert die Gesamtrechenlast und macht eine Konfidenzschätzung in kleinen Geräten möglich.
In einem Zugfahrplan-Informationssystem äußert der Benutzer z. B.: "Ich möchte von Hamburg nach Stuttgart fahren". Die Intention dieser Aussage ist, von einer Stadt zur anderen zu fahren. Zu diesen Informationen müssen lediglich die Ausgangsstadt und das Reiseziel geprüft werden, während der Rest des Satzes als Füllphrasen oder "Füller" betrachtet werden kann. Diese Füllphrasen müssen nicht mit hoher Genauigkeit erkannt werden, vorausgesetzt, dass die Intention des Reisens von einem Punkt zu einem anderen bekannt ist. Was wichtig ist, ist daher das Überprüfen der Ausgangsstadt und des Reiseziels. Gemäß der Erfindung wird folglich die Rechenlast auf diese Schlüsselwörter konzentriert, d. h. den Ausgangspunkt und das Reiseziel der beabsichtigten Reise. Somit wird das zweite Konfidenzmaß lediglich in Bezug auf den Ausgangspunkt und das Reiseziel berechnet, falls erforderlich.
In anderen Anwendungen gibt der Spracherkenner alternative Worthypothesen aus, die in einem Graphen angeordnet sind, um mit Unbestimmtheiten und Mehrdeutigkeiten fertig zu werden. Es bestehen viele mögliche Pfade in dem Wortgraphen, von denen jeder einer Satzhypothese entspricht. Der nachfolgende Sprachprozessor sucht nach dem optimalen Pfad entsprechend dem Sprachwissen und den zuvor in dem Spracherkenner berechneten Akustikauswertungen. Während der Suche, in der der Sprachprozessor mehrere Pfade parallel untersucht, kann er das Konfidenzmaß-Berechnungsmodul anfordern, um bestimmte Schlüsselwörter zu bekommen. Das heißt, dass bei jedem folgenden Schritt ein Konfidenzmaß abgefragt werden kann. Welche Wörter die Schlüsselörter sind, hängt von dem momentanen Stand der syntaktischen und semantischen Analyse innerhalb der zugrunde liegenden syntaktischen/semantischen Analyse ab.
Die Erfindung wird ausführlicher durch eine schematische Darstellung gezeigt, die eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung beschreibt.
1 beschreibt mittels eines schematischen Blockdiagramms eine Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung.
In einem ersten Schritt 11 wird eine kontinuierliche Spracheingabe als eine Äußerung U empfangen und vorverarbeitet. In Schritt 12 wird ein Erkennungsprozess für kontinuierliche Sprache mit großem Vokabular LVCSR bezüglich der kontinuierlichen Spracheingabe, d. h. der empfangenen Äußerung U oder Sprachphrase, ausgeführt, um in Schritt 13 ein Erkennungsergebnis zu erzeu gen. Das Erkennungsergebnis aus Schritt 13 dient als eine Äußerungshypothese, die zum Schritt 14 geleitet wird, um ein einfaches und grobes Konfidenzmaß CMU für die gesamte Äußerungshypothese aus Schritt 13 zu berechnen. Im Fall eines durch das Konfidenzmaß CMU der ganzen Äußerungshypothese erfolgten Verwerfens wird in Schritt 20 eine Neuaufforderung oder Auf forderung zum Wiederholen der Äußerung ausgelöst.
Im Fall einer Akzeptierung der Äußerungshypothese wird in Schritt 15 eine vollständige Satzanalyse ausgeführt, um Schlüsselwörter zu extrahieren. In einem weiteren Schritt wird berechnet, ob ein Konfidenzmaß zum Auswerten der Schlüsselwörter erforderlich ist. Falls eine weitere Auswertung bezüglich der Zuverlässigkeit der extrahierten Schlüsselwörter notwendig ist, wird eine Berechnung des vollständigen Konfidenzmaßes CMK unter Verwendung der Zeitanpassungsinformationen angefordert, die von der Erkennungseinheit für kontinuierliche Sprache mit großem Vokabular aus Schritt 12 abgerufen werden. Falls kein Konfidenzmaß CMK erforderlich war oder das Konfidenzmaß CMK für die Schlüsselwörter ausreichend war, werden die erzeugten und ext rahierten Schlüsselwörter und Schlüsselphrasen akzeptiert. Wenn das genaue Konfidenzmaß CMK nicht ausreichend war, werden die Schlüsselwörter verworfen, wobei eine Neuaufforderung ausgelöst wird und der Prozess zu Schritt 20 verzweigt.

Claims

Verfahren zur Spracherkennung, – bei dem eine empfangene Äußerung (U) als Ganzes einem Spracher kennungsprozess (12) unterworfen wird, – bei dem anhand des Spracherkennungsprozesses eine grobe Schätzung (14) erfolgt, ob die empfangene Äußerung (U) als Ganzes akzeptiert oder verworfen wird, – bei dem im Fall des Akzeptierens der Äußerung (U) diese erneut voll ständig analysiert wird (15), um ihre Bedeutung und/oder ihre Intention zu extrahieren. – bei dem anhand der erneuten Analyse jene Schlüsselwörter und/oder Schlüsselphrasen aus der Äußerung (U) extrahiert werden (15), die für ihre Bedeutung im Wesentlichen repräsentativ sind, und – bei dem ein genaues und/oder robustes Vertraulichkeitsmaß (CMK) für jede einzelne Schlüsselphrase oder jedes einzelne Schlüsselwort bestimmt wird (16), um die extrahierten Schlüsselphrasen und/oder Schlüsselwörter zu akzeptieren/zu verwerfen.
Verfahren nach Anspruch 1, bei dem im Fall des Verwerfens der Äußerung (U) ein Verwerfungssignal erzeugt wird.
Verfahren nach Anspruch 2, bei dem als das Verwerfungssignal ein Neuaufforderungssignal und/oder im Fall eines Dialogsystems eine Aufforderung zum Wiederholen/Neubeginnen der letzten Äußerung (U) erzeugt und/oder ausgegeben wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem für die grobe Schätzung bezüglich der Annahme/des Verwerfens der Äußerung ein grobes und/oder einfaches Vertraulichkeitsmaß (CMU) für die gesamte Äußerung (U) bestimmt wird.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die erneute Analyse der empfangenen Äußerung (U) auf einer Satzanalyse basiert und insbesondere auf einer grammatischen, syntaktischen oder semantischen Analyse und/oder dergleichen basiert.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Vertraulichkeitsmaß (CMK) für die einzelne Schlüsselphrase/das einzelne Schlüsselwort nur bestimmt wird, falls im Schritt des Ableitens der Schlüsselphrase/des Schlüsselworts ein Hinweis hierfür auftritt, um so die Rechenbelastung zu verringern.