-
Die
Erfindung bezieht sich auf ein Verfahren zur Spracherkennung gemäß Anspruch
1 und insbesondere auf ein Verfahren zur Spracherkennung unter Verwendung
von Vertraulichkeitsmaßen
bzw. Konfidenzmaßen
in einem Erkennungsprozess kontinuierlicher Sprache mit großem Vokabular
(LVCSR).
-
In
vielen herkömmlichen
Vorrichtungen und Verfahren zur Spracherkennung wird nach einer
Erkennung einer empfangenen Äußerung oder
Sprachphrase eine Schätzung
bezüglich
der Zuverlässigkeit der
erkannten Äußerung oder
Sprachphrase gegeben, um insbesondere eine Entscheidung zu ermöglichen,
ob die fragliche Äußerung oder
Sprachphrase und ihre erkannte Form für eine Weiterverarbeitung akzeptiert
werden kann oder verworfen und durch eine durch den Sprecher oder
Benutzer neu einzugebende Äußerung oder
Sprachphrase ausgetauscht werden muss.
-
Ein
Hauptnachteil der Verfahren des Standes der Technik zur Spracherken
nung besteht darin, dass die Gesamtrechenbelastung über die
gesamte empfangene Äußerung verteilt
wird, um eine genaue und vollständige
Analyse sicherzustellen. Daher können
viele Verfahren nicht in kleinen Systemen oder Vorrichtungen, z.
B. in Handgeräten
oder dergleichen, implementiert werden, da diese kleinen Systeme
einen Leistungsgrad besitzen, der zum Erkennen kontinuierlicher
Sprache und Schätzen
der Zuverlässigkeit
der erkannten Phrasen nicht ausreicht, wenn die gesamte empfangene Äußerung vollständig analysiert
werden muss.
-
Ein
bekanntes Verfahren zur Spracherkennung ist in "A dialog control strategy based on the
reliability of speech recognition" von Y. Nimi u. a. in PROCEEDINGS OF
ICSLP, 3.-6. Oktober 1996, Seite 534-537, offenbart. Damit wird
ein Zuverlässigkeitsmaß für eine Äußerung eines
Benutzers berechnet, wobei die Äußerung verworfen,
direkt bestätigt oder
indirekt bestätigt
wird.
-
Es
ist daher eine Aufgabe der Erfindung, ein Verfahren zur Spracherkennung
zu schaffen, insbesondere auf dem Gebiet der Erkennung kontinuierlicher
Sprache bei großem
Vokabular, das leicht in kleinen Dialogsystemen implementiert werden
kann und das außerdem
eine robuste und zuverlässige Schätzung bezüglich der
Erkennungsqualität
liefert.
-
Die
Aufgabe wird durch ein Verfahren zur Spracherkennung mit den kennzeichnenden
Merkmalen aus Anspruch 1 gelöst.
Bevorzugte Ausführungsformen
des erfindungsgemäßen Verfahrens
zur Spracherkennung liegen innerhalb des Umfangs der abhängigen Ansprüche.
-
In
dem Verfahren zur Spracherkennung gemäß der Erfindung wird eine empfangene Äußerung als
Ganzes einem Erkennungsprozess unterworfen. Ferner erfolgt eine
lediglich grobe Schätzung,
ob die empfangene und erkannte Äuße rung
als Ganzes akzeptiert oder verworfen wird. Außerdem wird im Fall des Akzeptierens
der Äußerung diese
erneut vollständig
analysiert, um ihre Bedeutung und/oder ihre Intention zu extrahieren.
Außerdem
werden anhand der erneuten Analyse und ihres Ergebnisses Schlüsselphrasen
und/oder Schlüsselwörter aus
der Äußerung extrahiert,
die für
ihre Bedeutung im Wesentlichen repräsentativ sind.
-
Im
Gegensatz zu Verfahren des Standes der Technik zur Spracherkennung
wird nach Erkennung der Äußerung als
Ganzes in einem Erkennungsprozess eine lediglich grobe Schätzung ausgeführt, die die
Zuverlässigkeit
der erkannten Äußerung hinsichtlich
erforderlicher Sprachphrasen beschreibt. Daher ist in einem ersten
Schritt lediglich eine kleine Belastung hinsichtlich Schätzung und
Berechnung auf die gesamte empfangene Äußerung zu konzentrieren. Der
Hauptteil der Berechnung wird danach auf die erneute Analyse der Äußerung konzentriert,
um ihre Bedeutung und Intention zu extrahieren und dadurch Schlüsselphrasen
und/oder Schlüsselwörter der Äußerung zu
erzeugen. Schlüsselwörter oder
Schlüsselphrasen
sind Teile oder Untereinheiten der Äußerungen, die die Hauptbedeutung
der durch die Äußerung zu
transportierenden Nachricht tragen. Folglich sichert das erfindungsgemäße Verfahren
zur Spracherkennung die Berechnungs- und Schätzleistung durch eine Konzentra
tion auf wichtige Teile einer Äußerung,
d. h. die Schlüsselphrasen
und Schlüsselwörter, sowie
auf deren Erzeugung, Extraktion und/oder Konfidenzschätzung aus
der Äußerung.
-
Für Dialogsysteme
wird es bevorzugt, dass im Fall des Verwerfens der Äußerung als
Ganzes ein Verwerfungssignal erzeugt wird. Insbesondere wird ein
Neuaufforderungssignal und/oder eine Aufforderung zum Wiederholen
oder Neubeginnen der letzten Äußerung erzeugt
und/oder als das Verwerfungssignal ausgegeben. Dies ist in einem
Dialogsystem von besonderem Vorteil, da der Benutzer oder momentane
Sprecher informiert wird, dass seine letzte Äußerung oder Sprachphrase durch
das Erkennungssystem oder -verfahren nicht richtig erkannt worden
ist.
-
Zum
Ausführen
der oben erwähnten
groben Schätzung
nach dem Akzeptieren und/oder Verwerfen einer empfangenen und/oder
erkannten Äußerung wird
ein grobes oder einfaches Konfidenzmaß für die gesamte Äußerung bestimmt.
Dies ist von besonderem Vorteil im Gegensatz zu Verfahren des Standes
der Technik zur Spracherkennung, da diese Verfahren des Standes
der Technik im Allgemeinen Konfidenzmaße berechnen, die auf jedem
einzelnen Wort oder jeder einzelnen Teilworteinheit in der Äußerung basieren. Folglich müssen Verfahren des Standes
der Technik eine relativ große
Anzahl Einzelwort-Konfidenzmaße
für die
gesamte Äußerung berechnen
und bestimmen.
-
Außerdem müssen Verfahren
des Standes der Technik zur Spracherkennung ferner anschließend eine
Gesamtschätzung
ausführen,
um eine Konfidenz für
die ganze Äußerung in
Bezug auf den Satz an Einzelwort-Konfidenzmaßen zu finden. Im Gegensatz
zu diesen Verfahren des Standes der Technik berechnet das erfindungsgemäße Verfahren in
der Anfangsphase der Erkennung ein Konfidenzmaß in einfacher und grober Weise
für die
ganze Äußerung in
ihrer Gesamtheit. Nur wenn auf der Grundlage des Gesamtäußerungs-Konfidenzmaßes eine Annahme
der Äußerung und
ihrer erkannten Phrasen vorgeschlagen wird, wird eine Weiterverarbeitung ausgelöst.
-
Es
wird bevorzugt, die erneute Analyse auf eine Satzanalyse und insbesondere
auf eine grammatische, syntaktische und/oder semantische Analyse
oder dergleichen zu gründen.
Diese Maße
sind nützlich,
da sie sowohl auf das Extrahieren der Intention und der Bedeutung
als auch auf das Extrahieren der Schlüs selphrasen oder Schlüsselwörter der Äußerung konzentriert
sind. Insbesondere in Dialogsystemen ist es erforderlich, dass das
in dem System implementierte Verfahren aus der mehr oder weniger komplexen
empfangenen Äußerung die wichtigsten Teile
hiervon extrahieren kann, um die mehr oder weniger komplexe Äußerung auf
ihre Intention und Bedeutung zu reduzieren, insbesondere durch ein
Sammeln der Schlüsselphrasen
oder Schlüsselwörter.
-
Es
ist somit ein weiterer Vorteil, eine relativ vollständige Schätzung, ob
die extrahierten Schlüsselphrasen
und/oder Schlüsselwörter der Äußerung akzeptiert
werden können
oder verworfen werden müssen,
zu bilden, insbesondere durch das vorherige Konfidenzmaß.
-
Entsprechend
dem erfindungsgemäßen Verfahren
zur Spracherkennung wird ein genaues und/oder robustes Konfidenzmaß für jede einzelne Schlüsselphrase/jedes
einzelne Schlüsselwort
zur vollständigen
Schätzung
zum Akzeptieren/Verwerfen der Schlüsselphrasen und/oder Schlüsselwörter bestimmt.
-
Um
die Rechenbelastung des erfindungsgemäßen Verfahrens zur Spracherkennung
weiter zu verringern, wird das oben beschriebene genaue und/oder
robuste Konfidenzmaß für die abgeleiteten Schlüsselphrasen/Schlüsselwörter der
empfangenen und erkannten Äußerung nur
abgeleitet, falls im Schritt des Ableitens der Schlüsselphrase/des Schlüsselworts
ein Hinweis und/oder ein Bedarf hierfür erzeugt wird oder vorkommt.
-
Einige
der Grundideen des erfindungsgemäßen Verfahrens
zur Spracherkennung im Gegensatz zu Verfahren des Standes der Technik
können
wie folgt beschrieben und zusammengefasst werden:
Konfidenzmaße (CM)
versuchen darüber
zu entscheiden, wie ein zuverlässiger
und automatischer Spracherkennungsprozess in Bezug auf ein gegebenes
Wort oder eine gegebene Äußerung ausgeführt wird.
Das in Zusammenhang mit der Erfindung vorgeschlagene Konfidenzmaß ist insbesondere
für Dialogsysteme
vorgesehen, die eine kontinuierliche Spracheingabe behandeln müssen und
die verschiedene Aktionen basierend auf Daten, die anhand der eingegebenen
und erkannten Sprache extrahiert und gesammelt werden, ausführen müssen. Das
erfindungsgemäße Verfahren
zur Spracherkennung kombiniert verschiedene Informationsquellen,
um zu entscheiden, ob eine eingegebene und erkannte Äußerung und/oder
die einzelnen gewählten
Wörter
richtig erkannt werden.
-
Nach
einem ersten Schritt zur Erkennung der Äußerung in ihrer Gesamtheit
wird ein einfaches, grobes und sehr allgemeines Konfidenzmaß für das Ganze, d.
h. die gesamte Äußerung,
berechnet und erzeugt. Wenn die erkannte Äußerung als akzeptiert eingestuft
wird, wendet sich das Verfahren einem weiteren Verarbeitungsschritt
zu. Je nach den Erfordernissen des Verfahrens, das insbesondere
in ein System implementiert ist, kann bei Bedarf eine genauere Kon
fidenzenbeurteilung für
die Wörter
oder Teilworteinheiten, die von besonderer Bedeutung sind, erzeugt
werden. Diese Wörter
oder Teilworteinheiten besonderer Bedeutung werden als Schlüsselphrasen
oder Schlüsselwörter bezeichnet.
Die weiteren Verarbeitungsschritte, d. h. die erneute Analyse der Äußerung,
können
explizit die Berechnung der Zuverlässigkeit der Schlüsselphrasen
und/oder Schlüsselwörter im
Sinn eines genauen und robusteren, auf die entsprechenden einzelnen
Schlüsselphrasen
und Schlüsselwörter konzentrierten
Konfidenzmaßes
verlangen.
-
Für die Beurteilung
der Erkennungsqualität in
Dialogsystemen für
kontinuier liche Sprache mit großem Vokabular wird deshalb
ein Zweischrittsystem vorgeschlagen. Der erste Schritt der Erkennung der Äußerung als
Ganzes sowie der Berechnung eines einfachen Konfidenzmaßes gibt
einen Hinweis, ob der größte Teil
der Äußerung richtig
erkannt wurde. Für
solch eine Einstufung ist jedoch nicht jedes einzelne Wort der Benutzereingabe
gleichermaßen wichtig.
Das Wissen über
die Wichtigkeit befindet sich normalerweise nicht in den Informationen,
die in dem Spracherkennungssystem gespeichert sind. Es wird daher
vorgeschlagen, eine Schnittstelle zu dem Spracherkennungsuntersystem
hinzuzufügen,
die es einer nachfolgenden Komponente ermöglicht, speziell nach der Konfidenz
eines einzelnen Wortes der erkannten Äußerung zu fragen.
-
Daher
wird nach der Analyse der Bedeutung oder Intention der Äußerung in
ihrer Gesamtheit, eines isolierten Wortes, ein komplizierteres und
robusteres Konfidenzmaß auf
die isolierten Wörter
oder kurzen Phrasen von speziellem Interesse angewendet, d. h.,
es wird auf die Schlüsselphrasen
oder Schlüssel
wörter
der Äußerung angewendet,
insbesondere auf Anforderung von nachfolgenden Spracherkennungsuntersystemen
zur vollständigen
Spezifikation der Äußerung.
-
Falls
auf dieser Stufe Standardverfahren für die Konfidenzmaßbeurteilung
angewendet werden würden,
würde dies
die Rechenbelastung vergrößern. Der
bis jetzt für
isolierte Wörter
entwickelte Lösungsweg
könnte
einfach auf die Erkennung kontinuierlicher Sprache erweitert werden,
wobei ein sehr genaues Konfidenzmaß für jedes einzelne Wort in der Äußerung berechnet
werden kann. Da dies sehr aufwändig
wäre, würde die
Systemreaktion verlangsamt werden. Für Dialogsysteme, die schnell
auf die Eingabe einer Äußerung des
Benutzers oder Sprechers reagieren müssen, ist dies nicht annehmbar. Daher
wird das erfindungsgemäße Verfahren
folgendermaßen
vorgeschlagen.
-
Das
Ziel des ersten Verarbeitungsschritts zur Berechnung eines eher
einfachen Konfidenzmaßes für eine Äußerung ist
es, das Finden der allgemeinen Struktur der Äußerung zu unterstützen. Wenn
diese Einstufung mit einer genügend
großen
Konfidenz erfolgt ist, können
nachfolgende Verarbeitungsschritte die empfangene und erkannte Äußerung weiterverarbeiten.
In diesen weiteren Verarbeitungsschritten wird der Satz oder die Äußerung weiter
analysiert, um die wichtigen Schlüsselwörter des Satzes oder der Äußerung zu
erkennen. Bei Bedarf kann für
diese Schlüsselwörter ein
zweites genaueres und vollständiges
Konfidenzmaß berechnet
werden. Abgesehen davon können
zusätzliche
und anspruchsvollere Merkmale, die einen höheren Grad an Rechenaufwand
benötigen,
im zweiten Durchlauf zur Berechnung eines Konfidenzmaßes verwendet
werden. Dadurch wird der aufwändige
Rechenweg reduziert und auf die Orte der Äußerung konzentriert, wo er
tatsächlich
im Kontext der Anwendung benötigt
wird. Dies verringert die Gesamtrechenlast und macht eine Konfidenzschätzung in
kleinen Geräten
möglich.
-
In
einem Zugfahrplan-Informationssystem äußert der Benutzer z. B.: "Ich möchte von
Hamburg nach Stuttgart fahren".
Die Intention dieser Aussage ist, von einer Stadt zur anderen zu
fahren. Zu diesen Informationen müssen lediglich die Ausgangsstadt und
das Reiseziel geprüft
werden, während
der Rest des Satzes als Füllphrasen
oder "Füller" betrachtet werden
kann. Diese Füllphrasen
müssen
nicht mit hoher Genauigkeit erkannt werden, vorausgesetzt, dass
die Intention des Reisens von einem Punkt zu einem anderen bekannt
ist. Was wichtig ist, ist daher das Überprüfen der Ausgangsstadt und des
Reiseziels. Gemäß der Erfindung
wird folglich die Rechenlast auf diese Schlüsselwörter konzentriert, d. h. den Ausgangspunkt
und das Reiseziel der beabsichtigten Reise. Somit wird das zweite
Konfidenzmaß lediglich in
Bezug auf den Ausgangspunkt und das Reiseziel berechnet, falls erforderlich.
-
In
anderen Anwendungen gibt der Spracherkenner alternative Worthypothesen
aus, die in einem Graphen angeordnet sind, um mit Unbestimmtheiten und Mehrdeutigkeiten
fertig zu werden. Es bestehen viele mögliche Pfade in dem Wortgraphen,
von denen jeder einer Satzhypothese entspricht. Der nachfolgende
Sprachprozessor sucht nach dem optimalen Pfad entsprechend dem Sprachwissen
und den zuvor in dem Spracherkenner berechneten Akustikauswertungen.
Während
der Suche, in der der Sprachprozessor mehrere Pfade parallel untersucht, kann
er das Konfidenzmaß-Berechnungsmodul
anfordern, um bestimmte Schlüsselwörter zu
bekommen. Das heißt,
dass bei jedem folgenden Schritt ein Konfidenzmaß abgefragt werden kann. Welche
Wörter
die Schlüsselörter sind,
hängt von
dem momentanen Stand der syntaktischen und semantischen Analyse
innerhalb der zugrunde liegenden syntaktischen/semantischen Analyse
ab.
-
Die
Erfindung wird ausführlicher
durch eine schematische Darstellung gezeigt, die eine bevorzugte
Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung beschreibt.
-
1 beschreibt
mittels eines schematischen Blockdiagramms eine Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung.
-
In
einem ersten Schritt 11 wird eine kontinuierliche Spracheingabe
als eine Äußerung U
empfangen und vorverarbeitet. In Schritt 12 wird ein Erkennungsprozess
für kontinuierliche
Sprache mit großem
Vokabular LVCSR bezüglich
der kontinuierlichen Spracheingabe, d. h. der empfangenen Äußerung U
oder Sprachphrase, ausgeführt,
um in Schritt 13 ein Erkennungsergebnis zu erzeu gen. Das
Erkennungsergebnis aus Schritt 13 dient als eine Äußerungshypothese,
die zum Schritt 14 geleitet wird, um ein einfaches und
grobes Konfidenzmaß CMU
für die gesamte Äußerungshypothese
aus Schritt 13 zu berechnen. Im Fall eines durch das Konfidenzmaß CMU der
ganzen Äußerungshypothese
erfolgten Verwerfens wird in Schritt 20 eine Neuaufforderung oder
Auf forderung zum Wiederholen der Äußerung ausgelöst.
-
Im
Fall einer Akzeptierung der Äußerungshypothese
wird in Schritt 15 eine vollständige Satzanalyse ausgeführt, um
Schlüsselwörter zu
extrahieren. In einem weiteren Schritt wird berechnet, ob ein Konfidenzmaß zum Auswerten
der Schlüsselwörter erforderlich
ist. Falls eine weitere Auswertung bezüglich der Zuverlässigkeit
der extrahierten Schlüsselwörter notwendig
ist, wird eine Berechnung des vollständigen Konfidenzmaßes CMK
unter Verwendung der Zeitanpassungsinformationen angefordert, die
von der Erkennungseinheit für
kontinuierliche Sprache mit großem
Vokabular aus Schritt 12 abgerufen werden. Falls kein Konfidenzmaß CMK erforderlich
war oder das Konfidenzmaß CMK
für die
Schlüsselwörter ausreichend
war, werden die erzeugten und ext rahierten Schlüsselwörter und Schlüsselphrasen
akzeptiert. Wenn das genaue Konfidenzmaß CMK nicht ausreichend war,
werden die Schlüsselwörter verworfen,
wobei eine Neuaufforderung ausgelöst wird und der Prozess zu
Schritt 20 verzweigt.