DE60037870T2

DE60037870T2 - Buchstabiermodus in einem spracherkenner

Info

Publication number: DE60037870T2
Application number: DE60037870T
Authority: DE
Inventors: Heinz F. Bartosik
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 1999-09-29
Filing date: 2000-09-25
Publication date: 2009-01-22
Anticipated expiration: 2020-09-26
Also published as: JP4790956B2; WO2001024161A1; JP2003510662A; DE60037870D1; EP1135768A1; EP1135768B1

Description

Die Erfindung bezieht sich auf ein Spracherkennungssystem, das Folgendes umfasst:
einen Eingang zum Empfangen eines Sprache darstellenden Signals und
eine Erkennungseinheit zum Erkennen des Signals und Darstellen des erkannten Signals als Wort/Wörter, wobei die Erkennungseinheit einen im Buchstabiermodus arbeitenden Erkenner zum Erkennen zumindest eines Teils des Sprachsignals durch

– Vergleichen des Teils des Signals mit einem Buchstabierdaten-Datenbestand, der eine Darstellung einer Vielzahl von Buchstabierreferenzwörtern umfasst, und
– Identifizieren für den Teil des Signals eines einzelnen Buchstabierzeichens, das einem der Buchstabierreferenzwörter mit der höchsten Wahrscheinlichkeit zugeordnet ist.

Ein derartiges Spracherkennungssystem von Philips befindet sich unter dem Namen FreeSpeech98 auf dem Markt. Dieses System gestattet es dem Benutzer, Wörter zu buchstabieren, um Erkennungsprobleme zu umgehen, die beispielsweise auftreten können, wenn ein Wort nicht in dem aktiven Lexikon existiert oder falsch erkannt wird. Der Benutzer kann buchstabieren, indem er die einzelnen Buchstaben des Alphabets ausspricht. Da die Erkennung von gesprochenen einzelnen Buchstaben schwierig ist (die Äußerungen sind kurz und liegen manchmal phonetisch nahe beieinander), gestattet es das bekannte System dem Benutzer auch, mit Hilfe von Buchstabierwörtern aus dem internationalen Buchstabieralphabet (Alpha, Bravo, Charlie ...) zu buchstabieren. In dem für das Buchstabieren verwendeten Lexikon sind die jeweiligen Buchstabierwörter des internationalen Alphabets einer Textdarstellung zugeordnet, die dem ersten Buchstaben des Buchstabierwortes entspricht. Als Beispiel ist das Buchstabierwort „Alpha" mit der Textdarstellung „a" verknüpft. Die ersten Buchstaben der jeweiligen Buchstabierwörter der Folge von durch den Benutzer gesprochenen Buchstabierwörtern werden dann kombiniert und bilden das buchstabierte Wort. Wenn sich die Erkennungseinheit im Buchstabiermodus befindet, kann beispielsweise der Name „Philips" buchstabiert werden, indem die Wörterfolge „Papa Hotel India Lima India Papa Sierra" ausgesprochen wird.
Die Verwendung des internationalen Alphabets ermöglicht zwar die genaue Erkennung der Buchstabierwörter und somit ein genaues Buchstabieren, viele Personen sind jedoch mit diesem Buchstabieralphabet nicht vertraut.
Der Erfindung liegt die Aufgabe zugrunde, ein System der erwähnten Art mit einem flexibleren Buchstabiermodus zu schaffen.
Zur Lösung der Aufgabe der Erfindung schafft die Erfindung ein System wie in Anspruch 1 definiert. Auf diese Weise wird dem Benutzer eine Auswahl an Wörtern geboten, die er zum Buchstabieren verwenden kann. Es ist offensichtlich, dass das System im Buchstabiermodus immer noch die Möglichkeit bieten kann, durch das Aussprechen einzelner Buchstaben zu buchstabieren. Zum Erkennen von aus einzelnen Buchstaben bestehenden Wörtern ist eventuell der Einsatz eines optimierten Erkenners für einzelne Buchstaben zusätzlich zu einem Erkenner zum Erkennen von aus mehreren Buchstaben bestehenden Buchstabierwörtern erforderlich.
Des Weiteren werden zumindest einige der Buchstabierwörter einfach aus dem Diktierdaten-Datenbestand entnommen oder von dem Buchstabierdaten-Datenbestand und dem Diktierdaten-Datenbestand gemeinsam genutzt. Der Datenbestand der Buchstabierwörter kann ein Teilsatz des Diktierdatenbestands sein. Ist der Buchstabierdatenbestand wesentlich eingeschränkter als der Diktierdatenbestand, nimmt die Genauigkeit der Erkennung des Buchstabierwortes zu. Als Alternative kann der Satz mit Wörtern in den Beständen sogar im Wesentlichen gleich sein. Dadurch hat der Benutzer die volle Freiheit, fast jegliches Wort zum Buchstabieren zu verwenden. Der Buchstabierdatenbestand kann gewisse Wörter (oder die einzelnen Buchstabierzeichen) wie „Sierra" und „Lima" enthalten, die eventuell in einem aktiven Diktierdatenbestand nicht existieren.
Vorzugsweise werden die Buchstabierwörter vom Benutzer gesteuert ausgewählt. Auf diese Weise kann der Benutzer ein bevorzugtes (und leicht zu merkendes) Buchstabieralphabet zusammenstellen. Der Benutzer kann in diesem Fall vorzugsweise zumindest einige der Wörter in dem Buchstabierdatenbestand auswählen. Das System kann dann auf ein Wort hin überprüfen, das der Benutzer hinzufügen möchte, und daraufhin, ob sich das Wort ausreichend von anderen Wörtern unterscheidet, die sich bereits in dem Buchstabierdatenbestand befinden und mit einem anderen Buchstaben beginnen. Ist dies nicht der Fall, kann das System eine Warnung ausgeben oder sich weigern, ein derartiges Wort hinzuzufügen.
In dem Dokument US 5.754.974 wird ein Spracherkennungssystem dargelegt, das es wie das FreeSpeech98 von Philips dem Benutzer gestattet, Wörter mit Hilfe des internationalen Buchstabieralphabets zu buchstabieren. Das dargelegte System betrifft das gleiche Problem, dass nur ein aus mehreren Buchstaben bestehendes Buchstabierreferenzwort für jeden zu buchstabierenden Buchstaben verwendet werden kann.
Wie im abhängigen Anspruch 3 beschrieben nutzen die Wörter, die in den Datenbeständen gleich sind oder von den Datenbeständen gemeinsam genutzt werden, auch die gleiche akustische Darstellung. Daher ist keine doppelte Verwaltung oder kein doppeltes Training erforderlich.
Wie im abhängigen Anspruch 4 beschrieben können die Buchstabierwörter einer aus einem einzigen Buchstaben bestehenden Texttranskription (auch wenn das Wort selbst ein aus mehreren Buchstaben bestehendes Wort ist) zugeordnet werden. Auf diese Weise liefert die Identifizierung des Buchstabierwortes mit der größten Wahrscheinlichkeit sofort das aus einem einzelnen Buchstaben bestehende Buchstabierergebnis.
Wie im abhängigen Anspruch 5 beschrieben beginnt das aus mehreren Buchstaben bestehende Buchstabierwort mit dem ihm zugeordneten Buchstabenzeichen. Dadurch kann sich der Benutzer das Buchstabierwort leicht merken. Außerdem wird es dadurch leichter, dem Benutzer einen umfangreichen Satz mit Buchstabierwörtern bereitzustellen und gleichzeitig den hohen Grad der Erkennungsgenauigkeit erfüllen zu können, der in einem Buchstabiermodus erforderlich ist. Es ist zwar normalerweise schwierig, zwischen gewissen Wörtern wie „cars" und „car's" oder „two", „to" und „too" zu unterscheiden, der artige Wörter beginnen jedoch häufig mit demselben Buchstaben und brauchen daher in einem Buchstabiermodus nicht genau unterschieden zu werden. Vorteilhafterweise wird bei den Wörtern, bei denen die Wahrscheinlichkeit am höchsten ist, dass sie ausgesprochen wurden (in der so genannten Liste der N Besten), überprüft, welcher Anfangsbuchstabe am häufigsten auftritt und/oder die höchste Wahrscheinlichkeit hat, und dieser Buchstabe wird ausgewählt.
Wie im abhängigen Anspruch 6 beschrieben, werden die aus mehreren Buchstaben bestehenden Buchstabierwörter einer entsprechenden aus mehreren Buchstaben bestehenden Texttranskription zugeordnet, wie sie beispielsweise im Diktiermodus verwendet wird (wodurch eine gemeinsame Nutzung der Texttranskription möglich ist).
Wie im abhängigen Anspruch 7 beschrieben wird der im Wortmodus arbeitende Erkenner in herkömmlicher Weise eingesetzt (d. h. er erzeugt eine vollständige Text darstellung des erkannten Wortes) auch im Buchstabiermodus, wodurch das System vereinfacht wird. Es wird erst in einem Nachbearbeitungsschritt ermittelt, ob die vollständige Textdarstellung des Wortes (im Wortmodus) oder lediglich der erste Buchstabe (im Buchstabiermodus) verwendet wird.
Wie im abhängigen Anspruch 8 beschrieben kann der im Normalmodus arbeitende Erkenner so eingeschränkt werden, dass er im Erkennungsmodus für isolierte Wörter arbeitet. Dadurch kann die Erkennungsgenauigkeit verbessert werden.
Diese und weitere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 die Komponenten eines typischen Spracherkennungssystems;
2 zwei verschiedene Wortmodelle;
3 ein Blockschaltbild eines Spracherkennungssystems mit einer Erkennung im Buchstabiermodus und im Wortmodus;
4 die gemeinsame Nutzung der Wortmodelle durch die Modi; und
5 ein Beispiel eines Lexikonaufbaus.
Spracherkennungssysteme nutzen typischerweise eine Sammlung von Erkennungsmodellen zum Erkennen eines Eingabemusters. Es können beispielsweise ein akustisches Modell und ein Wortschatz zum Erkennen von Wörtern und ein Sprachmodell zum Verbessern des grundlegenden Erkennungsergebnisses verwendet werden. Verschiedene Formen der Spracherkennungsverfahren wie die Erkennung mit kleinem oder großem Wortschatz und die isolierte oder kontinuierliche Spracherkennung sind wohlbekannt. 1 zeigt einen typischen Aufbau eines kontinuierlichen Spracherkennungssystems 100 mit großem Wortschatz. Das System 100 umfasst ein Teilsystem 110 zur Spektralanalyse und ein Teilsystem 120 zum Einheitenabgleich. In dem Teilsystem 110 zur Spektralanalyse wird das Spracheingangssignal (SIS) spektral und/oder zeitlich analysiert, um einen repräsentativen Merkmalsvektor (Beobachtungsvektor OV) zu berechnen. Typischerweise wird das Sprachsignal über ein Mikrofon empfangen, digitalisiert (beispielsweise mit einer Rate von 6,67 kHz abgetastet) und vorverarbeitet, indem beispielsweise eine Präemphase angewendet wird. Aufeinander folgende Signalabtastwerte werden in Gruppen oder Blöcken zu Frames zusammengefasst, die beispielsweise 32 ms des Sprachsignals entsprechen. Aufeinander folgende Frames überlappen sich beispielsweise um 16 ms. Häufig wird das Spektralanalyseverfahren der linearen prädiktiven Kodierung (engl. Linear Predictive Coding, LPS) für die Berechnung eines repräsentativen Merkmalsvektors (Beobachtungsvektors) für jeden Frame eingesetzt. Der Merkmalsvektor kann beispielsweise 24, 32 oder 63 Komponenten aufweisen. Der Standardansatz bei der kontinuierlichen Spracherkennung mit großem Wortschatz besteht in der Annahme eines Wahrscheinlichkeitsmodells der Spracherzeugung, bei dem eine bestimmte Wörterfolge W = w₁w₂w₃ ... w_q eine Folge von akustischen Beobachtungsvektoren Y = y₁y₂y₃ ... y_T erzeugt. Der Erkennungsfehler kann statistisch durch die Ermittlung der Folge mit Wörtern w₁w₂w₃ ... w_q minimiert werden, die mit der größten Wahrscheinlichkeit die beobachtete Folge mit Beobachtungsvektoren y₁y₂y₃ ... y_T (über die Zeit t = 1, ..., T) bewirkt hat, wobei die Beobachtungsvektoren die Ausgabe des Teilsystems 110 zur Spektralanalyse sind. Daraus ergibt sich die Ermittlung der maximalen a-posteriori-Wahrscheinlichkeit:
Max P(W|Y) für alle möglichen Wörterfolgen W
Durch die Anwendung des Bayestheorems auf bedingte Wahrscheinlichkeiten ergibt sich für P(W|Y) P(W|Y) = P(Y|W)·P(W)/P(Y)
Da P(Y) unabhängig von W ist, ergibt sich die wahrscheinlichste Wörterfolge aus arg max P(Y|W)·P(W) für alle möglichen Wörterfolgen W (1)
In dem Teilsystem 120 zum Einheitenabgleich liefert ein akustisches Modell den ersten Term der Gleichung (1). Das akustische Modell wird dazu verwendet, die Wahrscheinlichkeit P(Y|W) einer Folge von Beobachtungsvektoren Y für eine gegebene Wörterkette W zu schätzen. Bei einem System mit großem Wortschatz wird dies gewöhnlich durch Abgleichen der Beobachtungsvektoren mit einem Datenbestand an Spracherkennungseinheiten durchgeführt. Eine Spracherkennungseinheit wird durch eine Folge mit akustischen Referenzen dargestellt. Es werden verschiedene Formen von Spracherkennungseinheiten verwendet. Als Beispiel kann ein ganzes Wort oder sogar eine Gruppe von Wörtern durch eine Spracherkennungseinheit dargestellt werden. Ein Wortmodell (WM) liefert für jedes Wort eines gegebenen Wortschatzes eine Transkription in einer Folge von akustischen Referenzen. Bei den meisten Spracherkennungssystemen mit kleinem Wortschatz wird ein ganzes Wort durch eine Spracherkennungseinheit dargestellt; in diesem Fall besteht eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit. Bei anderen Systemen mit kleinem Wortschatz, die beispielsweise zum Erkennen einer relativ großen Anzahl von Wörtern (beispielsweise mehreren hundert) verwendet werden, oder bei Systemen mit großem Wortschatz können Teilworteinheiten auf linguistischer Ba sis wie Phone, Diphone oder Silben sowie abgeleitete Einheiten wie Fenene und Fenone genutzt werden. Bei derartigen Systemen wird ein Wortmodell von einem Lexikon 134 vorgegeben, das die Folge von Teilworteinheiten beschreibt, die sich auf ein Wort des Wortschatzes beziehen, und die Teilwortmodelle 132, die Folgen von akustischen Referenzen der betroffenen Spracherkennungseinheit beschreiben. Eine Wortmodell-Erstellungseinheit 136 erstellt das Wortmodell basierend auf dem Teilwortmodell 132 und dem Lexikon 134.
2A zeigt ein Wortmodell 200 für ein System basierend auf Ganzwort-Spracherkennungseinheiten, wobei die Spracherkennungseinheit des gezeigten Wortes mit Hilfe einer Folge von zehn akustischen Referenzen (201 bis 210) modelliert wird. 2B zeigt ein Wortmodell 220 für ein System basierend auf Teilworteinheiten, wobei das gezeigte Wort durch eine Folge von drei Teilwortmodellen (250, 260 und 270) jeweils mit einer Folge von vier akustischen Referenzen (251, 252, 253, 254; 261 bis 264, 271 bis 274) modelliert wird. Die in 2 gezeigten Wortmodelle basieren auf Hidden-Markov-Modellen (HMM), deren Einsatz bei der stochastischen Modellierung von Sprachsignalen weit verbreitet ist. Mit Hilfe dieses Modells wird jede Erkennungseinheit (Wortmodell oder Teilwortmodell) typischerweise durch ein HMM charakterisiert, dessen Parameter aus einem Trainingsdatensatz geschätzt werden. Bei Spracherkennungssystemen mit großem Wortschatz wird gewöhnlich ein begrenzter Satz von beispielsweise 40 Teilworteinheiten verwendet, da eine große Menge an Trainingsdaten erforderlich waren, um ein HMM für größere Einheiten in geeigneter Weise zu trainieren. Ein HMM-Zustand entspricht einer akustischen Referenz. Verschiedene Verfahren sind für das Modellieren einer Referenz bekannt einschließlich diskreter oder kontinuierlicher Wahrscheinlichkeitsdichten. Jede Folge mit akustischen Referenzen, die sich auf eine bestimmte Äußerung beziehen, wird auch als akustische Transkription der Äußerung bezeichnet. Es ist offensichtlich, dass beim Einsatz anderer Erkennungsverfahren als den HMM die Details der akustischen Transkription anders aussehen.
Ein System 130 zum Wortebenenabgleich aus 1 gleicht die Beobachtungsvektoren mit allen Folgen von Spracherkennungseinheiten ab und liefert die Wahrscheinlichkeiten einer Übereinstimmung zwischen dem Vektor und einer Folge. Werden Teilworteinheiten verwendet, kann der Abgleich eingeschränkt werden, indem das Lexikon 134 eingesetzt wird, um die mögliche Folge von Teilworteinheiten auf Folgen im Lexikon 134 zu beschränken. Dadurch wird die Ausgabe auf mögliche Wörterfolgen reduziert.
Des Weiteren kann ein System 140 zum Satzebenenabgleich eingesetzt werden, das basierend auf einem Sprachmodell (LM) den Abgleich weiter einschränkt, so dass die untersuchten Pfade diejenigen sind, die Wörterfolgen entsprechen, die laut Festlegung im Sprachmodell korrekte Folgen sind. Das Sprachmodell an sich liefert den zweiten Term P(W) der Gleichung (1). Durch die Kombination der Ergebnisse des akustischen Modells mit denjenigen des Sprachmodells ergibt sich eine Ausgabe des Teilsystems 120 zum Einheitenabgleich, nämlich ein erkannter Satz (RS) 152. Das bei der Mustererkennung eingesetzte Sprachmodell kann syntaktische und/oder semantische Einschränkungen 142 der Sprache und der Erkennungsaufgabe einschließen. Ein auf syntaktischen Einschränkungen basierendes Sprachmodell wird gewöhnlich als Grammatik 144 bezeichnet. Die von dem Sprachmodell verwendete Grammatik 144 liefert die Wahrscheinlichkeit einer Wörterfolge W = w₁w₂w₃ ... w_q, die sich im Prinzip ergibt aus: P(W) = P(w1)P(w2|w1)·P(w3|w1w2) ... P(wq|w1w2w3 ... wq).
Da es in der Praxis nicht machbar ist, die bedingten Wortwahrscheinlichkeiten für alle Wörter und alle Folgenlängen in einer gegebenen Sprache zuverlässig zu schätzen, ist der Einsatz von N-Gramm-Wortmodellen weit verbreitet. Bei einem N-Gramm-Modell wird der Term P(w_j|w₁w₂w₃ ... w_j-1) approximiert durch P(w_j|w_j-N+1 ... w_j-1). In der Praxis werden Bigramme und Trigramme eingesetzt. Bei einem Trigramm wird der Term P(w_j|w₁w₂w₃ ... w_j-1) approximiert durch P(w_j|w_j-2w_j-1).
Die Erfindung betrifft das Buchstabieren in einem Spracherkennungssystem. Das Spracherkennungssystem kann an sich ein sehr eingeschränktes (und einfaches) System sein, dass nur in einem Buchstabiermodus funktioniert, d. h. der Benutzer muss jegliche gesprochene Eingabe in das System buchstabieren. Als Ausgabe eines derartigen Systems können die einzelnen ersten Buchstaben der gesprochenen Buchstabierwörter oder ein aus den einzelnen ersten Buchstaben der gesprochenen Buchstabierwörter gebildetes Wort vorliegen. Die Erkennung kann auf einer Erkennung mit kleinem Wortschatz basieren, wenn die Anzahl der Buchstabierwörter relativ gering ist. Zur Verbesserung der Erkennung kann eine Erkennung von isolierten Wörtern eingesetzt werden.
Normalerweise erfolgt die Erkennung im Buchstabiermodus zusätzlich zu einem Erkennungsmodus, bei dem Vollwörter identifiziert werden. Ein derartiger Modus wird als Wortmodus bezeichnet. Im Wortmodus wird normalerweise ein gesprochenes Wort in der entsprechenden vollständigen Textdarstellung dargestellt. Manchmal werden alternative Textdarstellungen verwendet. Eine gesprochene Zahl (wie „ten") kann bei spielsweise als Zahlenfolge (wie „10") dargestellt werden. In gleicher Weise kann eine gesprochene Eingabe wie „el aye" in Kurzform als „LA" oder in erweiterter Form als „Los Angeles" dargestellt werden. Normalerweise gibt der im Wortmodus arbeitende Erkenner eine Textdarstellung der gesprochenen Eingabe aus, insbesondere dann, wenn das Erkennungssystem zu Diktierzwecken (Sprache/Text) eingesetzt wird. Bei gewissen anderen Anwendungen kann es ausreichen, dass das erkannte Vollwort identifiziert wird, und es kann nicht erforderlich sein, die vollständige Textdarstellung auszugeben. Bei gewissen Dialogsystemen kann es ausreichen, die Identifizierung auszugeben (beispielsweise eine Zahl, die als Index in einer Liste mit möglichen Wörtern dient), wobei dieselbe Identifizierung dazu verwendet wird, den Dialog zu vervollständigen (beispielsweise durch das Abrufen von Informationen aus einer der Identifizierung zugeordneten Datenbank). Bei der Erkennung im Wortmodus wird heutzutage im Allgemeinen eine kontinuierliche Form der Spracherkennung eingesetzt, die je nach Größe des Wortschatzes klein oder groß ist.
Bei einem System mit einer Erkennung sowohl im Wort- als auch im Buchstabiermodus wird der Buchstabiermodus typischerweise in den Fällen eingesetzt, in denen die Vollworterkennung keine genaue Identifizierung der gesprochenen Vollwortes ergab. Ein derartiger Einsatz des Buchstabiermodus erfolgt im Allgemeinen beispielsweise in automatischen Diktiersystemen und in automatischen Dialogsystemen. Der im Buchstabiermodus arbeitende Erkenner setzt eine Folge mit gesprochenen Buchstabierwörtern in eine Folge mit entsprechenden Buchstaben um (einer für jedes Buchstabierwort). Die Buchstabenfolge wird für die Identifizierung desjenigen Wortes eingesetzt, das der Benutzer anfangs sprechen wollte (normalerweise wird die Buchstabenfolge einfach als vollständige Textdarstellung des anfangs gesprochenen Wortes genommen). Bei einem System mit sowohl einem Buchstabiermodus als auch einem Wortmodus beginnt die Erkennung typischerweise standardmäßig im Wortmodus. Bemerkt der Benutzer, dass die Erkennung falsch ist, kann er das System veranlassen, in den Buchstabiermodus umzuschalten. Nach der Beendigung des Buchstabiervorgangs fährt die Erkennung im Wortmodus fort. Die Systeme können auch erkennen, dass die Erkennung falsch ist (beispielsweise bei geringen Trefferraten oder Konfidenzwerten oder langsamem Fortschritt eines Dialogs) und automatisch zum Buchstabiermodus umschalten (wobei sie natürlich auch den Benutzer von dieser Tatsache informieren). In einigen Situationen können der Wortmodus und der Buchstabiermodus parallel aktiv sein. Wenn beispielsweise keine Überschneidung zwischen den aus mehreren Buchstaben bestehenden Buchstabierwörtern und den Wörtern im Diktierda tenbestand existiert, kann das System automatisch einen einzelnen Buchstaben anzeigen, wenn ein Buchstabierwort erkannt wurde, oder sonst ein vollständiges Wort. Im Fall einer Überschneidung kann der Benutzer aufgefordert werden anzugeben, ob zu diesem Zeitpunkt eine Transkription eines einzelnen Buchstabens oder eines Vollwortes gewünscht wird.
3 zeigt ein Blockschaltbild eines Spracherkennungssystems, das in der Lage ist, ein Eingangssignal in einem Buchstabiermodus oder in einem Vollwortmodus zu erkennen. Zu diesem Zweck kann die Erkennungsmaschine 120 zwischen zwei Datensätzen umschalten. Der erste Datensatz 300 umfasst die betreffenden Daten für den Buchstabiermodus, der zweite Satz 310 umfasst diejenigen für den Wortmodus. Die Daten legen die für die Erkennung verwendeten Modelle, wie das Wortmodell (akustische Darstellung, Texttranskription) und das Sprachmodell, fest. Im Besonderen können die Wortmodelle viele Aspekte gemeinsam nutzen.
4 zeigt ein Blockschaltbild, in dem Wortmodelle für den Buchstabiermodus und den Wortmodus gemeinsam das Teilwortmodell 132 und die Wortmodellerstellungseinheit 136 nutzen, die bereits mit Bezug auf 1 beschrieben wurden. Die Wortmodelle für die Modi unterscheiden sich in den entsprechenden Lexika 400 und 410. Bei dem gezeigten Beispiel werden getrennte Sprachmodelle eingesetzt, nämlich ein Sprachmodell 420 für den Buchstabiermodus und ein Sprachmodell 430 für den Wortmodus. Das Sprachmodell 430 kann beispielsweise für kontinuierliche Sprache mit großem Wortschatz optimiert werden, indem beispielsweise Bigramme eingesetzt werden, während das Sprachmodell für den Buchstabiermodus für die isolierte Erkennung mit Hilfe von Unigrammen optimiert werden kann.
Erfindungsgemäß wird für die Erkennung im Buchstabiermodus ein Buchstabierdatenbestand mit für jeden buchstabierbaren Buchstaben mindestens einem Buchstabierreferenzwort eingesetzt, das von einem Benutzer zu sprechen ist. Für mindestens einen buchstabierbaren Buchstaben umfasst der Buchstabierdatenbestand mindestens zwei aus mehreren Buchstaben bestehende Buchstabierreferenzwörter, die demselben einzelnen buchstabierbaren Buchstaben zugeordnet sind. Der Benutzer darf beispielsweise den Buchstaben „a" buchstabieren, indem er die aus mehreren Buchstaben bestehenden Wörter „Alpha" oder „Amsterdam" spricht. Natürlich ist auch ein Buchstabieren möglich, bei dem nur der einzelne Buchstabe „a" gesprochen wird. In gleicher Weise kann der zu buchstabierende Buchstabe „b" den aus mehreren Buchstaben bestehenden Wörtern „Bravo" und „Ber nard" zugeordnet sein, so dass der Benutzer das eine oder das andere Wort sprechen kann. Es können auch mehr als zwei aus mehreren Buchstaben bestehende Wörter demselben Buchstaben zugeordnet ist. Für den Fachkundigen ist es leicht sicherzustellen, dass mehr als ein Wort demselben Buchstaben zugeordnet sind. 5 zeigt ein Beispiel für einen Lexikonaufbau zum Einsatz in dem in 1 gezeigten System. Das Lexikon umfasst eine Tabelle, wobei jeder Tabelleneintrag (jede Zeile) einem sprechbaren Buchstabierwort entspricht. Für jedes Wort enthält das erste Feld 500 das Buchstabierzeichen; das zweite Feld 510 gibt die akustische Transkription des Buchstabierwortes an. In 1 ist die akustische Transkription als eine Folge von Teilworteinheiten gegeben. Als solches kann das Feld 510 eine Folge von Zeigern auf die betroffenen Teilworteinheiten enthalten.
Bei einer erfindungsgemäßen Ausführungsform wird mindestens eines der aus mehreren Buchstaben bestehenden Buchstabierreferenzwörter aus dem Diktierdatenbestand ausgewählt, der für die Erkennung im Wortmodus verwendet wird. Das gemeinsam vorhandene Wort kann von dem Diktierdatenbestand (Lexikon) in den Buchstabierdatenbestand kopiert werden, wo die Texttranskription anders aussehen kann (ein einzelner Buchstabe gegenüber einer vollständigen Transkription). Auf diese Weise brauchen gemeinsam vorhandene Teile (beispielsweise die akustische Transkription) nur einmal festgelegt oder trainiert zu werden. Die gemeinsam vorhandenen Teile können auch gemeinsam genutzt werden, beispielsweise indem beide Kopien auf eine gemeinsam genutzte Transkription (beispielsweise eine Teilwörterfolge) zeigen.
Bei einer Ausführungsform kann der Benutzer auswählen, welches Wort bzw. welche Wörter des Diktierdatenbestandes auch zur Verwendung als Buchstabierwörter zur Verfügung stehen sollten. Zu diesem Zweck umfasst das System 100 Mittel 440 zum Erstellen eines Buchstabieralphabets, die als Reaktion auf eine Benutzereingabe so funktionieren, dass sie mindestens eines der aus mehreren Buchstaben bestehenden Buchstabierreferenzwörter aus dem Diktierdatenbestand auswählen. Die Erstellungsmittel sind in dem beispielhaften System in 4 dargestellt.
Wie in 5 dargestellt ist normalerweise jedes Buchstabierreferenzwort einer aus einem einzelnen Buchstaben bestehenden Textdarstellung des Wortes zugeordnet. Als Alternative kann ein Buchstabierreferenzwort einer entsprechenden aus mehreren Buchstaben bestehenden Textdarstellung zugeordnet sein. Auf diese Weise kann dasselbe Lexikon verwendet werden, wobei möglicherweise lediglich ein Teil des Lexikons zum Buchstabieren genutzt wird. Welche Wörter aus dem Lexikon zum Buchstabieren genutzt werden können, kann einfach angegeben werden. Das Lexikon kann beispielsweise in zwei Teile unterteilt werden, wobei im Buchstabiermodus lediglich ein erster Teil genutzt wird, während für die Erkennung im Wortmodus beide Teile genutzt werden. Als Alternative können einzelne Wörter markiert werden um anzuzeigen, in welchem Modus das Wort erkannt werden kann (beispielsweise mit Hilfe einer Ein-Bit-Anzeige). Infolgedessen können die Wortmodelle in hohem Maße gemeinsam von der Erkennung sowohl im Buchstabiermodus als auch im Wortmodus genutzt werden.
Jedes aus mehreren Buchstaben bestehende Buchstabierreferenzwort beginnt vorzugsweise mit seinem zugeordneten einzelnen Buchstabierzeichen. Dadurch wird es einfach, die Erkennung im Buchstabiermodus mit Hilfe der Erkennung im Wortmodus durchzuführen (möglicherweise mit einem speziellen Buchstabiermoduslexikon mit einer eingeschränkten Anzahl von Wörtern) und in einem Nachbearbeitungsschritt mit Hilfe von Extraktionsmitteln einen ersten Buchstaben aus der Texttranskription des erkannten Wortes zu extrahieren. Der extrahierte Buchstabe wird dann als der einzelne Buchstabe verwendet, der das Buchstabierwort darstellt.
Normalerweise wird ein Spracherkennungssystem auf einem herkömmlichen Computer wie einem Personal Computer oder einer Workstation ausgeführt. In zunehmendem Maße werden auch tragbare Ausrüstungen wie PDAs, Laptops oder sogar Telefone mit Spracherkennung ausgestattet. Die durch die Erfindung beschriebene Funktionalität wird typischerweise mit Hilfe des Prozessors der Einrichtung mit herkömmlicher Hardware wie einer Soundkarte ausgeführt, um ein analoges Mikrofonsignal in einen digitalen Datenstrom umzuwandeln. Falls erforderlich kann auch optimierte Hardware wie digitale Signalprozessoren für die Durchführung der Spracherkennung eingesetzt werden. Der Prozessor, beispielsweise ein PC-Prozessor, ein Mikrocontroller oder ein digitaler Signalprozessor, kann mit einem Programm geladen werden, um die erfindungsgemäßen Schritte durchzuführen. Das Programm wird gewöhnlich von einem Hintergrundspeicher, beispielsweise einer Festplatte oder einem Festspeicher, geladen. Ein Computerprogrammprodukt kann beispielsweise dazu verwendet werden, das Programm anfangs im Hintergrundspeicher zu speichern. Ein derartiges Produkt kann auf einem Speichermedium wie einer CD-ROM gespeichert sein oder über ein Netzwerk wie das Internet verbreitet werden.

Claims

Spracherkennungssystem (100), das Folgendes umfasst: – einen Eingang zum Empfangen eines Sprache darstellenden Signals (SIS) und – eine Erkennungseinheit (120) zum Erkennen des Signals und Darstellen des erkannten Signals als eines einer Vielzahl von Wörtern, wobei die Erkennungseinheit (120) einen im Buchstabiermodus arbeitenden Erkenner umfasst zum Erkennen zumindest eines Teils des Sprachsignals (SIS) durch – Vergleichen des Teils des Signals (SIS) mit einem Buchstabierdatenbestand (400), der eine Darstellung einer Vielzahl von Buchstabierreferenzwörtern umfasst, und – Identifizieren für den Teil des Signals eines einzelnen Buchstabierzeichens, das einem der Buchstabierreferenzwörter mit der höchsten Wahrscheinlichkeit zugeordnet ist, und wobei – die Erkennungseinheit (120) einen im Wortmodus arbeitenden Erkenner umfasst zum Erkennen zumindest eines weiteren Teils des Sprachsignals (SIS) durch – Vergleichen des weiteren Teils des Signals mit einem Diktierdatenbestand, der eine Darstellung einer Vielzahl von Diktierreferenzwörtern umfasst, und – Identifizieren für den weiteren Teil des Signals eines der Diktierreferenzwörter mit der höchsten Wahrscheinlichkeit, wobei der Buchstabierdatenbestand (400) zumindest zwei aus mehreren Buchstaben bestehende Buchstabierreferenzwörter umfasst, die demselben einzelnen Buchstabierzeichen zugeordnet sind, dadurch gekennzeichnet, dass mindestens eines der aus mehreren Buchstaben bestehenden Buchstabierreferenzwörter aus dem Diktierdatenbestand von Mitteln zum Erstellen eines Buchstabieralphabets ausgewählt wird, die so funktionieren, dass sie als Reaktion auf eine Benutzereingabe mindestens eines der aus mehreren Buchstaben bestehenden Buchstabierreferenzwörter aus dem Diktierdatenbestand auswählen.
System nach Anspruch 1, wobei der Satz mit Buchstabierreferenzwörtern im Buchstabierdatenbestand im Wesentlichen dem Satz mit Diktierreferenzwörtern im Diktierdatenbestand entspricht.
System nach Anspruch 1, wobei jedes Buchstabierreferenzwort, das aus dem Diktierdatenbestand ausgewählt wird, eine akustische Darstellung mit einem entsprechenden Diktierreferenzwort im Diktierdatenbestand gemeinsam nutzt.
System nach Anspruch 1, wobei jedes Buchstabierreferenzwort einer aus einem einzelnen Buchstaben bestehenden Textdarstellung des Wortes zugeordnet wird.
System nach Anspruch 1, wobei jedes aus mehreren Buchstaben bestehende Buchstabierreferenzwort mit seinem zugeordneten einzelnen Buchstabierzeichen beginnt.
System nach Anspruch 1, wobei jedes aus mehreren Buchstaben bestehende Buchstabierreferenzwort einer entsprechenden aus mehreren Buchstaben bestehenden Textdarstellung zugeordnet wird.
System nach den Ansprüchen 5 und 6, wobei die Erkennungseinheit einen im Wortmodus arbeitenden Erkenner umfasst zum Erkennen zumindest eines weiteren Teils des Sprachsignals durch – Vergleichen des weiteren Teils des Signals mit einem Diktierdatenbestand, der eine Darstellung einer Vielzahl von Diktierreferenzwörtern umfasst, wobei jedes Diktierreferenzwort einer Textdarstellung des Wortes zugeordnet ist, und – Identifizieren für den weiteren Teil des Signals eines Diktierreferenzwortes mit der höchsten Wahrscheinlichkeit und wobei der im Buchstabiermodus arbeitende Erkenner so funktioniert, dass er den im Wortmodus arbeitenden Erkenner verwendet, um den Teil des Signals in die Texttranskription des Buchstabierreferenzwortes mit der höchsten Wahrscheinlichkeit umzusetzen, und wobei der im Buchstabiermodus arbeitende Erkenner Extraktionsmittel zum Extrahieren eines ersten Buchstabens aus der zugeordneten Texttranskription und zum Verwenden des extrahierten Buchstabens als den einzelnen, den Teil des Signals darstellenden Buchstaben umfasst.
System nach Anspruch 7, wobei der im Buchstabiermodus arbeitende Erkenner so funktioniert, dass er den im Wortmodus arbeitenden Erkenner nutzt, um in einem Erkennungsmodus für isolierte Wörter zu arbeiten.