DE69919842T2

DE69919842T2 - Sprachmodell basierend auf der spracherkennungshistorie

Info

Publication number: DE69919842T2
Application number: DE69919842T
Authority: DE
Inventors: Volker Steinbiss; Dietrich Klakow
Original assignee: Philips Intellectual Property and Standards GmbH; Koninklijke Philips Electronics NV
Current assignee: Philips Intellectual Property and Standards GmbH; Koninklijke Philips NV
Priority date: 1998-12-21
Filing date: 1999-12-16
Publication date: 2005-09-01
Anticipated expiration: 2019-12-17
Also published as: US6823307B1; DE69919842D1; JP2002533771A; EP1055227A1; WO2000038175A1; EP1055227B1

Description

Die Erfindung bezieht sich auf ein Mustererkennungssystem mit kleinem Vokabular zum Erkennen einer Wortfolge, wobei das Vokabular eine Darstellung einer Vielzahl von Bezugswörtern speichert und das System Folgendes umfasst:
Eingabemittel zum Empfangen eines zeitsequentiellen Eingangsmusters, das eine gesprochene oder geschriebene Wortfolge darstellt;
eine Mustererkennungseinheit, die eine Abgleicheinheit auf Wortebene zum Erzeugen einer Vielzahl von Wortfolgen durch statistischen Vergleich des Eingangsmusters mit den Darstellungen der Bezugswörter des Vokabulars umfasst.
Es werden zunehmend Mustererkennungssysteme mit kleinem Vokabular zum Erkennen von Wortfolgen wie Ziffernketten oder Befehlsfolgen eingesetzt. Derartige Systeme werden beispielsweise für die Sprachsteuerung von Kommunikations-, Rechner- oder Audio/Video-Ausrüstungen verwendet. Ein Benutzer kann beispielsweise einen Telefonanruf tätigen, indem er eine Telefonnummer sagt, möglicherweise gefolgt von einem gesprochenen Befehl „Wählen". Auch ein Rechnerbetriebssystem und die verschiedenen Anwendungsprogramme können über Sprachbefehle bedient werden. Außer der Verwendung zum Erkennen von Sprache darstellenden Eingaben deckt die Erfindung auch Zeichen-/Worterkennungssysteme mit kleinem Vokabular wie Handschrifterkennungssysteme ab, wobei das Eingabesignal ein geschriebenes oder gedrucktes Zeichen/Wort darstellt. Das System kann beispielsweise dazu verwendet werden, geschriebene/eingetippte Ziffernketten wie Kontonummern zu erkennen. Ein System mit kleinem Vokabular verfügt typischerweise über ein Vokabular im Bereich von bis zu ein paar hundert Einträgen, die als Wörter bezeichnet werden. In der Tat kann ein derartiges Wort ein einziges Zeichen wie eine Ziffer für die Ziffernkettenerkennung oder einen Befehl darstellen, der tatsächlich aus mehr als einem gesprochenen gedruckten Wort (wie „Datei speichern") zum Erkennen von Befehlsfolgen bestehen kann. Normalerweise erfolgt die Erkennung eines Eingangsmusters, wie abgetastete Sprache oder Handschrift, in zwei Schritten. Im ersten Schritt wird ein Segment des Eingangssignals, das ein Wort darstellt, mit gelerntem Material verglichen. Da beim Sprechen, Schreiben oder Drucken von Wörtern Schwankungen auftreten, ergibt sich aus dem Vergleich im ersten Schritt die Identifizierung mehrerer möglicher Wörter des Vokabulars, die statistisch gesehen mit dem Eingangssignalsegment übereinstimmen. Infolgedessen ergibt sich aus der Erkennung eines Eingangssignals im ersten Schritt die Identifizierung mehrerer Folgen von in Frage kommenden Wörtern. Diese Folgen können mit Hilfe eines Graphen dargestellt werden. Üblicherweise wurde den Folgen eine statistische Mutmaßlichkeit zugeordnet, die wiedergibt, wie genau das Eingangsmuster mit den einzelnen Bezugswörtern übereinstimmt. In einem zweiten Schritt wird eine Folge mit der größten Mutmaßlichkeit basierend auf der Mutmaßlichkeit der Folge (kombiniert mit der bereits ermittelten Mutmaßlichkeit der individuellen Übereinstimmung der Wörter) ausgewählt. Bei Systemen mit großem Vokabular basiert der zweite Schritt im Allgemeinen auf einem statistischen Sprachmodell, das statistische Informationen über das Auftreten eines Wortes oder einer Wortfolge in einem typischen Text liefert. Ein derartiges System wird von L. Rabiner und B.-H. Juang in „Fundamentals of speech recognition", erschienen 1993 in Prentice Hall, auf den Seiten 434 bis 454 beschrieben. Häufig werden so genannte Bigramme eingesetzt, die die Auftretensmutmaßlichkeit eines Wortpaares angeben. Das Sprachmodell wird im Voraus gebildet, indem große Textkörper mit mehreren Millionen Wörtern analysiert werden, die zu erkennende Wortfolgen darstellen. Bei einigen Systemen kann das eingebaute Sprachmodell während der Benutzung des Systems aktualisiert werden.
Bei Systemen mit kleinem Vokabular ist die anfängliche Identifizierung von in Frage kommenden Wörtern einfacher als bei Systemen mit großem Vokabular, da das Vokabular und die Menge gelernten Materials kleiner ist. Beispielsweise kann das Vokabular zum Erkennen einer Ziffernkette wie einer Telefonnummer klein sein, da es nur zehn Ziffern darstellen muss. Der zweite Schritt der Auswahl und Filterung zwischen möglichen Folgen ist jedoch für viele Anwendungen schwierig durchzuführen. Die Anzahl verschiedener Telefonnummern in einem Land oder sogar weltweit ist riesig. Außerdem werden neben ein paar häufig verwendeten Nummern viele Nummern mit der gleichen Häufigkeit verwendet, woraus sich ein geringer Grad der statistischen Unterscheidung ergibt. In ähnlicher Weise kann ein Benutzer für die Steuerung eines Rechners aus einer sehr großen Anzahl von gültigen Befehlsfolgen auswählen, und es existiert kaum a-priori-Wissen über häufig verwendete Folgen. Es ist daher schwierig, ein herkömmliches Sprachmodell mit großem Vokabular für die meisten Systeme mit kleinem Vokabular zu erstellen und zu verwenden. Stattdessen können Systeme mit kleinem Vokabular Finite-Zustand-Modelle verwenden, bei denen ein Zustand einem Wort entspricht, um die möglichen Wortfolgen auf Wechsel des Modells zu beschränken. Typischerweise wird allen Wörtern eine gleiche Mutmaßlichkeit zugeordnet, und es erfolgt keine Unterscheidung bezüglich der Mutmaßlichkeit zwischen gemäß dem Finite-Zustand-Modell zugelassenen Wortfolgen.
In „A Cache-Based Natural Language Model for Speech Recognition" von R. Kuhn, erschienen in IEEE Trans. on Pattern Analysis and Machine Intelligence im Juni 1990, wird die Verwendung von kurzfristigen Auftretenswahrscheinlichkeiten von Wörtern zur Ergänzung eines statistischen Sprachmodells beschrieben. Die Idee von Cachegestützten Sprachmodellen berücksichtigt nicht tatsächlich erkannte Wortfolgen.
Der Erfindung hat zur Aufgabe, ein Mustererkennungssystem mit kleinem Vokabular der dargelegten Art zu schaffen, das besser in der Lage ist, zwischen in Frage kommenden Wortfolgen auszuwählen.
Die Aufgabe wird erfindungsgemäß dadurch gelöst, dass das System, wie es in den unabhängigen Ansprüchen definiert ist, einen Cache zum Speichern einer Vielzahl von zuletzt erkannten Wörtern umfasst, und dass die Spracherkennungseinheit eine Abgleicheinheit auf Wortfolgenebene zum Auswählen einer Wortfolge aus der Vielzahl von Wortfolgen in Abhängigkeit von einem statistischen Sprachmodell umfasst, das eine Wahrscheinlichkeit einer Folge von M Wörtern, M ≥ 2, liefert, wobei die Wahrscheinlichkeit von einer Auftretenshäufigkeit der Folge im Cache abhängt. Durch die Verwendung eines Cache verfolgt das System das jüngste Verhalten des Benutzers. Auch wenn die Gesamtzahl von Wortfolgen wie Telefonnummern riesig sein kann und es schwierig sein kann, statistisch zwischen den Zahlen auf eine allgemeine Weise zu unterscheiden, ist das wohl für einzelne Benutzer nicht der Fall. Beispielsweise ist die Anzahl der von einer Einzelperson verwendeten Telefonnummern im Allgemeinen auf weniger als hundert beschränkt. Außerdem werden einige Nummern wesentlich häufiger verwendet als andere. In ähnlicher Weise kann es bei der Steuerung schwierig sein, allgemein verwendete Befehlsfolgen zu ermitteln. Viele einzelne Benutzer bevorzugen jedoch bestimmte Methoden, um Systeme zu bedienen. Dieses typische Benutzerverhalten kann in dem Cache effektiv „erfasst" werden. Beispielsweise gibt ein Benutzer, der regelmäßig eine Webseite über Lagerbestände besucht, wahrscheinlich regelmäßig die Befehlsfolge „,Explorer öffnen',,Favoriten',,Lagerbestand'" ein. Durch das Speichern dieser Folge von drei Befehlen im Cache kann diese Folge als wahrscheinlicher als die meisten anderen Folgen von drei Befehlen ausgewählt werden. Durch die Verwendung der im Cache für das Sprachmodell gespeicherten Daten wird ein Sprachmodell benutzt, das an den einzelnen Benutzer und das jüngste Verhalten des Benutzers angepasst ist. Vorzugsweise wird eine Wortfolge nur im Cache gespeichert, wenn die Wortfolge „erfolgreich" erkannt wurde, beispielsweise wenn die erkannte Telefonnummer zur Herstellung einer Telefonverbindung führte.
Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 2 definiert ist, wird eine Backing-off-Strategie angewendet, bei der das Sprachmodell eine Wahrscheinlichkeit ungleich Null sowohl für Cache-Treffer als auch für Cache-Fehltreffer liefert. Auf diese Weise haben Wortfolgen, die zu einem Cache-Fehltreffer führen, noch eine angemessene Chance ausgewählt und nicht von einer Wortfolge unterdrückt zu werden, die im ersten Erkennungsschritt als weniger wahrscheinlich (beispielsweise phonetisch weniger ähnlich) identifiziert wurde, aber im Cache vorliegt (und infolgedessen eine erhöhte Mutmaßlichkeit erhält, indem das Sprachmodell verwendet wird). Dadurch wird auch die Verwendung eines relativ kleinen Cache möglich.
Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 3 definiert ist, wird ein normierter Wert für Cache-Fehltreffer verwendet. Außerdem konvergiert die Mutmaßlichkeit von Cache-Treffern in dem Maße auf den normierten Wert, wie die Auftretenshäufigkeit im Cache abnimmt. Dadurch wird ein sanfter Übergang in der Mutmaßlichkeit zwischen Cache-Treffern und Cache-Fehltreffern geschaffen.
Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 4 definiert wird, wird ein Abzugsparameter verwendet, um die Auswirkung von Cache-Treffern auf die Mutmaßlichkeit zu reduzieren und die Wahrscheinlichkeiten somit noch weiter zu glätten.
Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 5 definiert ist, wird ein einfaches Sprachmodell verwendet, um zwischen Ketten (oder Teilketten) auszuwählen, indem die gesamte (Teil-)Kette mit einzelnen Wörtern im Cache verglichen wird. Die relative Anzahl von Cache-Treffern liefert kombiniert mit Glättungsoperationen die Wahrscheinlichkeit der (Teil-)Kette.
Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 6 definiert ist, wird ein M-Gram-Sprachmodell verwendet, das den Vergleich von lediglich M Wörtern (oder weniger als M, wenn die Folge noch kürzer ist) anstelle der gesamten Folge mit dem Cache ermöglicht. Vorteilhafterweise wird im Fall eines Cache-Fehltreffers für die M-Wortfolge zu einer kürzeren Folge (von M-1 Wörtern) zurückgegangen ("backing-off). Insbesondere für Telefonnummern ermöglicht dies eine bessere Erkennung von lokalen Nummern, die mit derselben Ziffernfolge beginnen, auch wenn sich die spezielle Nummer noch nicht im Cache befindet.
Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 7 definiert ist, wird ein spezielles Symbol verwendet (und vorzugsweise auch im Cache für jede erkannte Folge gespeichert), um Folgen voneinander zu trennen. Wenn beispielsweise ein spezielles Symbol für den Anfang einer Folge verwendet wird, führt eine neue Folge (mit diesem speziellen Symbol und einigen folgenden Wörtern) automatisch nur dann zu Treffern, wenn die Wörter tatsächlich an derselben Stelle in der Folge auftreten.
Vorzugsweise wird mindestens ein Trigram verwendet, das eine gute Unterscheidung der möglichen Wortfolgen erlaubt. Vorteilhafterweise wird ein Viergram oder Fünfgram verwendet, das ein gutes Gleichgewicht zwischen genauer Auswahl und Richtigkeit des Sprachmodells schafft und einen relativen kleinen Cache von beispielsweise 100 Einträgen nutzt.
Diese und andere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 ein Blockschaltbild eines erfindungsgemäßen Mustererkennungssystems;
2 Wortmodelle, die für die akustische Erkennung verwendet werden;
3 die Ergebnisse beim Einsatz eines Trigram-Cachemodells;
4 die Ergebnisse beim Einsatz eines Viergram-Cachemodells und
5 einen Vergleich der Ergebnisse eines M-Gram-Cachemodells mit einem Cachemodell für vollständige Folgen.
1 zeigt ein Blockschaltbild eines erfindungsgemäßen Mustererkennungssystems 100 mit kleinem Vokabular zum Erkennen von Wortfolgen, wie Ziffernketten oder Befehlsfolgen. Das erfindungsgemäße Erkennungsverfahren kann sowohl in einem Spracherkennungssystem als auch in einem System zum Erkennen geschriebener oder eingetippter Wörter verwendet werden. Als Beispiel zeigt 1 ein kontinuierliches Spracherkennungssystem 100. Das erfindungsgemäße Verfahren kann genauso gut für diskrete Spracherkennungssysteme verwendet werden. Systeme mit ähnlichem Aufbau wie in 1 gezeigt sind für die Erkennung von Handschrift oder gedrucktem Text bekannt. Das Spracherkennungssystem 100 aus 1 umfasst ein Spektralanalyse-Teilsystem 110 und ein Teilsystem zum Einheitenabgleich 120. In dem Spektralanalyse-Teilsystem 110 wird das Spracheingangssignal (engl. speech input signal, SIS) spektral bzw. zeitlich analysiert, um einen repräsentativen Merkmalsvektor (Beobachtungsvektor, engl. observation vector, OV) zu berechnen. Typischerweise wird das Sprachsignal digitalisiert (beispielsweise mit einer Rate von 6,67 kHz abgetastet) und vorverarbeitet, indem beispielsweise eine Vorverzenung angewendet wird. Aufeinander folgende Abtastwerte werden gruppenweise (blockweise) zu Frames zusammengefasst, die beispielsweise 32 ms des Sprachsignals entsprechen. Aufeinander folgende Frames überlappen sich teilweise, beispielsweise um 16 ms. Häufig wird das LPC-Spektralanalyseverfahren (engl. Linear Predictive Coding) angewendet, um für jeden Frame einen repräsentativen Merkmalsvektor (Beobachtungsvektor) zu berechnen. Der Merkmalsvektor kann zum Beispiel 24, 32 oder 63 Komponenten aufweisen. Viele Spracherkennungssysteme setzen ein Wahrscheinlichkeitsmodell der Spracherzeugung voraus, wobei eine spezielle Wortfolge W = w₁w₂w₃...w_q eine Folge von akustischen Beobachtungsvektoren Y = y₁y₂y₃...y_T erzeugt. Der Erkennungsfehler kann statistisch minimiert werden, indem die Wortfolge w₁w₂w₃...w_q bestimmt wird, bei der die Wahrscheinlichkeit am größten ist, dass sie die beobachtete Folge von Beobachtungsvektoren y₁y₂y₃...y_T (über der Zeit t = 1,..., T) verursacht hat, wobei die Beobachtungsvektoren das Ergebnis des Spektralanalyse-Teilsystems 110 sind. Hieraus ergibt sich die Bestimmung der maximalen a-posteriori-Wahrscheinlichkeit:
max P(W|Y) für alle möglichen Wortfolgen W
Durch die Anwendung des Bayesschen Satzes zu bedingten Wahrscheinlichkeiten ergibt sich P(W|Y) aus: P(W|Y) = P(Y|W).P(W)/P(Y)
Da P(Y) unabhängig von W ist, ergibt sich die Wortfolge mit der höchsten Wahrscheinlichkeit aus: arg max P(Y|W).P(W) für alle möglichen Wortfolgen W (1)
In dem Teilsystem zum Einheitenabgleich 120 liefert ein akustisches Modell den ersten Term der Gleichung (1). Das akustische Modell wird dazu verwendet, die Wahrscheinlichkeit P(Y|W) einer Folge von Beobachtungsvektoren Y für eine gegebene Wortkette W zu schätzen. Dies kann von dem Teilsystem zum Einheitenabgleich 120 durchgeführt werden, indem die Beobachtungsvektoren mit einem Verzeichnis von Spracherkennungseinheiten abgeglichen werden. Eine Spracherkennungseinheit wird durch eine Folge von akustischen Bezugswerten dargestellt. Es können verschiedene Formen von Spracherkennungseinheiten verwendet werden. Beispielsweise kann eine ganzes Wort oder sogar eine Gruppe von Worten, wie ein Befehl, der aus mehr als einem Wort besteht, durch eine einzelne Spracherkennungseinheit dargestellt werden. Ein Wortmodell (WM) liefert für jedes Wort eines gegebenen Vokabulars eine Transkription in eine Folge von akustischen Bezugswerten. Bei den meisten Systemen mit kleinem Vokabular wird ein ganzes Wort durch eine Spracherkennungseinheit dargestellt, wobei dann eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit besteht. Bei anderen Systemen mit kleinem Vokabular, die beispielsweise für das Erkennen einer relativ großen Anzahl (beispielsweise mehrere hundert) von Befehlen eingesetzt werden, können für die Spracherkennungseinheit Teilworteinheiten auf linguistischer Basis, wie Einzellaute, Doppellaute oder Silben, sowie abgeleitete Einheiten, wie Phenene und Phenone verwendet werden. Bei der letztgenannten Kategorie von Systemen können ein Wortmodell durch ein Lexikon 134, das die Folge von Teilworteinheiten beschreibt, die sich auf ein Wort des Vokabulars beziehen, und die Teilwortmodelle 132 vorgegeben werden, die Folgen von akustischen Bezugswerten der betreffenden Spracherkennungseinheit beschreiben. Eine Wortmodell-Zusammensetzungseinheit 136 setzt das Wortmodell basierend auf dem Teilwortmodell 132 und dem Lexikon 134 zusammen.
In 2A ist ein Wortmodell 200 für ein System dargestellt, das auf Ganzwort-Spracherkennungseinheiten basiert, wobei die Spracherkennungseinheit des gezeigten Wortes unter Verwendung einer Folge von zehn akustischen Bezugswerten (201 bis 210) modelliert wird. In 2B ist ein Wortmodell 220 für ein System dargestellt, das auf Teilworteinheiten basiert, wobei das gezeigte Wort durch eine Folge von drei Teilwortmodellen (250, 260 und 270) jeweils mit einer Folge von vier akustischen Bezugswerten (251, 252, 253, 254; 261 bis 264; 271 bis 274) modelliert wird. Die in 2 dargestellten Wortmodelle basieren auf Hidden-Markov-Modellen (HMM), die häufig verwendet werden, um Sprach- und Handschriftsignale stochastisch nachzubilden. Mit Hilfe dieses Modells ist jede Erkennungseinheit (Wortmodell oder Teilwortmodell) typischerweise durch ein HMM gekennzeichnet, dessen Parameter aus einem Trainingsdatensatz geschätzt werden. Im Allgemeinen wird ein begrenzter Satz von beispielsweise 40 Teilworteinheiten verwendet, da eine große Anzahl von Trainingsdaten erforderlich wäre, um ein HMM für größere Einheiten in geeigneter Weise zu trainieren. Ein HMM-Zustand entspricht einem akustischen Bezugswert (zur Spracherkennung) oder einem allografischen Bezugswert (zur Handschrifterkennung). Es sind zahlreiche Verfahren zum Modellieren eines Bezugswertes bekannt, einschließlich diskreter oder kontinuierlicher Wahrscheinlichkeitsdichten.
Ein Abgleichsystem auf Wortebene 130, wie es in 1 dargestellt ist, gleicht die Beobachtungsvektoren mit allen Folgen von Spracherkennungseinheiten ab und liefert die Mutmaßlichkeiten einer Übereinstimmung zwischen dem Vektor und einer Folge. Werden Teilworteinheiten verwendet, wird der Abgleich eingeschränkt, indem das Lexikon 134 benutzt wird, um die mögliche Folge von Teilworteinheiten auf Folgen im Lexikon 134 zu beschränken. Dadurch wird das Ergebnis auf mögliche Folgen von Wörtern reduziert. Erfindungsgemäß nutzt ein Abgleichsystem auf Folgenebene 140 ein Sprachmodell 150 (engl. language model, LM), um den Abgleich weiter einzuschränken, so dass die untersuchten Pfade diejenigen sind, die Wortfolgen entsprechen, welche wahrscheinliche Folgen sind, wie sie vom Sprachmodell definiert sind. Auf diese Weise ist das Ergebnis am Ausgang des Teilsystems zum Einheitenabgleich 120 eine erkannte Wortfolge (recognized word sequence, RS), wie eine Ziffernkette (beispielsweise eine Telefonnummer) oder ein aus mehreren Wörtern bestehender Befehl. In dem erfindungsgemäßen System, das auf Erkennung mit kleinem Vokabular mit vielen möglichen Wortfolgen abzielt, wird im Prinzip keine Wortfolge vom Sprachmodell ausgeschlossen. Da für einige Folgen keine zuverlässigen statistischen Daten zur Verfügung stehen (weder aus allgemeinen Quellen noch aus der speziellen Nutzung durch den Benutzer), werden diese Folgen einfach als weniger wahrscheinlich (aber noch möglich) angesehen. Im Gegensatz zu Systemen mit großem Vokabular ist die Erkennung nicht auf Wortfolgen beschränkt, die das Sprachmodell explizit kennt.
Erfindungsgemäß ist das Sprachmodell 150 ein statistisches Sprachmodell, das eine Wahrscheinlichkeit einer Folge von M Wörtern, M ≥ 2, liefert. Die Wahrscheinlichkeit einer Wortfolge hängt von einer Auftretenshäufigkeit der Folge im Cache ab. Durch die Verwendung eines Cache wird das System an einen speziellen Benutzer angepasst und verfolgt gleichzeitig das jüngste Verhalten des Benutzers. Die Spracherkennungseinheit 100 speichert die erkannte Wortfolge in dem Cache. Vorzugsweise wird eine Wortfolge nur im Cache gespeichert, wenn die Wortfolge „erfolgreich" erkannt wurde, beispielsweise wenn die erkannte Telefonnummer zur Herstellung einer Telefonverbindung führte. In den meisten Systemen mit kleinem Vokabular muss die Kapazität des Cache aus Kostengründen beschränkt werden (beispielsweise wenn er in einem Mobiltelefon verwendet wird). In derartigen Systemen wird der Cache vorzugsweise gemäß einem FIFO-Prinzip (engl. first-in, first-out)) betrieben. Ist der Cache einmal vollständig belegt, wird jedes Mal, wenn das System eine neu erkannte Wortfolge in den Cache lädt, die Wortfolge (oder mehrere Wortfolgen, wenn die neue Wortfolge länger ist), die am längsten im Cache gespeichert war, entfernt. Es ist vorteilhaft, wenn ein paar Speicherplätze im Cache für die permanente Nutzung reserviert werden. An derartigen Plätzen kann der Benutzer wichtige Wortfolgen speichern, die nicht häufig verwendet werden. Zum Beispiel könnte der Benutzer die Notfallrufnummer an einem derartigen Platz speichern. Im Besonderen für die sprachgesteuerte Wahl von Telefonnummern sollte es das System vorzugsweise auch ermöglichen, dass häufig verwendete Wortfolgen (beispielsweise Telefonnummern) mittels eines leichter zu merkenden oder kürzeren Wortes (oder Wortfolge) gewählt werden. Die Telefonnummern von Familienangehörigen und Freunden können beispielsweise zusammen mit einem Sprachbefehl, zum Beispiel mit einem Name des Familienangehörigen oder Freundes, gespeichert werden. Es ist vorzugsweise möglich, mehrere alternative Sprachbefehle zusammen mit einer Telefonnummer (oder allgemeiner einer Wortfolge) zu speichern. Es kann bei wichtigen, aber nicht häufig verwendeten Wortfolgen schwierig sein, sich an den gespeicherten zugehörigen Sprachbefehl zu erinnern. Es kann beispielsweise schwierig sein, sich daran zu erinnern, ob die Notfall-Telefonnummer zusammen mit dem Sprachbefehl „Notfall", „Polizei", „Feuerwehr", „Krankenwagen" oder „Krankenhaus" oder noch einem anderen Namen gespeichert wurde. Daher ist es vorteilhaft, die nicht häufig verwendete Wortfolge permanent im Cache zu speichern, so dass die Wortfolge vollständig gesprochen werden kann, was im Fall der Notfallnummer im Allgemeinen darauf hinausläuft, eine relativ kurze, wohlbekannte Telefonnummer zu sprechen.
Im Folgenden werden zwei bevorzugte Sprachmodelle dargelegt. Der Fachkundige wird in der Lage sein, alternative Sprachmodelle zu entwickeln, indem er die gegebenen Modelle variiert. Die gegebenen Modelle haben die folgenden Konzepte gemeinsam. Es ist zu beachten, dass alternative Modelle die gleichen Konzepte verwenden können, aber nicht unbedingt müssen.

• Die Wahrscheinlichkeit einer Wortfolge hängt davon ab, ob die Wortfolge im Cache auftritt oder nicht. In beiden Fällen wird eine Wahrscheinlichkeit ungleich Null verwendet. Auf diese Weise kann im Prinzip jedes Wort im Vokabular erkannt werden, selbst wenn es nicht im Cache vorliegt.
• Um einen sanften Übergang zwischen der Wahrscheinlichkeit der Wortfolge für den Fall, dass sich die Folge im Cache befindet, und Wahrscheinlichkeit der Wortfolge für den Fall, dass sich die Folge nicht im Cache befindet, sicherzustellen, ergibt sich die Wahrscheinlichkeit einer Wortfolge aus: – einem normierten Wert ungleich Null, wenn die Wortfolge nicht im Cache auftritt; und sonst – einer Summierung des normierten Wertes und eines sich auf die Häufigkeit beziehenden Terms, der von der Auftretenshäufigkeit der Wortfolge im Cache abhängt. Der Term, der sich auf die Häufigkeit bezieht, liefert vorzugsweise einen Beitrag zur Wahrscheinlichkeit, die bei Abnahme der Auftretenshäufigkeit auf Null gegen Null konvergiert und zunimmt, wenn die Auftretenshäufigkeit zunimmt (wahlweise, beschränkt auf eine maximale Wahrscheinlichkeit).
• Damit sichergestellt wird, dass die Wahrscheinlichkeit von Wortfolgen im Cache nicht überbewertet wird, wird in den häufigkeitsbezogenen Term ein Abzugsparameter D integriert, der von der Auftretenshäufigkeit der Wortfolge im Cache oder von der Wahrscheinlichkeit subtrahiert wird.

Das Sprachmodell 150 liefert die Wahrscheinlichkeit einer Wortfolge W = w₁w₂w₃...w_q, die sich im Prinzip ergibt aus: P(W) = P(w1)P(w2|w1).P(w3|w1w2)...P(wq|w1w2w3...wq).
Der Term P(W), der den zweiten Term der Gleichung (1) bestimmt, wird durch die beiden folgenden Modelle angenähert. Beide Modelle sind ausgerichtet auf die Erkennung von Ziffernketten (d. h. ein Wort stellt eine Ziffer dar), können jedoch genauso gut für andere Formen der Erkennung mit kleinem Vokabular von Wortfolgen eingesetzt werden.
Cache-Modell für vollständige Folgen
Bei diesem Modell ist der Cache so ausgelegt, dass er die letzten L erkannten Wortfolgen speichert. Die Wortfolgen im Cache können identifiziert werden. Jede Wortfolge ist begrenzt auf eine vorher festgelegte Folgenlänge MAX. Für die meisten Telefonnummern kann eine praktische Begrenzung auf 14 Ziffern in einer Folge verwendet werden. Der Cache kann einfach aufgebaut sein mit L Speicherplätzen, wobei jeder eine vollständige Folge (von bis zu MAX Wörtern/Ziffern) speichern kann. Da in vielen Situationen die Folge kürzer als die maximal zulässige Länge ist, können auch andere Cacheanordnungen verwendet werden. Es kann beispielsweise eine Tabelle mit L Einträgen verwendet werden, die als Index (Zeiger) zu einer größeren Tabelle dienen, in der die tatsäch lichen Folgen gespeichert sind. Wird eine durchschnittliche Folgenlänge angenommen, die wesentlich kürzer als MAX ist, können auf diese Weise mit der gleichen Speicherkapazität mehr Einträge gespeichert werden (L kann größer sein).
Das Sprachmodell bestimmt die bedingte Wahrscheinlichkeit einer Folge s von Wörtern bis zu einer Länge MAX als:
In dieser Formel ist n(s) die Auftretenshäufigkeit der Wortfolge s im Cache. D ist der Abzugsparameter. γ ist der normierte Wert, der auf herkömmliche Weise ermittelt werden kann, indem die Wahrscheinlichkeiten der Wortfolgen auf eine gesamte gesammelte Wahrscheinlichkeit von 1 normiert wird.
Das Sprachmodell kann verwendet werden, um die Erkennung der vollständigen Folge zu unterstützen. Wenn nur ein Teil der Folge mit Hilfe des akustischen Modells verarbeitet wurde, können alternativ die bis dahin identifizierten möglichen Folgen mit Hilfe desselben Modells verarbeitet werden, wobei s dann die bis dahin identifizierte Teilkette darstellt.
M-Gram-Cache-Modell
Bei diesem Modell basiert die Wahrscheinlichkeit einer Folge auf den letzten M Wörtern der Folge. Das Sprachmodell bestimmt die bedingte Wahrscheinlichkeit eines Wortes w_i, wenn eine vorhergehende Folge von Wörtern w_i–1 ... w_i–M+1 gegeben ist als:
wobei n(w_i ... w_i–M+1) die Auftretenshäufigkeit der Wortfolge w_i ... w_i–M+1 im Cache ist, γ(w_i–1 ... w_i–M+1) P (w_i|w_i–i ... w_i–M+2) der normierte Wert ist und D_M der Abzugsparameter ist.
Zur Erkennung von Telefonnummern wurde ein Cache zum Speichern von 500 Ziffern als geeignet befunden. Abhängig von dem Wert von M kann der Abzugsparameter D_M so gewählt werden, dass beste Ergebnisse erzielt werden. Gute Ergebnisse wurden erzielt mit D₂ = 0,96, D₃ = 0,97 und D₄ = 0,27.
Im Prinzip können alle zuletzt erkannten Wortfolgen einfach im Cache verkettet werden. Da nur M Wörter der Folgen verwendet werden, ist kein vollständiger Vergleich zwischen einer von dem akustischen Modell erzeugten Folge und den im Cache gespeicherten Folgen erforderlich. Der Cache als solcher muss keinen speziellen Aufbau haben, der eine leichte Identifizierung des Anfangs (und/oder Endes) der Folgen ermöglicht. Durch einfache Verkettung der Folgen im Cache können viele Folgen gespeichert werden, wenn häufig kurze Folgen verwendet werden. Indem es ermöglicht wird, dass die Teilfolge von M-Wörtern im Prinzip an beliebiger Stelle in den gespeicherten Folgen auftritt, insbesondere bei Befehls- und Steuerungsanwendungen, bei denen gewisse Teilfolgen von Wörtern in mehreren längeren Folgen auftreten, können die Teilfolgen besser erkannt werden.
Bei einem bevorzugten Ausführungsbeispiel ist der Cache so aufgebaut, dass ein separates Trennsymbol für eindeutige Wörter verwendet wird, das ein Ende oder einen Anfang einer Wortfolge darstellt, und die Wortfolgen einschließlich des Worttrennsymbols gespeichert werden. Auf diese Weise können Wortfolgen leicht im Cache identifiziert und gleichzeitig die Folgen immer noch verkettet werden (und somit nicht viel Platz verschwendet werden, mit Ausnahme des Worttrennsymbols). Dieses Verfahren kann auch für das Cache-Modell für vollständige Folgen eingesetzt werden. Das Worttrennsymbol identifiziert vorzugsweise den Anfang einer Wortfolge. Insbesondere in Kombination mit dem M-Gram-Cache-Modell kann das Worttrennsymbol als Teil der Folge angesehen werden. Auf diese Weise werden M-Teilfolgen nur dann als im Cache vorhanden identifiziert, wenn die Position der eingegebenen Teilfolge in der eingegebenen Gesamtfolge der Position der Teilfolge in der gespeicherten Folge entspricht. Dies ist besonders nützlich für die Erkennung von Telefonnummern, bei denen es gewöhnlich wichtig ist, dass die tatsächlichen M-Ziffern an derselben Stelle auftreten.
Das M-Gram-Cache-Modell wurde für die Erkennung von Telefonnummern, die von drei Personen verwendet werden, getestet. Die Benutzer LDC und LDC1 führen häufig Ferngespräche. WCC ruft hauptsächlich dreistellige Nummern innerhalb des Unternehmens an. Die Länge der Telefonnummern (einschließlich eines Telefonnummer-Trennsymbols) ist in der folgenden Tabelle wiedergegeben:
3 zeigt die für einen Trigam-Cache (M=3) erzielten Ergebnisse für die drei Personen und für verschiedene Cachegößen (in Ziffern). Es ist ersichtlich, dass für Cachegößen von 100 oder 200 Ziffern bereits eine erhebliche Reduzierung der Perplexität auftritt. Bei einem System ohne einen Cache beträgt die Perplexität (die ausdrückt, wie viele Ziffern wahrscheinlich folgen) elf in dem Fall, dass 10 Ziffern und ein Trennsymbol verwendet werden. Bei dem Durchschnitt der drei Personen wird die Perplexität auf ca. 5,8 für einen 200-Ziffern-Cache und auf 5,7 für einen 500-Ziffern-Cache reduziert.
4 zeigt die für einen Viergam-Cache (M=4) erzielten Ergebnisse. Aus den beiden 3 und 4 ist klar ersichtlich, dass alle drei Personen von der Verwendung des Cache profitieren. Das Ausmaß ist jedoch unterschiedlich. Bei M = 3 und 4 profitiert insbesondere die Person WCC, die hauptsächlich kurze Nummern verwendet. Da die meisten von WCC verwendeten Nummern sehr kurz sind, liefert das Viergam-Modell für WCC kaum Verbesserungen gegenüber dem Trigam-Modell, während für LDC und LDC1 noch eine Verbesserung zu beobachten ist.
5 zeigt die Ergebnisse für alle drei Personen zusammengefasst für verschiedene Werte von M und für verschiedene Werte des Cache. Dies bestätigt, dass im Allgemeinen die Verwendung eines Viergam-Modells eine wesentliche Verbesserung gegenüber der Verwendung eines Trigam-Modells bietet. Mit einem Fünfgram-Modell konnte während der Tests jedoch das gleiche Ergebnis wie mit dem Viergam-Modell erzielt werden. 5 zeigt außerdem das Ergebnis der Verwendung des Cache-Modells für vollständige Folgen, das in der Figur mit CNC gekennzeichnet ist. Dieses Modell ergab eine noch geringere Perplexität. Bei bestimmten Anwendungen kann es jedoch einfacher sein, die M-Gram-Modelle zu verwenden, da diese Modelle die freie Wahl der Folgenlänge ermöglichen.
Text in den Figuren

Figur 3–5

Perplexity Perplexität

Average Durchschnitt

Length of cache Cachelänge

Claims

Mustererkennungssystem zum Erkennen einer Wortfolge, das Folgendes umfasst: ein Vokabular, das eine Darstellung einer Vielzahl von Bezugswörtern speichert; Eingabemittel zum Empfangen eines zeitsequentiellen Eingangsmusters, das eine gesprochene oder geschriebene Wortfolge (SIS) darstellt; eine Mustererkennungseinheit, die eine Abgleicheinheit auf Wortebene (130) zum Erzeugen einer Vielzahl von Wortfolgen durch statistischen Vergleich des Eingangsmusters mit den Darstellungen der Bezugswörter des Vokabulars umfasst; dadurch gekennzeichnet, dass das System einen Cache zum Speichern einer Vielzahl von zuletzt erkannten Wörtern umfasst; und dass die Spracherkennungseinheit eine Abgleicheinheit auf Folgenebene (140) zum Auswählen einer Wortfolge aus der Vielzahl von Wortfolgen in Abhängigkeit von einem statistischen Sprachmodell (150) umfasst, das eine Wahrscheinlichkeit einer Folge von M Wörtern, M ≥ 2, liefert, wobei die Wahrscheinlichkeit von einer Auftretenshäufigkeit der Folge im Cache abhängt.
System nach Anspruch 1, wobei die Wahrscheinlichkeit ferner davon abhängt, ob die Wortfolge im Cache auftritt oder nicht, wobei in beiden Fällen die Wahrscheinlichkeit ungleich Null ist.
System nach Anspruch 2, wobei sich die Wahrscheinlichkeit einer Wortfolge ergibt aus: – einem normierten Wert ungleich Null, wenn die Wortfolge nicht im Cache auftritt; und sonst – einer Summierung des normierten Wertes und eines sich auf die Häufigkeit beziehenden Terms, der von der Auftretenshäufigkeit der Wortfolge im Cache abhängt.
System nach Anspruch 3, wobei der sich auf die Häufigkeit beziehende Term einen Abzugsparameter D beinhaltet, der von der Auftretenshäufigkeit der Wortfolge im Cache subtrahiert wird.
System nach Anspruch 3, wobei der Cache so ausgelegt ist, dass er die letzten L erkannten Wortfolgen als identifizierbare Wortfolgen speichert, wobei jede Wortfolge auf eine vorher festgelegte Folgenlänge beschränkt ist und das Sprachmodell die bedingte Wahrscheinlichkeit einer Folge s von Wörtern bis zu der vorher festgelegten Folgenlänge definiert als:
wobei n(s) die Auftretenshäufigkeit der Wortfolge s im Cache ist und γ der normierte Wert ist.
System nach Anspruch 3, wobei das Sprachmodell die bedingte Wahrscheinlichkeit eines Wortes w_i bestimmt, wenn eine vorhergehende Folge von Wörtern w_i–1 ... w_i–M+1 gegeben ist als:
wobei n(w_i... w_i–M+1) die Auftretenshäufigkeit der Wortfolge w_i... w_i–M+1 im Cache ist und γ(w_i–1 ... w_i–M+1)P(w_i|w_i–1 ... w_i–M+2) der normierte Wert ist.
System nach Anspruch 6, wobei ein Ende oder ein Anfang einer Wortfolge durch ein separates Trennsymbol für eindeutige Wörter dargestellt wird, wobei der Cache so ausgelegt ist, dass er zuletzt erkannte Wortfolgen einschließlich des Worttrennsymbols speichert.
System nach Anspruch 1, wobei M mindestens drei beträgt.
System nach Anspruch 1, wobei M vier oder fünf beträgt.
System nach Anspruch 1, wobei ein Wort eine Ziffer oder einen Befehl darstellt.