DE69923379T2

DE69923379T2 - Nicht-interaktive Registrierung zur Spracherkennung

Info

Publication number: DE69923379T2
Application number: DE69923379T
Authority: DE
Inventors: Stefan Sherwood; David Wilsberg Parmenter; Joel Gould; Toffee A. Albina; Alan Gold
Original assignee: L&H Holdings USA Inc
Current assignee: L&H Holdings USA Inc
Priority date: 1998-06-15
Filing date: 1999-06-15
Publication date: 2006-02-16
Anticipated expiration: 2019-06-16
Also published as: US6424943B1; JP4510953B2; EP0965978A1; EP0965978B1; EP0965978B9; JP2000035795A; DE69923379D1; US6163768A

Description

Die Erfindung betrifft die Registrierung bei einer Spracherkennung.
Ein Spracherkennungssystem analysiert die Sprache eines Benutzers, um festzustellen, was der Benutzer gesagt hat. Die meisten Spracherkennungssysteme beruhen auf Frames. In einem auf Frames beruhenden System unterteilt ein Prozessor ein Signal, das die zu erkennende Sprache darstellt, in eine Reihe digitaler Frames, von denen jeder einem kleinen Zeitinkrement der Sprache entspricht.
Ein kontinuierliches Spracherkennungssystem kann gesprochene Worte oder Sätze unabhängig davon erkennen, ob der Benutzer dazwischen eine Pause einlegt. Im Gegensatz dazu erkennt ein diskretes Spracherkennungssystem einzelne Worte oder Sätze und verlangt vom Benutzer, nach jedem diskreten Wort oder Satz eine kurze Pause einzulegen. Kontinuierliche Spracherkennungssysteme weisen im Vergleich zu diskreten Erkennungssystemen infolge der Komplexität bei der Erkennung kontinuierlicher Sprache typischerweise eine höhere Erkennungsfehlerhäufigkeit auf.
Im Allgemeinen analysiert der Prozessor eines kontinuierlichen Spracherkennungssystems gesprochene "Äußerungen". Eine Äußerung umfasst eine variable Anzahl von Frames und kann einem Zeitraum des Sprechens, dem sich eine Pause von mindestens einer vorbestimmten Dauer anschließt, entsprechen.
Der Prozessor stellt fest, was der Benutzer gesagt hat, indem dieser akustische Modelle findet die am Besten zum digitalen Frame einer Äußerung passen, und Text identifiziert, der diesen akustischen Modellen entspricht. Ein akustisches Modell kann mit einem Wort, einem Satz oder Befehl aus einem Vokabular korrespondieren. Ein akustisches Modell kann auch einen Ton oder ein Phonem repräsentieren, der/das einem Abschnitt eines Wortes entspricht. Zusammen repräsentieren die Phonembestandteile für ein Wort die phonetische Schreibweise des Wortes. Akustische Modelle können auch Stille und verschiedene Arten von Umgebungsgeräuschen repräsentieren.
Die Worte oder Sätze, die den am Besten passenden akustischen Modellen entsprechen, werden als Erkennungskandidaten bezeichnet. Der Prozessor kann einen einzelnen Erkennungskandidaten (d.h. eine einzelne Folge von Worten oder Sätzen) für eine Äußerung erzeugen, oder kann eine Liste von Erkennungskandidaten erzeugen.
Ein akustisches Modell enthält im allgemeinen Daten, die beschreiben, wie eine entsprechende Spracheinheit (z.B. ein Phonem) durch eine Vielzahl von Sprechern gesprochen wird. Um die Genauigkeit zu erhöhen, mit der ein akustisches Modell eine bestimmte Sprache eines Benutzers repräsentiert, und dadurch das Vorkommen von Erkennungsfehlern zu senken, kann das Spracherkennungssystem die akustischen Modelle so modifizieren, dass sie der besonderen Sprache eines Benutzers entsprechen. Diese Modifikation kann auf Mustern der Sprache eines Benutzers beruhen, die während einer anfänglichen Registrierungssitzung und während des Gebrauchs des Systems erhalten werden.
Registrierungssitzungen für frühere Spracherkennungssysteme erforderten typischerweise, dass ein Benutzer aus einer Liste von Worten liest oder spezifische Worte als Reaktion auf Aufforderungen liest. Zum Beispiel enthielt DragonDictate^® für Windows^®, das von Dragon Systems, Inc. of Newton, Massachusetts, erhältlich ist, eine Schnellregistrierungssitzung, die einen neuen Benutzer aufforderte, jedes Wort eines kleinen Satzes von Worten zu sprechen, und dann die akustischen Modelle beruhend auf der Sprache eines Benutzers anpasste.
Es sind auch andere Registrierungsvorgehensweisen verwendet worden. Zum Beispiel umfasst NaturallySpeaking^®, das ebenfalls von Dragon Systems, Inc. of Newton, Massachusetts, erhältlich ist, eine interaktive Registrierungssitzung, in der ein neuer Benutzer einen ausgewählten Registrierungstext vorträgt. Eine zugehörige Anzeige (z.B. ein Pfeil) zeigt die Position des Benutzers im Text an.
EP-A-0867857 ist eine der früheren Patentanmeldungen des Anmelders, die nach dem Prioritätsdatum der vorliegenden Anmeldung veröffentlicht wurde, und daher nur für Neuheitsbetrachtungen relevant ist. Dieses Dokument offenbart ein System zur Registrierung in einem Spracherkennungssystem, in dem Benutzeräußerungen an einen Abschnitt eines Registrierungstextes angepasst werden, und passende Äußerungen verwendet werden, um akustische Modelle zu aktualisieren. Der Registrierungstext kann Variationen, zum Beispiel eine Zeichensetzung umfassen, die durch einen Benutzer geäußert werden kann oder nicht. Wenn eine Benutzeräußerung an den Registrierungstext angepasst wird, werden dann, wenn der Benutzer solche optionalen Variationen äußert, diese verwendet, um das akustische Modell zu aktualisieren, jedoch werden diese ausgelassen, wenn die vorgeschriebenen Variationen nicht geäußert werden.
US 5,251,283 betrifft das Training eines Spracherkennungssystems zur Verwendung mit einem Diktiergerät. Insbesondere bezieht sich die Offenbarung auf die Überwindung des Problems, das Systems unter Verwendung eines mit dem Computer verbundenen Mikrophons zu trainieren, jedoch dann das System mit Sprache zu verwenden, die auf einem Diktiergerät aufgezeichnet ist, was zu unterschiedlichen akustischen Eigenschaften der zu erkennenden Sprache führt. Die vorgeschlagene Lösung besteht darin, ein interaktives System zu verwenden, in welchem der Ton als Reaktion auf eine interaktive Anzeige oder eine Tastatureingabe auf einer Aufzeichnungsvorrichtung aufgezeichnet wird, und sofort zum Spracherkennungssystem übertragen wird. Daher durchläuft die Sprache zum Zwecke des Trainierens denselben Weg wie die Sprache zu Erkennungszwecken.
Die Erfindung, wie sie in den beigefügten unabhängigen Ansprüchen definiert wird, stellt nicht interaktive Techniken zum Registrieren eines Benutzers in einem Spracherkennungssystem bereit. Da die Techniken nicht interaktiv sind, kann der Benutzer Registrierungssprache zum Beispiel unter Verwendung einer tragbaren Aufzeichnungsvorrichtung aufzeichnen, und kann die Sprache später zur Verarbeitung herunterladen, um die akustischen Modelle eines Spracherkennungssystems zu verfeinern. Die Techniken erfordern es, dass die Sprache im allgemeinen einem Registrierungstext entspricht, lassen es jedoch zu, dass der Benutzer Worte, Ausdrücke, Sätze oder Paragraphen des Registrierungstextes überspringt oder wiederholt. Die Techniken umfassen das Analysieren der Sprache eines Benutzers in Bezug zum Registrierungstext, um Abschnitte der Sprache zu identifizieren, die zu Abschnitten des Registrierungstextes passen, und die Aktualisierung akustischer Modelle, die mit den passenden Abschnitten des Registrierungstextes korrespondieren, unter Verwendung der passenden Abschnitte der Sprache eines Benutzers. Die Techniken versprechen, dem Registrierungsprozess eine höhere Flexibilität zu verleihen, und dadurch die Registrierung zu vereinfachen.
In einem allgemeinen Aspekt registriert ein Computer einen Benutzer in einem Spracherkennungssystem, indem dieser Daten erhält, die Sprache durch den Benutzer repräsentieren und im Wesentlichen einem Registrierungstext entsprechen. Der Computer analysiert den akustischen Inhalt einer Benutzeräußerung, und stellt beruhend auf der Analyse fest, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt. Wenn die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, verwendet der Computer den akustischen Inhalt der Benutzeräußerung, um akustische Modelle zu aktualisieren, die dem Abschnitt des Registrierungstextes entsprechen. Eine Feststellung, dass die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, wird selbst dann zugelassen, wenn der Benutzer Worte, Sätze oder Paragraphen des Registrierungstextes ausgelassen oder wiederholt hat.
Implementierungen können eines oder mehrere der folgenden Merkmale umfassen. Die Registrierungsprozedur wird nicht interaktiv durchgeführt. Dies bedeutet, dass die Daten, welche die Sprache eines Benutzers repräsentieren, Daten sein können, die unter Verwendung einer Aufzeichnungsvorrichtung aufgezeichnet werden, die physikalisch vom Computer getrennt ist. Zum Beispiel kann die Aufzeichnungsvorrichtung eine digitale Aufzeichnungsvorrichtung sein, und das Erhalten der Daten kann den Empfang einer Datei von der digitalen Aufzeichnungsvorrichtung umfassen. Das Erhalten der Daten kann auch den Empfang von Signalen umfassen, die erzeugt werden, indem die Sprache eines Benutzers unter Verwendung einer Aufzeichnungsvorrichtung, wie einer analogen Aufzeichnungsvorrichtung wiedergegeben wird.
Vor der Analyse einer Benutzeräußerung kann der Computer die Daten in Gruppen unterteilen, wobei jede Gruppe eine Äußerung durch den Benutzer repräsentiert.
Der Computer kann einen aktiven Abschnitt des Registrierungstextes kennzeichnen, und kann den akustischen Inhalt einer Äußerung in Bezug auf den aktiven Abschnitt des Registrierungstextes analysieren. Der Computer kann eine Position einer vorhergehend analysierten Äußerung im Registrierungstext identifizieren und kann den aktiven Abschnitt des Registrierungstextes beruhend auf der identifizierten Position kennzeichnen. Der aktive Abschnitt kann Text enthalten, welcher der identifizierten Position vorangeht und ihr folgt. Zum Beispiel kann der aktive Abschnitt einen Paragraphen enthalten, der die Position enthält, ebenso wie Paragraphen, welche jenem Paragraphen vorangehen und diesem folgen.
Der Computer kann versuchen, die Äußerung an Modelle für Worte anzupassen, die im aktiven Abschnitt des Registrierungstextes enthalten sind. Zu diesem Zweck kann der Computer eine Registrierungsgrammatik einsetzen, die dem aktiven Abschnitt des Registrierungstextes entspricht.
Es kann eine Ablehnungsgrammatik verwendet werden, um festzustellen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt. Die Ablehnungsgrammatik kann eine Phonemgrammatik jedes Modells einer Äußerung unter Verwendung einer Gruppe von Phonemen sein, die kleiner als eine Gruppe von Phonemen ist, die durch die Registrierungsgrammatik verwendet wird.
Der Registrierungstext kann aus einer Gruppe von Registrierungstexten ausgewählt werden, wobei jeder Registrierungstext eine entsprechende Registrierungsgrammatik aufweisen kann. Ein Registrierungstext von einem Benutzer kann auch empfangen werden. Eine Registrierungsgrammatik, die dem Registrierungstext entspricht, kann zur Verwendung bei der Feststellung erzeugt werden, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt.
Die Benutzeräußerung kann ignoriert werden, wenn sie zu keinem Abschnitt des Registrierungstextes passt.
In einem anderen allgemeinen Aspekt kann ein Benutzer in einem Spracherkennungssystem durch Aufzeichnen der Sprache eines Benutzers unter Verwendung einer tragbaren Aufzeichnungsvorrichtung und Übertragen der aufgezeichneten Sprache zu einem Computer registriert werden. Der Computer wird dann verwendet, um den akustischen Inhalt der aufgezeichneten Sprache zu analysieren, beruhend auf der Analyse Abschnitte der Sprache zu identifizieren, die zu Abschnitten des Registrierungstextes passen, und akustische Modelle, die den passenden Abschnitten des Registrierungstextes entsprechen, unter Verwendung des akustischen Inhalts passender Abschnitte der Sprache zu aktualisieren. Die aufgezeichnete Sprache kann Abschnitte des Registrierungstextes überspringen oder wiederholen.
Andere allgemeine Aspekte umfassen das Erhalten von Daten, die einem Registrierungstext entsprechen, unter Verwendung einer physikalisch getrennten Aufzeichnungsvorrichtung, als auch die Kennzeichnung eines aktiven Abschnitts des Registrierungstextes und der Analyse des akustischen Inhalts einer Äußerung in Bezug auf den aktiven Abschnitt des Registrierungstextes.
Ein bevorzugtes Beispiel eines erfindungsgemäßen Systems wird gemäß den beigefügten Zeichnungen beschrieben. Es zeigen:
1 ein Blockdiagramm eines Spracherkennungssystems.
2 ein Blockdiagramm einer Spracherkennungssoftware des Systems der 1.
3 und 4 eine Benutzerschnittstelle für ein Registrierungsprogramm,
5–7 Ablaufpläne von Registrierungsprozeduren.
8 einen Ablaufplan einer Modell-Anpassungsprozedur.
Bezugnehmend auf 1, weist ein Spracherkennungssystem 100 Eingabe-/Ausgabe-(I/O)-Vorrichtungen (z.B. ein Mikrophon 105, eine Maus 110, eine Tastatur 115 und eine Anzeige 120) und einen Allzweckcomputer 125 auf, der einen Prozessor 130, eine I/O-Einheit 135 und eine Soundkarte 140 aufweist. Ein Speicher 145 speichert Daten und Programme, wie ein Betriebssystem 150, ein Anwendungsprogramm 155 (z.B. ein Textverarbeitungsprogramm) und eine Spracherkennungssoftware 160.
Das Mikrophon 105 nimmt die Sprache eines Benutzers auf und überträgt die Sprache in Form eines Analogsignals zur Soundkarte 140, die wiederum das Signal durch einen Analog-Digital-(A/D)-Wandler schickt, um das Analogsignal in einen Satz digitaler Muster umzuwandeln. Unter Kontrolle des Betriebssystems 150 und der Spracherkennungssoftware 160 identifiziert der Prozessor 130 Äußerungen in der kontinuierlichen Sprache des Benutzers. Äußerungen werden voneinander durch eine Pause getrennt, die eine ausreichend große vorbestimmte Dauer aufweist (z.B. 160–250 Millisekunden). Jede Äußerung kann ein oder mehrere Worte der Sprache eines Benutzers enthalten.
Das System kann außerdem einen Analogaufzeichnung-Anschluss 165 und/oder einen Digitalaufzeichnung-Anschluss 170 aufweisen. Der Analogaufzeichnung-Anschluss 165 ist mit der Soundkarte 140 verbunden und wird dazu verwendet, Sprache, die unter Verwendung einer Handaufzeichnungsgerätes aufgezeichnet wurde, zur Soundkarte zu übertragen. Der Analogaufzeichnung-Anschluss kann als ein Mikrophon implementiert sein, das so angeordnet ist, dass es dem Sprecher mit dem Handaufzeichnungsgeräte nahe ist, wenn die Aufzeichnungsvorrichtung in den Anschluss 165 eingesteckt ist, und kann außerdem unter Verwendung des Mikrophons 105 oder als eine analoge Kabelverbindung implementiert sein. Alternativ kann der Analogaufzeichnung-Anschluss 165 als ein Bandabspielgerät implementiert sein, das ein Band aufnimmt, das unter Verwendung einer Handaufzeichnungsvorrichtung aufgezeichnet wird, und auf das Band aufgezeichnete Informationen zur Soundkarte 140 überträgt.
Der Digitalaufzeichnung-Anschluss 170 kann so implementiert sein, dass dieser eine digitale Datei übertragen kann, die unter Verwendung einer digitalen Handaufzeichnungsvorrichtung erzeugt wird. Diese Datei kann direkt in den Speicher 145 übertragen werden. Der Digitalaufzeichnung-Anschluss 170 kann als eine Speichervorrichtung (z.B. ein Diskettenlaufwerk) des Computers 125, oder als ein Modem oder eine Netzwerkkarte implementiert sein, die eine elektronische Kommunikation von einem entfernten Ort aus bereitstellt.
2 veranschaulicht Komponenten der Spracherkennungssoftware 160. Zur Vereinfachung der Erläuterung gibt die folgende Beschreibung an, dass die Komponenten Vorgänge ausführen, um spezifizierte Ergebnisse zu erzielen. Jedoch sollte klar sein, dass jede Komponente tatsächlich den Prozessor 130 veranlasst, in der angegebenen Weise zu arbeiten.
Anfänglich wandelt ein Vorverarbeitungsmodul 200 die digitalen Muster 205 aus der Soundkarte 140 (oder aus dem Digitalaufzeichnung-Anschluss 170) in Frames von Parametern 210 um, die den Frequenzinhalt einer Äußerung repräsentieren. Jeder Frame enthält 24 Parameter und repräsentiert einen kurzen Abschnitt (z.B. 10 Millisekunden) der Äußerung.
Eine Erkennungseinrichtung 215 empfängt und verarbeitet die Frames einer Äußerung, um Text zu identifizieren, welcher der Äußerung entspricht. Die Erkennungseinrichtung führt mehrere Hypothesen über den Text aus und verbindet mit jeder Hypothese eine Bewertung. Die Bewertung spiegelt die Wahrscheinlichkeit wider, dass eine Hypothese der Sprache eines Benutzers entspricht. Zur Vereinfachung der Verarbeitung werden Bewertungen als negative logarithmische Werte aufbewahrt. Folglich zeigt eine niedrigere Bewertung eine bessere Anpassung (eine hohe Wahrscheinlichkeit) an, während eine höhere Bewertung eine weniger wahrscheinliche Anpassung (eine niedrigere Wahrscheinlichkeit) anzeigt, wobei die Wahrscheinlichkeit der Anpassung abnimmt, wenn die Bewertung zunimmt. Nach der Verarbeitung der Äußerung liefert die Erkennungseinrichtung die Hypothesen mit der besten Bewertung an das Steuer-/Schnittstellenmodul 220 als eine Liste von Erkennungskandidaten, wobei jeder Erkennungskandidat einer Hypothese entspricht und eine damit verbundene Bewertung aufweist. Einige Erkennungskandidaten können einem Text entsprechen, während andere Erkennungskandidaten Befehlen entsprechen.
Die Erkennungseinrichtung 215 verarbeitet die Frames 210 einer Äußerung in Hinblick auf eine oder mehrere Zwangsgrammatiken 225. Eine Zwangsgrammatik, die auch als ein Template oder eine Einschränkungsregel bezeichnet wird, kann eine Beschränkung auf Worte sein, die einer Äußerung entsprechen können, eine Beschränkung der Reihenfolge oder grammatikalischen Form der Worte oder beides sein. Zum Beispiel kann eine Zwangsgrammatik für Menümanipulationsbefehle nur Einträge aus dem Menü (z.B. "Datei", "Bearbeiten") oder Befehlsworte zur Navigation durch das Menü (z.B. "up", "down", "top", "bottom") enthalten. Es können unterschiedliche Zwangsgrammatiken zu unterschiedlichen Zeiten aktiv sein. Zum Beispiel kann eine Zwangsgrammatik mit einem bestimmten Anwendungsprogramm 155 verbunden sein und kann aktiviert werden, wenn der Benutzer das Anwendungsprogramm öffnet, und deaktiviert werden, wenn der Benutzer das Anwendungsprogramm schließt. Die Erkennungseinrichtung 215 verwirft jede Hypothese, die keiner aktiven Zwangsgrammatik entspricht. Zusätzlich kann die Erkennungseinrichtung 215 die Bewertung einer Hypothese, die mit einer bestimmten Zwangsgrammatik verbunden ist, beruhend auf den Eigenschaften der Zwangsgrammatik einstellen.
Eine Zwangsgrammatik 225, die durch die Spracherkennungssoftware 160 verwendet werden kann, ist eine Großvokabular-Diktiergrammatik. Die Großvokabular-Diktiergrammatik identifiziert Worte, die im aktiven Vokabular 230 enthalten sind, welches das Vokabular der Worte ist, die der Software bekannt sind. Das Großvokabular-Diktiergrammatik schreibt auch die Häufigkeit vor, mit der Worte auftreten. Ein Sprachmodell, das mit der Großvokabular- Diktiergrammatik verbunden ist, kann ein Unigram-Modell sein, das die Häufigkeit angibt, mit der ein Wort unabhängig vom Kontext vorkommt, oder ein Bigram-Modell, das die Häufigkeit angibt, mit der ein Wort im Kontext eines vorausgehenden Wortes vorkommt. Zum Beispiel kann ein Bigram-Modell anzeigen, dass es wahrscheinlicher ist, dass ein Substantiv oder Adjektiv dem Wort "the" folgt, als ein Verb oder eine Präposition.
Das aktive Vokabular 230 verwendet ein Aussprachemodell, in dem jedes Wort durch eine Reihe von Phonemen repräsentiert wird, welche die phonetische Schreibweise des Wortes umfassen. Jedes Phonem kann als ein Triphon, ein kontextabhängiges Phonem, repräsentiert werden, das drei Knoten enthält. Zum Beispiel repräsentiert das Triphon "abc" das Phonem "b" im Kontext der Phoneme "a" und "c", wobei dem Phonem "b" das Phonem "a" vorausgeht und das Phonem "c" folgt.
Die Phoneme werden durch akustische Modelle 235 repräsentiert. Im Fall von Triphonen repräsentieren die akustischen Modelle 235 jeden Triphonknoten als eine Mischung von Gauß'schen Wahrscheinlichkeitsdichte-Funktionen ("PDFs"). Zum Beispiel kann der Knoten "i" eines Triphons "abc" als abⁱc repräsentiert werden: abic = Σ kwkN(μk, ck)wobei jedes w_k eine Mischgewichtung ist, Σ kwk = 1μ_k ein mittlerer Vektor für die Wahrscheinlichkeitsdichtefunktion ("PDF") N_k, und c_k die Kovarianzmatrix für die PDF N_k ist. Wie die Frames in der Abfolge von Frames, enthalten die Vektoren jeweils vierundzwanzig Parameter. Die Matrizen c_k sind Matrizen der Größe vierundzwanzig mal vierundzwanzig. Jeder Triphonknoten kann als eine Mischung von zum Beispiel bis zu sechszehn unterschiedlichen PDFs repräsentiert werden.
Ein vollständiges Diktiervokabular besteht aus dem aktiven Vokabular 230 plus einem Hilfsvokabular 245. Das Hilfsvokabular kann Dateien enthalten, die benutzerspezifische Hilfsvokabularworte und systemweite Hilfsvokabularworte enthalten. Das systemweite Hilfsvokabular enthält alle Worte, die dem System bekannt sind, einschließlich der Worte, die sich gegenwärtig in einem aktiven Vokabular befinden können.
Während der Fehlerkorrektur beginnen Wortsuchen der Hilfsvokabulars mit dem benutzerspezifischen Hilfsvokabular und prüfen dann das systemweite Hilfsvokabular. Die Hilfsvokabulars werden auch durchsucht, wenn es neue Worte im Text gibt, die ein Benutzer getippt hat.
Die Erkennungseinrichtung 215 kann parallel mit einer Vorfilterungsprozedur 240 arbeiten. Nach der Einleitung der Verarbeitung einer Äußerung fordert die Erkennungseinrichtung 215 aus der Vorfilterungsprozedur 240 eine Liste von Worten an, die als das erste Wort der Äußerung ausgesprochen worden sind (d.h. Worte, die dem ersten und nachfolgenden Frame der Äußerung entsprechen können). Die Vorfilterungsprozedur 240 führt einen groben Vergleich der Abfolge von Frames mit dem aktiven Vokabular 230 durch, um einen Teilsatz des Vokabulars zu identifizieren, für die ein umfangreicherer Vergleich unter Verwendung der Erkennungseinrichtung gerechtfertigt ist.
Das Steuer-/Schnittstellenmodul 220 steuert den Betrieb der Spracherkennungssoftware und stellt eine Schnittstelle zu einer anderen Software oder zum Benutzer bereit. Das Steuer-/Schnittstellenmodul empfängt die Liste von Erkennungskandidaten für jede Äußerung vom Erkennungseinrichtung. Erkennungskandidaten können einem diktierten Text, Spracherkennungsbefehlen oder äußeren Befehlen entsprechen. Wenn der Erkennungskandidat mit der besten Bewertung dem diktierten Text entspricht, liefert das Steuer-/Schnittstellenmodul den Text an eine aktive Anwendung, wie ein Textverarbeitungsprogramm. Das Steuer-/Schnittstellenmodul kann auch durch eine graphische Benutzerschnittstelle dem Benutzer den Erkennungskandidaten mit der besten Bewertung anzeigen. Das Steuer-/Schnittstellenmodul steuert den Betrieb der Spracherkennungssoftware als Reaktion auf Spracherkennungsbefehle (z.B. "wake up, "make that"), und leitet äußere Befehle an die geeignete Software weiter.
Das Steuer-/Schnittstellenmodul steuert auch das aktive Vokabular, akustische Modelle und Zwangsgrammatiken, die durch den Erkennungseinrichtung verwendet werden. Wenn zum Beispiel die Spracherkennungssoftware in Verbindung mit einer bestimmten Anwendung (z.B. Microsoft Word) verwendet wird, aktualisiert das Steuer-/Schnittstellenmodul das aktive Vokabular, so dass es Befehlsworte enthält, die mit der Anwendung verbunden sind, und aktiviert Zwangsgrammatiken, die mit der Anwendung verbunden sind.
Andere Funktionen, die durch das Steuer-/Schnittstellenmodul 220 bereitgestellt werden, umfassen einen Vokabularanpasser und einen Vokabularverwalter. Der Vokabularanpasser optimiert das Sprachmodell eines spezifischen Themas, indem er den durch den Benutzer gelieferten Text abtastet. Der Vokabularverwalter ist ein Entwicklerwerkzeug, das verwendet wird, um Vokabulars, Grammatiken und Makros zu durchblättern und zu manipulieren. Jede solche Funktion des Steuer-/Schnittstellenmoduls 220 kann als ein ausführbares Programm implementiert sein, das von der Hauptspracherkennungssoftware getrennt ist. Entsprechend kann das Steuer-/Schnittstellenmodul 220 ebenfalls als ein getrenntes ausführbares Programm implementiert sein.
Das Steuer-/Schnittstellenmodul 220 kann auch ein Registrierungsprogramm bereitstellen, das einen Registrierungstext und eine entsprechende Registrierungsgrammatik verwendet, um die Spracherkennungssoftware an einen spezifischen Benutzer anzupassen. Das Registrierungsprogramm kann in einer interaktiven Betriebsart arbeiten, die den Benutzer durch den Registrierungsprozess führt, oder in einer nicht interaktiven Betriebsart, die es zulässt, dass der Benutzer unabhängig vom Computer registriert wird. In der interaktiven Betriebsart zeigt das Registrierungsprogramm dem Benutzer den Registrierungstext an, und der Benutzer liest den angezeigten Text. Wenn der Benutzer liest, verwendet die Erkennungseinrichtung 215 die Registrierungsgrammatik, um eine Abfolge von Äußerungen durch den Benutzer an aufeinanderfolgende Abschnitte des Registrierungstextes anzupassen. Wenn die Erkennungseinrichtung 215 erfolglos ist, fordert das Registrierungsprogramm den Benutzer auf, bestimmte Passagen des Textes zu wiederholen. Die Erkennungseinrichtung verwendet die akustische Information aus den Äußerungen des Benutzers, um die akustischen Modelle 235 zu trainieren oder anzupassen, die den passenden Abschnitten des Registrierungstextes entsprechen.
In der nicht interaktiven Betriebsart liest der Benutzer den Text ohne Aufforderung vom Computer. Dies bietet den erheblichen Vorteil, dass zusätzlich zum Lesen des Textes, der durch den Computer angezeigt wird, der Benutzer unabhängig vom Computer von einem gedruckten Text lesen kann. So könnte der Benutzer den Registrierungstext in eine tragbare Aufzeichnungsvorrichtung lesen und die aufgezeichnete Information später in den Computer zur Verarbeitung durch den Erkennungseinrichtung herunterladen, oder er könnte den Registrierungstext über eine Telefonleitung lesen. Zusätzlich ist es nicht erforderlich, dass der Benutzer jedes Wort des Registrierungstextes liest, und Worte oder Paragraphen überspringen kann, falls erwünscht. Der Benutzer kann außerdem Abschnitte des Textes wiederholen. Dies erweitert den Registrierungsprozess um eine wesentliche Flexibilität.
Das Registrierungsprogramm kann eine Liste von Registrierungstexten, von denen jeder eine entsprechende Registrierungsgrammatik aufweist, zur Auswahl durch den Benutzer bereitstellen. Alternativ kann der Benutzer einen Registrierungstext von einer anderen Quelle eingeben. In diesem Fall kann das Registrierungsprogramm die Registrierungsgrammatik aus dem eingegebenen Registrierungstext erzeugen, oder kann eine vorher erzeugte Registrierungsgrammatik einsetzen.
3 zeigt eine Benutzerschnittstelle 300 des interaktiven Registrierungsprogramms. Die Benutzerschnittstelle 300 zeigt einen Registrierungstext 310 für einen Benutzer zum Lesen an, und zeigt die gegenwärtige Position des Benutzers an, die auch als die "Registrierungsposition" bezeichnet wird, zum Beispiel unter Verwendung eines beweglichen Pfeiles 320 im Registrierungstext. Die Anzeige der 3 zeigt eine Registrierungsposition am Wort "for" an, die anzeigt, dass das Registrierungsprogramm das Lesen des Benutzers des Registrierungstextes bis zum Wort "for" erkannt hat und dass der Registrierungsprozess weitergehen wird, wenn der Benutzer das Lesen beginnend mit dem Wort "for" fortsetzt. Im Gegensatz dazu zeigt die Anzeige der 4 eine Registrierungsposition beim Wort "program" an. Zusätzlich zur Verwendung des Pfeiles kann die Benutzerschnittstelle die Registrierungsposition anzeigen, indem sie Abschnitte des Textes hervorhebt, wenn sie erkannt werden, oder eine Schreibmarke an der Registrierungsposition anzeigt.
Unter Verwendung der Benutzerschnittstelle 300 der 3 startet der Benutzer das Registrierungsprogramm, indem er den Aufzeichnungsknopf 330 durch einen Sprachbefehl oder eine Eingabevorrichtung, wie eine Maus auswählt. Der Benutzer liest dann den angezeigten Text 310, wobei er mit dem Text an der Registrierungsposition beginnt, wie durch den Pfeil 320 angezeigt. Wenn der Benutzer liest, passt die Erkennungseinrichtung 215 die Sprache eines Benutzers an den Registrierungstext unter Verwendung der Registrierungsgrammatik an und rückt die Registrierungsposition (und den Pfeil 320) zum Anfang des nächsten Wortes vor, das ausgesprochen werden soll. Akustische Modelle, die dem Registrierungstext entsprechen, werden beruhend auf den passenden Benutzeräußerungen aktualisiert. Im allgemeinen verwendet die Erkennungseinrichtung 215 nicht die Vorfilterungsprozedur 240 während des Registrierungsprozesses.
Wie in 5 gezeigt, beginnt das Registrierungsprogramm damit, dass es die Registrierungsposition an den Anfang des Registrierungstextes setzt (Schritt 1510) und den Pfeil an der Registrierungsposition anzeigt (Schritt 1520). Das Registrierungsprogramm empfängt als nächstes die digitalisierte Sprache des Benutzers für eine Äußerung (Schritt 1530). Die Erkennungseinrichtung 215 stellt unter Verwendung der Registrierungsgrammatik, die dem Registrierungstext entspricht, fest, ob die Äußerung zu einem Abschnitt des Registrierungstextes passt, der an der Registrierungsposition beginnt (Schritt 1540). Da der Abschnitt des Textes, dem eine Äußerung entspricht, nicht angegeben ist, verwendet Die Erkennungseinrichtung 215 die Registrierungsgrammatik, um einen Abschnitt des Registrierungstextes zu identifizieren, der an der Registrierungsposition beginnt, die am besten zur Äußerung passt.
Wenn es keine Anpassung gibt, wiederholt das Registrierungsprogramm den Prozess des Abrufens und Vergleichens der Sprache eines Benutzers mit dem Registrierungstext (Schritte 1530, 1540). Wenn es keine Anpassung gibt, aktualisiert das Registrierungsprogramm die akustischen Modelle 235, die dem angepassten Abschnitt des Registrierungstextes entsprechen, beruhend auf der Benutzeräußerung (Schritt 1550). Alternativ kann das Registrierungsprogramm die akustischen Modelle aktualisieren, nachdem spezifische Segmente (wie Sätze oder Paragraphen) des Registrierungstextes erkannt worden sind, oder nachdem der gesamte Registrierungstext erkannt worden ist.
Wenn kein Registrierungstext nach dem angepassten Abschnitt des Registrierungstextes (Schritt 1560) übrig bleibt, endet das Registrierungsprogramm für diesen Registrierungstext (Schritt 1570). Wenn das Registrierungsprogramm mehrere Registrierungstexte bereitstellt, kann das Registrierungsprogramm nach der Beendigung eines Registrierungstextes automatisch den nächsten Registrierungstext beginnen, indem der neue Registrierungstext angezeigt wird und die Registrierungsposition an den Beginn dieses neuen Textes gesetzt wird (Schritt 1510).
Wenn der Registrierungstext bei Schritt 1560 bleibt, wird die Registrierungsposition zu dem Wort vorwärts bewegt, das dem angepassten Abschnitt des Registrierungstextes entspricht (Schritt 1580), die Pfeilanzeige wird aktualisiert, um auf die aktualisierte Registrierungsposition (Schritt 1520) zu zeigen, und der Registrierungsprozess geht weiter.
Es können unterschiedliche Verfahren verwendet werden, um festzustellen, ob eine Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt (Schritt 1540). Zum Beispiel kann die Registrierungsgrammatik so implementiert werden, dass sie erkennt, dass unterschiedliche Nutzer an unterschiedlichen Positionen im Registrierungstext innehalten, mit dem Ergebnis, dass Äußerungen unterschiedlicher Nutzer nicht einheitlich demselben Abschnitt des Registrierungstextes entsprechen. Wie oben angegeben, kann die Registrierungsgrammatik solche Situationen handhaben, indem sie es zulässt, dass unterschiedliche Längen der Registrierungstextes zu einer Benutzeräußerung passen.
Die Registrierungsgrammatik kann so implementiert werden, dass sie erwartete Variationen beim Lesen des Benutzers des Registrierungstextes bei der Feststellung, ob eine Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, erkennt und geeignet behandelt. Ein Beispiel einer solchen Variation ist die Diktierkonvention der Aussprache von Satzzeichen: am Ende eines Satzes kann der Benutzer das Wort "period" aussprechen. Um diese Situation zu handhaben, kann die Registrierungsgrammatik implementiert werden, das Wort "period" am Ende von Sätze als optional zu erkennen. Wenn folglich der Benutzer "period" sagt, passt die Registrierungsgrammatik die Sprache eines Benutzers an das Wort „period" zum Zweck der Aktualisierung der akustischen Modelle an. Wenn der Benutzer nicht „period" sagt, lässt die Registrierungsgrammatik das optionale Wort "period" aus und fährt mit dem nächsten Wort im Registrierungstext fort.
Ähnliche Regeln können zur Handhabung der Ausdrucksweise des Benutzer des Abstands (z.B. neue Zeile oder neuer Paragraph) und von Formatierungskonventionen (z.B. Großschreibung, fett, unterstreichen oder kursiv) implementiert werden. Zum Beispiel kann die Registrierungsgrammatik für die Textpassage, die in 3 dargestellt wird, in erweiterbarer Backus-Naur-Form (EBNF) ausgedrückt werden als:
<recognition result>::=[Kapitälchen] dragon [Kapitälchen] systems is pleased to acknowledge [Kapitälchen] arthur [Kapitälchen] c [Pause] [Kapitälchen] clarke and [Kapitälchen] harper [Kapitälchen] collins [Kapitälchen] publishers for allowing as to use selections from [Kapitälchen] arthur [Kapitälchen] c [Pause] [Kapitälchen] {clarke's |clarke Apostrophe s} novel three thousand [und] one [Semikolon] [Kapitälchen] the [Kapitälchen] final [Kapitälchen] odyssey [Komma] for our training program [Pause],
wobei

[]: optional bedeutet,
<>: eine Regel bedeutet,
|: eine ODER-Funktion bedeutet, und
::=: "ist definiert als" oder "ist" bedeutet.

Die Registrierungsgrammatik wird modifiziert, wenn sich der Benutzer durch den Text vorwärts bewegt. Wenn sich zum Beispiel der Benutzer am Wort "for" im Text befindet, wie durch den Pfeil 320 in 3 angezeigt, kann die Registrierungsgrammatik in EBNF ausgedrückt werden als:
<recognition result>::=for our training program [Pause]
Alternativ kann der Registrierungsgrammatik als ein Satz von Regeln ausgedrückt werden. Anhang A enthält eine mögliche regelbasierte Grammatik für den Registrierungstext, der in 3 gezeigt wird. Ein Vorteil der regelbasierten Grammatik ist, dass sie nicht modifiziert werden muss, wenn der Benutzer sich durch den Text vorwärts bewegt.
Im allgemeinen reduziert die Verwendung des Registrierungsprogramms die Erkennungsfehlerrate des Spracherkennungssystems durch Anpassung akustischer Modelle an eine Sprache eines Benutzers beruhend auf der Aussprache eines Benutzers von Tönen, die diesen akustischen Modelle entsprechen, beim Vortragen des Registrierungstextes. Wenn jedoch der Benutzer etwas anderes sagt, als den erwarteten Registrierungstext, sollte die Sprache eines Benutzers nicht verwendet werden, um die akustischen Modelle zu aktualisieren, die dem erwarteten Registrierungstext entsprechen. Diese Situation kann zum Beispiel auftreten, wenn der Benutzer eine Zeile im angezeigten Text 310 auslässt, irrtümlicherweise ein angezeigtes Wort als ein anderes Wort liest, oder unterbrochen wird, während er den angezeigten Text liest, und sich an einem außerhalb liegenden Gespräch beteiligt. Diese Situation tritt auch auf, wenn das Spracherkennungssystem andere Töne als die Sprache eines Benutzers aufnimmt, wie Husten oder Niesen, oder Umgebungsgeräusche, wie Verkehr oder einen bellenden Hund.
Die Registrierungsgrammatik lässt den Erkennungseinrichtung 215 den Abschnitt des Registrierungstextes finden, welcher der Benutzeräußerung am besten entspricht. Jedoch lässt die Registrierungsgrammatik den Erkennungseinrichtung 215 nicht verifizieren, dass die Äußerung dem Registrierungstext tatsächlich entspricht. Zu diesem Zweck verwendet das Registrierungsprogramm eine Ablehnungsgrammatik in Verbindung mit der Registrierungsgrammatik, um Situationen zu erkennen, in denen die Töne, die durch den Erkennungseinrichtung detektiert werden, nicht zum erwarteten Registrierungstext passen. 6 führt den Prozess des Schrittes 1540 der 5 näher aus, wo sowohl die Registrierungsgrammatik als auch die Ablehnungsgrammatik verwendet werden, um Situationen zu detektieren, in denen die Benutzeräußerung nicht verwendet werden sollte, um die akustischen Modelle für einen Registrierungstext zu aktualisieren. Das Registrierungsprogramm identifiziert einen besten Erkennungskandidaten, welcher der Registrierungsgrammatik entspricht, und bestimmt die Bewertung, die durch den Erkennungseinrichtung 215 für jenen Kandidaten geliefert wird, als die Registrierungsbewertung (Schritt 1541). Die Erkennungseinrichtung 215 kann die Bewertung für den Kandidaten beruhend auf Kriterien bestimmen, wie der Anpassung akustischer Modelle und eines Wortkontexts.
Es kann sein, dass selbst der beste Erkennungskandidat keine gute Anpassung an den Registrierungstext ist. Wenn sich zum Beispiel die Registrierungsposition bei "for" befindet, wie in 3 gezeigt, und die Benutzeräußerung "from Arthur C. Clarke's novel" aus der vorhergehenden Zeile ist, wird die Erkennungseinrichtung 215 versuchen, die Äußerung an den Abschnitt der Registrierungsgrammatik anzupassen, die mit "for" beginnt, und wird einen Erkennungskandidaten erzeugen, welcher der besten Anpassung an jenen Abschnitt der Registrierungsgrammatik entspricht.
Das Registrierungsprogramm identifiziert außerdem einen besten Erkennungskandidaten, welcher der Ablehnungsgrammatik entspricht, und bestimmt eine Bewertung, die durch den Erkennungseinrichtung 215 bereitgestellt wird, für jenen Kandidaten als eine Ablehnungsbewertung (Schritt 1542). Im allgemeinen sollte die Ablehnungsbewertung besser als die Registrierungsbewertung sein, wenn die Benutzeräußerung dem erwarteten Abschnitt des Registrierungstextes nicht entspricht.
Die Ablehnungsgrammatik kann in EBNF ausgedrückt werden als:
<recognition result>::=<phonemes>
wobei
<phonemes>::=Phoneme[<phonemes>]
und Phonem irgendein Phonem in einem Ablehnungsgrammatik-Phonemsatz ist. Der Ablehnungsgrammatik-Phonemsatz wird so ausgewählt, dass die meisten Töne in der erwarteten Sprache vernünftig modelliert werden können. Wenn, wie im obigen Beispiel, die Ablehnungsgrammatik irgendeine Kombination von diesen Phonemen zulässt, kann die Verarbeitung, die erforderlich ist, um das am besten passende Phonemen für eine Äußerung zu finden, aufwendig sein. Folglich kann der Ablehnungsgrammatik-Phonemsatz nur einen Teilsatz des Satzes der Phoneme enthalten, die durch den Spracherkennungseinrichtung verwendet werden. Zum Beispiel veranschaulicht der beigefügte Anhang B einen Satz von fünfzig Phonemen, wobei ein Teilsatz von neunzehn der Phonemen im Ablehnungsgrammatik-Phonemsatz enthalten ist.
Die Ablehnungsgrammatik passt die Akustik der Benutzeräußerung an eine Folge von Phonemen aus dem Ablehnungsgrammatik-Phonemsatz an. Die Bewertung, die mit einem Ablehnungsgrammatik-Erkennungskandidaten verbunden ist, spiegelt das Maß wieder, in dem die Benutzeräußerung der angepassten Folge von Phonemen entspricht, und wird so bestimmt, dass es wahrscheinlich ist, dass die Ablehnungsbewertung besser als die Registrierungsbewertung ist, wenn die Benutzeräußerung zu keinem Abschnitt des Registrierungstextes passt.
Erneut auf das obige Beispiel der 3 bezugnehmend, in dem die Registrierungsposition sich bei "for" befindet und die Benutzeräußerung "from Arthur C. Clarke's novel" ist, wird die Registrierungsgrammatik wahrscheinlich zu einem Erkennungskandidaten mit einer Bewertung führen, die eine schlechte Anpassung widerspiegelt. Andererseits wird die Ablehnungsgrammatik zu einem Erkennungskandidaten führen, der nicht genau "from Arthur C. Clarke's novel" ist, jedoch wahrscheinlich näher liegen wird, als der Registrierungserkennungskandidat, der mit "for" beginnt. Folglich sollte die Ablehnungsgrammatik zu einem Erkennungskandidaten führen, der eine bessere Anpassung und eine bessere Bewertung aufweist.
Das Registrierungsprogramm stellt fest, ob die Benutzeräußerung zu einer Registrierungsäußerung passt, indem sie die Registrierungsbewertung mit der Ablehnungsbewertung vergleicht (Schritt 1543). Das genaue Verfahren des Vergleichs kann variieren. Zum Beispiel vergleicht das Registrierungsprogramm bei einer einfachen Vorgehensweise die Registrierungs- und Ablehnungsbewertungen, und stellt fest, wenn die Registrierungsbewertung besser als die Ablehnungsbewertung ist, dass die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt (Schritt 1544). Wenn die Ablehnungsbewertung besser als die Registrierungsbewertung ist, wie im obigen Beispiel, stellt das Registrierungsprogramm alternativ fest, dass die Benutzeräußerung zu keinem Abschnitt des Registrierungstextes passt (Schritt 1545).
Die Ablehnungsgrammatik ist unter Bezugnahme auf ihre Verwendung mit der Registrierungsgrammatik beschrieben worden. Jedoch kann sie auch unter anderen Umständen verwendet werden, und im allgemeinen wird sie immer dann verwendet, wenn die Großvokabular-Diktierzwangsgrammatik nicht aktiv ist. Zum Beispiel kann die Spracherkennungssoftware einen "Go To Sleep"-Befehl enthalten, der alle Zwangsgrammatiken mit der Ausnahme der Ablehnungsgrammatik und einer Grammatik zur Erkennung eines "Wake Up"-Befehls deaktiviert. Im Allgemeinen wird die Erkennungseinrichtung 215, nachdem der "Go To Sleep"-Befehl implementiert worden ist, nur den "Wake Up"-Befehl erkennen. Die Ablehnungsgrammatik ermöglicht es dem Steuer- /Schnittstellenmodul 220 zwischen dem "Wake Up"-Befehl und Geräuschen oder anderen Tönen zu unterscheiden.
Bezugnehmend auf 7, arbeitet das nicht interaktive Registrierungsprogramm gemäß einer Prozedur 1700. Anfangs erhält das Programm eine Benutzersprache, die einem Registrierungstext entspricht (Schritt 705). Diese Sprache entspricht dem gesamten Benutzervortrag des Registrierungstextes und kann auf eine Anzahl von Arten erhalten werden. Zum Beispiel kann der Benutzer die Sprache aufzeichnen, indem er einen gedruckten Text abliest, wobei er eine analoge Aufzeichnungsvorrichtung verwendet. Der Benutzer kann dann die aufgezeichnete Sprache dem Computer 125 unter Verwendung des Anschlusses 165 bereitstellen. Der gedruckte Text kann durch das Registrierungsprogramm bereitgestellt werden.
Der Benutzer kann die Sprache auch unter Verwendung einer digitalen Aufzeichnungsvorrichtung aufzeichnen. In diesem Fall kann der Benutzer eine digitale Datei, die der aufgezeichneten Sprache entspricht, unter Verwendung des Anschlusses 170 bereitstellen.
Der Benutzer kann die Sprache auch unter Verwendung des Mikrophons 105 und durch Ablesen eines gedruckten Textes oder eines Textes bereitstellen, der auf der Anzeige 120 angezeigt wird. Im Gegensatz zum interaktiven Registrierungsprogramm treibt das nicht interaktive Registrierungsprogramm den Benutzer hinsichtlich der Position des Benutzers im Text nicht an. Vielmehr verwendet das nicht interaktive Registrierungsprogramm einen Texteditor oder vergleichbares Programm, um den gesamten Registrierungstext anzuzeigen und den Benutzer durch den Registrierungstext steuern zu lassen, falls erwünscht. Alternativ könnte das Registrierungsprogramm eine gedruckte Ausgabe des Registrierungstextes für den Benutzer zum Lesen bereitstellen.
Nachdem der Benutzer den Registrierungstext spricht, verarbeitet das Programm die Sprache, um Sätze von Frames zu erzeugen, die Benutzeräußerungen entsprechen (Schritt 1710). Wenn die Sprache unter Verwendung des Anschlusses 165 oder des Mikrophons 105 geliefert wird, verarbeitet das Programm die Sprache unter Verwendung der Soundkarte 140 und der Prozedur 300, wie oben erläutert. Wenn die Sprache unter Verwendung des Anschlusses 170 geliefert wird, umfasst die Verarbeitung typischerweise die Neuformatierung der Inhalte der digitalen Datei. In jedem Fall kann das Programm feststellen, dass die Sprache geendet hat, wenn das Programm Stille mit einer ausreichenden Dauer angetroffen hat (z.B. dreißig Sekunden).
Danach bestimmt das Registrierungsprogramm einen aktiven Abschnitt des Registrierungstextes und baut eine Registrierungszwangsgrammatik für den aktiven Abschnitt (Schritt 1715) auf. Zum Beispiel kann der aktive Abschnitt des Registrierungstextes anfangs aus den ersten drei bis fünf Paragraphen des Registrierungstextes bestehen. In diesem Fall baut das Registrierungsprogramm eine Registrierungsgrammatik auf, die Zwangsgrammatiken für jeden der bestimmten Anzahl von Paragraphen enthält. Im allgemeinen sind die Zwangsgrammatiken flexibel und erfordern es nur, dass der Benutzer eine Folge von Worten aus dem Registrierungstext in ihrer Reihenfolge ausgesprochen hat. Zum Beispiel kann eine Äußerung mit jedem Wort in der Registrierungsgrammatik beginnen, und kann mit jedem Wort in der Registrierungsgrammatik enden, so lange irgendwelche Zwischenworte der Äußerung in ihrer Reihenfolge in der Registrierungsgrammatik zwischen den Anfangs- und Endworten gefunden werden. Folglich läßt eine Registrierungsgrammatik es zu, dass eine Erkennung selbst dann stattfindet, wenn der Benutzer Worte, Sätze oder sogar ganze Paragraphen ausgelassen oder wiederholt hat.
Die Registrierungsgrammatik für die ersten fünf Paragraphen eines Registrierungstextes kann in EBNF ausgedrückt werden als:
<recognition result>::=<paragraph 1>|<paragraph 2>|<paragraph 3>|<paragraph 4>|<paragraph 5>,
wobei
<paragraph n>::=[word¹ⁿ[word²ⁿ[word³ⁿ ... word^mn]]]|[word²ⁿ[word³ⁿ ... word^mn]]| [word^mn],
und
"wordⁱⁿ" das Wort i aus dem Paragraphen n ist.
Wie oben erläutert, kann die Registrierungsgrammatik so implementiert werden, dass es erwartete Variationen beim Lesen des Benutzers des Registrierungstextes bei der Feststellung, ob eine Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, erkennt und geeignet behandelt. Folglich berücksichtigt die Registrierungsgrammatik, wie bei der interaktiven Registrierungsgrammatik, zum Beispiel Satzzeichen, Abstand und Formatierung.
Danach ruft das Registrierungsprogramm eine Äußerung ab (Schritt 1720) und veranlasst den Erkennungseinrichtung, eine Erkennung an der Äußerung unter Verwendung der aktiven Registrierungsgrammatik durchzuführen (Schritt 1725). Diese Erkennung umfasst die Verwendung einer Ablehnungsgrammatik und läuft ab, wie oben bezüglich des interaktiven Registrierungsprogramms erläutert.
Wenn die Erkennungseinrichtung Worte in der Äußerung findet, die zum Registrierungstext passen (Schritt 1730), aktualisiert das Registrierungsprogramm die akustische Modelle für das Phonemen jener Worte (Schritt 1735). Alternativ kann das Registrierungsprogramm die Aktualisierung der akustischen Modelle verschieben, bis alle Äußerungen analysiert worden sind.
Nach der Aktualisierung der akustischen Modelle stellt das Registrierungsprogramm fest, ob der aktive Abschnitt des Registrierungstextes aktualisiert werden muß (Schritt 1740). Im allgemeinen aktualisiert das Registrierungsprogramm den aktiven Abschnitt, um ein Fenster von aktiven Paragraphen um die gegenwärtige Position der Sprache eines Benutzers im Registrierungstext aufzubewahren. Wenn folglich zum Beispiel die Erkennungseinrichtung gerade Text identifiziert hat, der im vierten Paragraphen des Registrierungstextes erscheint, und das Registrierungsprogramm einen aktiven Abschnitt von fünf Paragraphen aufbewahrt, der gegenwärtig die ersten bis fünften Paragraphen enthält, kann das Registrierungsprogramm den aktiven Abschnitt so aktualisieren, dass er die Paragraphen zwei bis sechs enthält.
Wenn der aktive Abschnitt des Registrierungstextes aktualisiert werden muß, aktualisiert das Registrierungsprogramm den aktiven Abschnitt und die aktive Registrierungsgrammatik (Schritt 1745). Folglich würde im oben angegebenen Beispiel das Registrierungsprogramm den Abschnitt der Zwangsgrammatik beseitigen, der dem ersten Paragraphen des Registrierungstextes entspricht, und würde einen Abschnitt hinzufügen, der dem sechsten Paragraphen entspricht. Die modifizierte Registrierungsgrammatik kann in EBNF ausgedrückt werden als:
<recognition result>::=<paragraph 2>|<paragraph 3>|<paragraph 4>|<paragraph 5>|<paragraph 6>.
Wenn die verarbeitete Äußerung nicht die letzte Äußerung ist (Schritt 1750), ruft das Registrierungsprogramm die nächste Äußerung ab (Schritt 1720) und wiederholt den Prozess.
Bei der Bearbeitung der letzten Äußerung zeigt das Registrierungsprogramm einen Bericht der Registrierungsleistung an (Schritt 1755). Der Bericht kann eine Angabe des Prozentsatzes der Worte in der Sprache eines Benutzers enthalten, die erkannt wurden. Der Bericht kann außerdem eine Angabe der erwarteten Erkennungsleistung unter Verwendung der modifizierten akustischen Modelle enthalten. Der Benutzer kann die Information aus diesem Bericht verwenden, um festzustellen, ob es ergiebig wäre, den Registrierungsprozess zu wiederholen oder unter Verwendung eines anderen Textes zu registrieren.
Das Registrierungsprogramm erzeugt ein sprecherangepasstes Modell für den Benutzer, indem es sprecherunabhängige akustische Modelle, die dem Registrierungstext entsprechen, beruhend auf den Äußerungen des Benutzers anpasst. Wie oben beschrieben, repräsentieren die sprecherunabhängigen akustischen Modelle jeden Triphonknoten als eine Mischung von Gauß'schen Wahrscheinlichkeitsdichtefunktionen ("PDFs") N_k, die Erwartungsvektoren μ_k und Kovarianzmatrizen c_k aufweisen, wobei der Beitrag, der durch jede PDF zum Triphonknoten geleistet wird, durch ein Mischungsgewicht w_k repräsentiert wird. Das sprecherangepasste Modell verwendet die Mischungsgewichte w_k und die Kovarianzmatrizen c_k des sprecherunabhängigen Modells, verwendet jedoch angepasste Erwartungsvektoren μ_kA.
Bezugnehmend auf 8, erzeugt das Registrierungsprogramm die angepassten Erwartungsvektoren μ_kA gemäß einer Prozedur 1800. Beginnend mit den Erwartungsvektoren μ_k des sprecherunabhängigen Modells (Schritt 1805) verwendet das Registrierungsprogramm eine auf einer Transformation beruhende Vorgehensweise, um die angepassten Erwartungsvektoren μ_kA zu erzeugen. Die auf einer Transformation beruhende Vorgehensweise setzt voraus, dass ein angepasster Erwartungsvektor μ_kA ausgedrückt werden kann als: μkA = Aμk + b,wobei A und b Transformationen sind. Wenn jeder Erwartungsvektor 24 Einträge aufweist, ist A eine 24 × 24-Matrix und weist b 24 Einträge auf.
Danach erzeugt das Registrierungsprogramm Sammlungen von PDFs, von denen erwartet wird, dass sie sich eine gemeinsame Transformation teilen (Schritt 1810). Eine Sammlung C könnte die PDFs enthalten, die ähnlich klingende Triphone repräsentieren, wie alle PDFs, die mit Vokalen verbunden sind, oder alle PDFs, die mit Konsonanten verbunden sind. Eine andere Vorgehensweise bei der Erzeugung von Sammlungen ist es, PDFs zu gruppieren, die Erwartungsvektoren μ_k mit ähnlichen Werten aufweisen. Diese Vorgehensweise lässt eine vereinfachte Erzeugung großer Anzahlen von Sammlungen zu. Im allgemeinen können Implementierungen eine bis zu mehreren Hundert unterschiedliche Sammlungen enthalten. Anfängliche experimentelle Ergebnisse zeigen an, dass die erste Vorgehensweise bessere Ergebnisse liefert (d.h. Ergebnisse mit niedrigeren Erkennungsfehlerraten). Im allgemeinen können die Sammlungen vor der Registrierungssitzung identifiziert werden.
Danach stellt das Registrierungsprogramm für jede Sammlung alle Sprecherdaten für die PDFs zusammen, die in der Sammlung enthalten sind (Schritt 1815). Diese Sprecherdaten entsprechen die Benutzeräußerungen, die während der Registrierungssitzung erzeugt werden.
Als nächstes bestimmt das Registrierungsprogramm y[j], den Durchschnittswert des Sprecherdatenvektors für jedes PDF j (Schritt 1820). Wenn f[n] der Vektor für den n-ten Frames der Sprecherdaten ist, p_j(n) die Wahrscheinlichkeit ist, dass der n-te Frames der Sprecherdaten einer PDF j entspricht (d.h. dem Mischungsgewicht w_j für den Triphonknoten, der mit dem n-ten Frame der Sprecherdaten verbunden ist), und N die Gesamtzahl der Frames der Sprecherdaten ist, dann können y[j] und der Frameszählwert N[j] für den Frame j bestimmt werden als:
Dies wird üblicherweise als der Baum-Welch- oder EM-Algorithmus bezeichnet.
Als nächstes erzeugt das Registrierungsprogramm Transformationen (A_C und b_C) für jede Sammlung C unter Verwendung der Beziehung zwischen den Durchschnittswerten der Sprecherdaten und den PDFs aus dem sprecherunabhängigen Modell (Schritt 1825). Diese Beziehung kann allgemein ausgedrückt werden als: y[j] = ACx[j] + bC + ewobei x[j] dem Erwartungsvektor μ_j für eine PDF j entspricht und e ein Fehlerterm ist. Beruhend auf dieser Beziehung kann A_C ^T, die Transponierte der Transformation A_C, bestimmt werden als:
wobei x^T[j] die Transponierte von x[j] ist, y^T[j] die Transponierte von y[j] ist, und N_C die Anzahl der Komponenten in der Sammlung C ist.
Die Transformation A_C wird dann erzeugt, indem A_C ^T transponiert wird, und die Transformation b_C wird bestimmt als:
Unter Verwendung der Transformationen bestimmt das Registrierungsprogramm angepasste Erwartungsvektoren μ_jA für jede Komponente in der Sammlung C (Schritt 1830). Insbesondere werden die angepassten Erwartungsvektoren bestimmt als: μjA = ACμj + bC Das Registrierungsprogramm speichert dann die angepassten Erwartungsvektoren μ_jA zusammen mit einem Sprecherbezeichner als ein sprecherangepasstes Modell zur späteren Verwendung bei der Erkennung von Sprache durch den Benutzer (Schritt 1835). Dieser Prozess kann mehrere Male unter Verwendung der angepassten Modelle wiederholt werden, um die Frameszählwerte, Sprecher (N[j] und y[j]) und die Transformationsmatrix zu aktualisieren.
In einer anderen Implementierung können Bruchteile der sprecherunabhängigen Erwartungsvektoren (x[j]) und der sprecherspezifischen Erwartungsvektoren verwendet werden, um y[j] und N[j] zu berechnen:
wobei r die relative Wichtigkeit der sprecherunabhängigen Erwartungsvektoren und der Beobachtungsdaten steuert. Der Wert von r wird als eine Funktion der Menge der verfügbaren Anpassungsdaten optimiert.
Andere Ausführungsformen liegen innerhalb der Frame der folgenden Ansprüche. Zum Beispiel können die spezifischen Verfahren variieren, durch welche die Registrierungs- und Ablehnungsgrammatiken eine Benutzeräußerung bewerten. Entsprechend kann das Verfahren variieren, durch welches die Bewertungen ausgewertet werden, um festzustellen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt.
Die hier beschriebenen Techniken sind nicht auf irgendeine besondere Hardware oder Software-Konfiguration beschränkt; sie können in irgendeiner Rechner- oder Verarbeitungsumgebung Anwendung finden, die zur Spracherkennung verwendet werden. Die Techniken können in Hardware oder Software oder einer Kombination der beiden implementiert werden. Vorzugsweise werden die Techniken in Computerprogrammen implementiert, die auf programmierbaren Computern ausgeführt werden, die jeweils einen Prozessor, ein Speichermedium, das durch den Prozessor lesbar ist (einschließlich einem flüchtigen und nichtflüchtigen Speicher und/oder Speicherelementen), mindestens eine Eingabevorrichtung und eine oder mehrere Ausgabevorrichtungen aufweisen. Der Programmcode wird auf Daten angewendet, die unter Verwendung der Eingabevorrichtung eingegeben werden, um die beschriebenen Funktionen auszuführen und um Ausgabeinformationen zu erzeugen. Die Ausgabeinformationen wird an eine oder mehrere Ausgabevorrichtungen angelegt.
Jedes Programm wird vorzugsweise in einer prozeduralen oder objektorientierten Hochprogrammiersprache implementiert, um mit einem Computersystem zu kommunizieren. Jedoch können die Programme in Assembler- oder Maschinensprache implementiert werden, falls erwünscht. Auf jeden Fall kann die Sprache eine kompilierte oder interpretierte Sprache sein.
Jedes solche Computerprogramm wird vorzugsweise auf einem Speichermedium oder -Vorrichtung (z.B. CD-ROM, Festplatte oder Magnetdiskette) gespeichert, die durch einen programmierbaren Allzweck- oder Spezialzweckcomputer zur Konfiguration und zum Betreiben des Computers lesbar ist, wenn das Speichermedium oder -Vorrichtung durch den Computer gelesen wird, um die Prozeduren auszuführen, die in diesem Dokument beschrieben werden. Es wird auch erwogen, das System als ein computerlesbares Speichermedium zu implementieren, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium bewirkt, dass ein Computer in einer spezifischen und vordefinierten Weise arbeitet.
Anhang A
Das Folgende ist eine Registrierungsgrammatik für den Paragraphen, der für Beispiele im Patentdokument verwendet wird (die Regel, die in diesem Beispiel anfangs aktiviert wird, ist AltList0):
rule0=Dragon[<rule1>]
rule1=systems[<AftAlt1>]
rule2=dragon[<rule3>]
rule3=systems[<AftAlt1>]
rule4=Dragon Systems[<AftAlt1>]
AltList0=<rule0>|<rule2>|<rule4>|
AftAlt1=is[<rule7>]
rule7=please[<rule8>]
rule8=to[<rule9>]
rule9=acknoledge[<rule10>]
rule10=Arthur[<AltList2>]
rule11=C.[<AftAlt3>]
rule12=[C\carbon][<rule13>]
rule13=[.\dot][<AftAlt3>]
rule14=[C\carbon][<rule15>]
rule15=[.\period][<AftAlt3>]
rule16=[C\carbon][<rule17>]
rule17=[.\point][<AftAlt3>]
rule18=[c\charlie][<rule19>]
rule19=[.\dot][<AftAlt3>]
rule20=[c\charlie][<rule2l>]
rule21=[.\period][<AftAlt3>]
rule22=[c\charlie][<rule23>]
rule23=[.\point][<AftAlt3>]
rule24=[C\Roman one hundred][<rule25>]
rule25=[.\dot][<AftAlt3>]
rule26=[C\Roman one hundred][<rule27>]
rule27=[.\period][<AftAlt3>]
rule28=[C\Roman one hundred][<rule29>]
rule29=[.\point][<AftAlt3>]
AltList2=<rule11>|<rule12>|<rule14>|<rule16>|<rule18>|<rule20>|<rule22>| <rule24>|<rule26>|<rule28>
AftAlt3=Clarke[<rule32>]
rule32=and[<AltList4>]
rule33=harper[<AftAlt5>]
rule34=Harper[<AftALt5>]
AltList4=<rule33>|<rule34>
AftAlt5=Collins[<rule37>]
rule37=publishers[<rule38>]
rule38=for[<rule39>]
rule39=allowing[<rule40>]
rule40=us[<rule41>]
rule41=to[<rule42>]
rule42=use[<rule43>]
rule43=selections[<rule44>]
rule44=from[<rule45>]
rule45=Arthur[<AltList6>]
rule46=C.[<AftAlt7>]
rule47=[C\carbon][<rule48>]
rule48=[.\dot][<AftAlt7>]
rule49=[C\carbon][<rule50>]
rule50=[.\period][<AftAlt7>]
rule51=[C\carbon][<rule52>]
rule52=[.\point][<AftAlt7>]
rule53=[c\charlie][<rule54>]
rule54=[.\dot][<AftAlt7>]
rule55=[c\charlie][<rule56>]
rule56=[.\period][<AftAlt7>]
rule57=[c\charlie][<rule58>]
rule58=[.\point][<AftAlt7>]
rule59=[C\Roman one hundred][<rule60>]
rule60=[.\dot][<AftAlt7>]
rule61=[C\Roman one hundred][<rule62>]
rule62=[.\period][<AftAlt7>]
rule63=[C\Roman one hundred][<rule64>]
rule64=[.\point][<AftAlt7>]
AltList6=<rule46>|<rule47>|<rule49>|<rule51>|<rule53>|<rule55>|<rule57>| <rule59>|<rule61>|<rule63>
<AftAlt7>=Clarke[<AltList8>]
rule67=['s\apostrophe-ess][AftAlt9>]
rule68=['s\iz\r][<AftAlt9>]
rule69=['s\s\r][<AftAlt9>]
rule70=['s\z\r][<AftAlt9>]
rule71=['\apostrophe][<rule72>]
rule72=[s\sierra][<AftAlt9>]
rule73=['\close-single-quote][<rule74>]
rule74=[s\sierra][<AftAlt9>]
rule75=['\open-single-quote][<rule76>]
rule76=[s\sierra][<AftAlt9>]
AltList8=<rule67>|<AftAlt9>|<rule68>|<rule69>|<rule70>|<rule71>|<rule73>| <rule75>
AftAlt9=novel[<AltList10>]
rule79=3001[<AftAlt11>]
rule80=30[<rule81>]
rule81=01[<AftAlt11>]
rule82=30[<rule83>]
rule83=0[<rule84>]
rule84=1[<AftAlt11>]
rule85=3[<rule86>]
rule86=0[<rule87>]
rule87=01[<AftAlt11>]
rule88=3[<rule89>]
rule89=0[<rule90>]
rule90=0[<rule91>]
rule91=1[<AftAlt11>]
AltList10=<rule79>|<rule80>|<rule82>|<rule85>|<rule88>
rule93=[:\colon][<AftAlt13>]
rule94=[:\numeric-colon][<AftAlt13>]
AftAlt11=<rule93>|<AftAlt13>|<rule94>
AftAlt13=the[<rule97>]
rule97=final[<AltList14>]
rule98=odyssey[<AftAlt15>]
rule99=Odyssey[<AftAlt15>]
AltList14=<rule98>|<rule99>
rule101=[,\comma[<AftAlt17>]
rule102=[,\numeric-comma][<AftAlt17>]
AftAlt15=<rule101>|<AftAlt17>|<rule102>
AftAlt17=for[<rule105>]
rule105=our[<rule106>]
rule106=training[<rule107>]
rule107=program[<AltList18>]
rule108=[.\dot][<AftAlt19>]
rule109=[.\period][<AftAlt19>]
rule110=[.\point][<AftAlt19>]
AltList18=<rule108>|<AftAlt19>|<rule109>|<rule110>AftAlt19
Anhang B
Das Phonem-Kennzeichen in der ersten Spalte wird wie der/die groß geschriebene(n) Buchstabe(n) im zweiten Feld ausgesprochen. Die Phoneme, die einen Stern im dritten Feld aufweisen, befinden sich im Teilsatz 19, der für die Ablehnungsgrammatik verwendet wird.

Claims

Computer-implementiertes Verfahren zum Registrieren einer Benutzers in einem Spracherkennungssystem, das aufweist: Erhalten von Daten, die die Sprache eines Benutzers repräsentieren (1705), wobei die Sprache mehrere Benutzeräußerungen enthält und einem Registrierungstext entspricht; Analysieren des akustischen Inhalts von Daten, die einer Benutzeräußerung entsprechen (1710); Feststellen beruhend auf der Analyse, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730); und wenn die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730), Verwenden des akustischen Inhalts der Benutzeräußerung, um akustische Modelle zu aktualisieren, die dem Abschnitt des Registrierungstextes entsprechen (1735); wobei das Feststellen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt, das Zulassen einer Feststellung aufweist, daß die Benutzeräußerung paßt, wenn der Benutzer Worte des Registrierungstextes ausgelassen hat (1715).
Verfahren nach Anspruch 1, wobei das Erhalten von Daten das Erhalten von Daten aufweist, die unter Verwendung einer Aufzeichnungsvorrichtung aufgezeichnet werden, die physikalisch von dem Computer getrennt ist, der das Verfahren implementiert.
Verfahren nach Anspruch 2, wobei: die Aufzeichnungsvorrichtung eine digitale Vorrichtung aufweist, und das Erhalten der Daten das Empfangen einer Datei von der digitalen Aufzeichnungsvorrichtung aufweist.
Verfahren nach Anspruch 3, wobei das Erhalten von Daten das Empfangen von Signalen aufweist, die durch Wiedergeben der Sprache eines Benutzers unter Verwendung der Aufzeichnungsvorrichtung erzeugt werden.
Verfahren nach Anspruch 2, wobei die Aufzeichnungsvorrichtung eine analoge Aufzeichnungsvorrichtung aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner die Kennzeichnung eines aktiven Abschnitts des Registrierungstextes aufweist (1715), wobei das Analysieren des akustischen Inhalts von Daten, die einer Benutzeräußerung entsprechen, das Analysieren der Daten relativ zum aktiven Abschnitt des Registrierungstextes aufweist.
Verfahren nach Anspruch 6, das ferner das Identifizieren einer Position einer vorhergehenden analysierten Äußerung im Registrierungstext aufweist, wobei die Kennzeichnung eines aktiven Abschnitts des Registrierungstextes die Kennzeichnung eines aktiven Abschnitts beruhend auf der identifizierten Position aufweist.
Verfahren nach Anspruch 7, wobei die Kennzeichnung des aktiven Abschnitts die Kennzeichnung eines Abschnitts aufweist, der Text enthält, der der Position vorangeht und ihr folgt.
Verfahren nach Anspruch 8, wobei die Kennzeichnung des aktiven Abschnitts die Kennzeichnung eines Abschnitts aufweist, der einen Paragraphen, der die Position enthält, einen Paragraphen, der der Position vorangeht, und einen Paragraphen enthält, der der Position folgt.
Verfahren nach einem der Ansprüche 6 bis 9, wobei das Analysieren der Daten relativ zum aktiven Abschnitt des Registrierungstextes das Versuchen aufweist, die Daten an Modelle für Worte anzupassen, die im aktiven Abschnitt des Registrierungstextes enthalten sind.
Verfahren nach einem der Ansprüche 6 bis 9, wobei das Analysieren der Daten relativ zum aktiven Abschnitt des Registrierungstextes die Verwendung einer Registrierungsgrammatik aufweist, die dem aktiven Abschnitt des Registrierungstextes entspricht.
Verfahren nach einem der Ansprüche 1 bis 5, wobei die Feststellung, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt, die Verwendung einer Registrierungsgrammatik aufweist, die dem Registrierungstext entspricht.
Verfahren nach Anspruch 12, wobei die Feststellung, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt, ferner die Verwendung einer Ablehnungsgrammatik aufweist.
Verfahren nach Anspruch 13, wobei die Ablehnungsgrammatik eine Phonemgrammatik aufweist.
Verfahren nach Anspruch 14, wobei die Ablehnungsgrammatik eine Äußerung unter Verwendung eines Satzes von Phonemen modelliert, der kleiner als ein Satz von Phonemen ist, der durch die Registrierungsgrammatik verwendet wird.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner das Ignorieren der Benutzeräußerung aufweist, wenn die Benutzeräußerung zu keinem Abschnitt des Registrierungstextes paßt (1715).
Computer-implementiertes Verfahren zum Registrieren eines Benutzers in einem Spracherkennungssystem, das aufweist: Aufzeichnen der Sprache eines Benutzers unter Verwendung einer tragbaren Aufzeichnungsvorrichtung (1705), wobei die Sprache einem Registrierungstext entspricht; Überfragen der aufgezeichneten Sprache zu einem Computer; wobei der Computer verwendet wird, um: einen akustischen Inhalt der aufgezeichneten Sprache zu analysieren (1710); beruhend auf der Analyse Abschnitte der Sprache zu identifizieren, die zu Abschnitten des Registrierungstextes passen (1730); Aktualisieren akustischer Modelle, die den angepaßten Abschnitten des Registrierungstextes entsprechen, unter Verwendung eines akustischen Inhalts passender Abschnitte der Sprache (1735).
Verfahren nach Anspruch 17, wobei die aufgezeichnete Sprache Abschnitte des Registrierungstextes ausläßt oder wiederholt.
Computer-Software, die auf einem computer-lesbaren Speichermedium (145) liegt, die Befehle aufweist, um einen Computer (125) zu veranlassen: Daten zu erhalten, die Sprache eines Benutzers repräsentieren (1705), wobei die Sprache mehrere Benutzeräußerungen enthält und einem Registrierungstext entspricht; einen akustischen Inhalt von Daten zu analysieren, die einer Benutzeräußerung entsprechen (1710); beruhend auf der Analyse zu bestimmen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730); und den akustischen Inhalt der Benutzeräußerung zu verwenden, um akustische Modelle zu aktualisieren, die einem Abschnitt des Registrierungstextes entsprechen, der zu der Benutzeräußerung (1735); wobei die Befehle den Computer dazu einrichten, eine Feststellung zuzulassen, daß die Benutzeräußerung paßt, wenn der Benutzer Worte des Registrierungstextes ausgelassen hat (1715).
Spracherkennungssystem (100) zum Registrieren eines Benutzers, das aufweist: eine Eingabevorrichtung (105, 165, 170) zum Empfangen von Sprachsignalen; und einen Prozessor (130), der dazu eingerichtet ist: Daten zu erhalten, die die Sprache eines Benutzers repräsentieren (1705), wobei die Sprache (1705) mehrere Benutzeräußerungen enthält und einem Registrierungstext entspricht; einen akustischen Inhalt von Daten zu analysieren, die einer Benutzeräußerung entsprechen (1710); beruhend auf der Analyse zu bestimmen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730); den akustischen Inhalt der Benutzeräußerung zu verwenden, um akustische Modelle zu aktualisieren, die einem Abschnitt des Registrierungstextes entsprechen, der zu der Benutzeräußerung paßt (1735); und eine Feststellung zuzulassen, daß die Benutzeräußerung paßt, wenn der Benutzer Worte des Registrierungstextes ausgelassen hat (1715).