DE69923379T2 - Nicht-interaktive Registrierung zur Spracherkennung - Google Patents

Nicht-interaktive Registrierung zur Spracherkennung Download PDF

Info

Publication number
DE69923379T2
DE69923379T2 DE69923379T DE69923379T DE69923379T2 DE 69923379 T2 DE69923379 T2 DE 69923379T2 DE 69923379 T DE69923379 T DE 69923379T DE 69923379 T DE69923379 T DE 69923379T DE 69923379 T2 DE69923379 T2 DE 69923379T2
Authority
DE
Germany
Prior art keywords
user
registration
text
utterance
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69923379T
Other languages
English (en)
Other versions
DE69923379D1 (de
Inventor
Stefan Sherwood
David Wilsberg Parmenter
Joel Gould
Toffee A. Albina
Alan Gold
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
L&H Holdings USA Inc
Original Assignee
L&H Holdings USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by L&H Holdings USA Inc filed Critical L&H Holdings USA Inc
Application granted granted Critical
Publication of DE69923379D1 publication Critical patent/DE69923379D1/de
Publication of DE69923379T2 publication Critical patent/DE69923379T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung betrifft die Registrierung bei einer Spracherkennung.
  • Ein Spracherkennungssystem analysiert die Sprache eines Benutzers, um festzustellen, was der Benutzer gesagt hat. Die meisten Spracherkennungssysteme beruhen auf Frames. In einem auf Frames beruhenden System unterteilt ein Prozessor ein Signal, das die zu erkennende Sprache darstellt, in eine Reihe digitaler Frames, von denen jeder einem kleinen Zeitinkrement der Sprache entspricht.
  • Ein kontinuierliches Spracherkennungssystem kann gesprochene Worte oder Sätze unabhängig davon erkennen, ob der Benutzer dazwischen eine Pause einlegt. Im Gegensatz dazu erkennt ein diskretes Spracherkennungssystem einzelne Worte oder Sätze und verlangt vom Benutzer, nach jedem diskreten Wort oder Satz eine kurze Pause einzulegen. Kontinuierliche Spracherkennungssysteme weisen im Vergleich zu diskreten Erkennungssystemen infolge der Komplexität bei der Erkennung kontinuierlicher Sprache typischerweise eine höhere Erkennungsfehlerhäufigkeit auf.
  • Im Allgemeinen analysiert der Prozessor eines kontinuierlichen Spracherkennungssystems gesprochene "Äußerungen". Eine Äußerung umfasst eine variable Anzahl von Frames und kann einem Zeitraum des Sprechens, dem sich eine Pause von mindestens einer vorbestimmten Dauer anschließt, entsprechen.
  • Der Prozessor stellt fest, was der Benutzer gesagt hat, indem dieser akustische Modelle findet die am Besten zum digitalen Frame einer Äußerung passen, und Text identifiziert, der diesen akustischen Modellen entspricht. Ein akustisches Modell kann mit einem Wort, einem Satz oder Befehl aus einem Vokabular korrespondieren. Ein akustisches Modell kann auch einen Ton oder ein Phonem repräsentieren, der/das einem Abschnitt eines Wortes entspricht. Zusammen repräsentieren die Phonembestandteile für ein Wort die phonetische Schreibweise des Wortes. Akustische Modelle können auch Stille und verschiedene Arten von Umgebungsgeräuschen repräsentieren.
  • Die Worte oder Sätze, die den am Besten passenden akustischen Modellen entsprechen, werden als Erkennungskandidaten bezeichnet. Der Prozessor kann einen einzelnen Erkennungskandidaten (d.h. eine einzelne Folge von Worten oder Sätzen) für eine Äußerung erzeugen, oder kann eine Liste von Erkennungskandidaten erzeugen.
  • Ein akustisches Modell enthält im allgemeinen Daten, die beschreiben, wie eine entsprechende Spracheinheit (z.B. ein Phonem) durch eine Vielzahl von Sprechern gesprochen wird. Um die Genauigkeit zu erhöhen, mit der ein akustisches Modell eine bestimmte Sprache eines Benutzers repräsentiert, und dadurch das Vorkommen von Erkennungsfehlern zu senken, kann das Spracherkennungssystem die akustischen Modelle so modifizieren, dass sie der besonderen Sprache eines Benutzers entsprechen. Diese Modifikation kann auf Mustern der Sprache eines Benutzers beruhen, die während einer anfänglichen Registrierungssitzung und während des Gebrauchs des Systems erhalten werden.
  • Registrierungssitzungen für frühere Spracherkennungssysteme erforderten typischerweise, dass ein Benutzer aus einer Liste von Worten liest oder spezifische Worte als Reaktion auf Aufforderungen liest. Zum Beispiel enthielt DragonDictate® für Windows®, das von Dragon Systems, Inc. of Newton, Massachusetts, erhältlich ist, eine Schnellregistrierungssitzung, die einen neuen Benutzer aufforderte, jedes Wort eines kleinen Satzes von Worten zu sprechen, und dann die akustischen Modelle beruhend auf der Sprache eines Benutzers anpasste.
  • Es sind auch andere Registrierungsvorgehensweisen verwendet worden. Zum Beispiel umfasst NaturallySpeaking®, das ebenfalls von Dragon Systems, Inc. of Newton, Massachusetts, erhältlich ist, eine interaktive Registrierungssitzung, in der ein neuer Benutzer einen ausgewählten Registrierungstext vorträgt. Eine zugehörige Anzeige (z.B. ein Pfeil) zeigt die Position des Benutzers im Text an.
  • EP-A-0867857 ist eine der früheren Patentanmeldungen des Anmelders, die nach dem Prioritätsdatum der vorliegenden Anmeldung veröffentlicht wurde, und daher nur für Neuheitsbetrachtungen relevant ist. Dieses Dokument offenbart ein System zur Registrierung in einem Spracherkennungssystem, in dem Benutzeräußerungen an einen Abschnitt eines Registrierungstextes angepasst werden, und passende Äußerungen verwendet werden, um akustische Modelle zu aktualisieren. Der Registrierungstext kann Variationen, zum Beispiel eine Zeichensetzung umfassen, die durch einen Benutzer geäußert werden kann oder nicht. Wenn eine Benutzeräußerung an den Registrierungstext angepasst wird, werden dann, wenn der Benutzer solche optionalen Variationen äußert, diese verwendet, um das akustische Modell zu aktualisieren, jedoch werden diese ausgelassen, wenn die vorgeschriebenen Variationen nicht geäußert werden.
  • US 5,251,283 betrifft das Training eines Spracherkennungssystems zur Verwendung mit einem Diktiergerät. Insbesondere bezieht sich die Offenbarung auf die Überwindung des Problems, das Systems unter Verwendung eines mit dem Computer verbundenen Mikrophons zu trainieren, jedoch dann das System mit Sprache zu verwenden, die auf einem Diktiergerät aufgezeichnet ist, was zu unterschiedlichen akustischen Eigenschaften der zu erkennenden Sprache führt. Die vorgeschlagene Lösung besteht darin, ein interaktives System zu verwenden, in welchem der Ton als Reaktion auf eine interaktive Anzeige oder eine Tastatureingabe auf einer Aufzeichnungsvorrichtung aufgezeichnet wird, und sofort zum Spracherkennungssystem übertragen wird. Daher durchläuft die Sprache zum Zwecke des Trainierens denselben Weg wie die Sprache zu Erkennungszwecken.
  • Die Erfindung, wie sie in den beigefügten unabhängigen Ansprüchen definiert wird, stellt nicht interaktive Techniken zum Registrieren eines Benutzers in einem Spracherkennungssystem bereit. Da die Techniken nicht interaktiv sind, kann der Benutzer Registrierungssprache zum Beispiel unter Verwendung einer tragbaren Aufzeichnungsvorrichtung aufzeichnen, und kann die Sprache später zur Verarbeitung herunterladen, um die akustischen Modelle eines Spracherkennungssystems zu verfeinern. Die Techniken erfordern es, dass die Sprache im allgemeinen einem Registrierungstext entspricht, lassen es jedoch zu, dass der Benutzer Worte, Ausdrücke, Sätze oder Paragraphen des Registrierungstextes überspringt oder wiederholt. Die Techniken umfassen das Analysieren der Sprache eines Benutzers in Bezug zum Registrierungstext, um Abschnitte der Sprache zu identifizieren, die zu Abschnitten des Registrierungstextes passen, und die Aktualisierung akustischer Modelle, die mit den passenden Abschnitten des Registrierungstextes korrespondieren, unter Verwendung der passenden Abschnitte der Sprache eines Benutzers. Die Techniken versprechen, dem Registrierungsprozess eine höhere Flexibilität zu verleihen, und dadurch die Registrierung zu vereinfachen.
  • In einem allgemeinen Aspekt registriert ein Computer einen Benutzer in einem Spracherkennungssystem, indem dieser Daten erhält, die Sprache durch den Benutzer repräsentieren und im Wesentlichen einem Registrierungstext entsprechen. Der Computer analysiert den akustischen Inhalt einer Benutzeräußerung, und stellt beruhend auf der Analyse fest, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt. Wenn die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, verwendet der Computer den akustischen Inhalt der Benutzeräußerung, um akustische Modelle zu aktualisieren, die dem Abschnitt des Registrierungstextes entsprechen. Eine Feststellung, dass die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, wird selbst dann zugelassen, wenn der Benutzer Worte, Sätze oder Paragraphen des Registrierungstextes ausgelassen oder wiederholt hat.
  • Implementierungen können eines oder mehrere der folgenden Merkmale umfassen. Die Registrierungsprozedur wird nicht interaktiv durchgeführt. Dies bedeutet, dass die Daten, welche die Sprache eines Benutzers repräsentieren, Daten sein können, die unter Verwendung einer Aufzeichnungsvorrichtung aufgezeichnet werden, die physikalisch vom Computer getrennt ist. Zum Beispiel kann die Aufzeichnungsvorrichtung eine digitale Aufzeichnungsvorrichtung sein, und das Erhalten der Daten kann den Empfang einer Datei von der digitalen Aufzeichnungsvorrichtung umfassen. Das Erhalten der Daten kann auch den Empfang von Signalen umfassen, die erzeugt werden, indem die Sprache eines Benutzers unter Verwendung einer Aufzeichnungsvorrichtung, wie einer analogen Aufzeichnungsvorrichtung wiedergegeben wird.
  • Vor der Analyse einer Benutzeräußerung kann der Computer die Daten in Gruppen unterteilen, wobei jede Gruppe eine Äußerung durch den Benutzer repräsentiert.
  • Der Computer kann einen aktiven Abschnitt des Registrierungstextes kennzeichnen, und kann den akustischen Inhalt einer Äußerung in Bezug auf den aktiven Abschnitt des Registrierungstextes analysieren. Der Computer kann eine Position einer vorhergehend analysierten Äußerung im Registrierungstext identifizieren und kann den aktiven Abschnitt des Registrierungstextes beruhend auf der identifizierten Position kennzeichnen. Der aktive Abschnitt kann Text enthalten, welcher der identifizierten Position vorangeht und ihr folgt. Zum Beispiel kann der aktive Abschnitt einen Paragraphen enthalten, der die Position enthält, ebenso wie Paragraphen, welche jenem Paragraphen vorangehen und diesem folgen.
  • Der Computer kann versuchen, die Äußerung an Modelle für Worte anzupassen, die im aktiven Abschnitt des Registrierungstextes enthalten sind. Zu diesem Zweck kann der Computer eine Registrierungsgrammatik einsetzen, die dem aktiven Abschnitt des Registrierungstextes entspricht.
  • Es kann eine Ablehnungsgrammatik verwendet werden, um festzustellen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt. Die Ablehnungsgrammatik kann eine Phonemgrammatik jedes Modells einer Äußerung unter Verwendung einer Gruppe von Phonemen sein, die kleiner als eine Gruppe von Phonemen ist, die durch die Registrierungsgrammatik verwendet wird.
  • Der Registrierungstext kann aus einer Gruppe von Registrierungstexten ausgewählt werden, wobei jeder Registrierungstext eine entsprechende Registrierungsgrammatik aufweisen kann. Ein Registrierungstext von einem Benutzer kann auch empfangen werden. Eine Registrierungsgrammatik, die dem Registrierungstext entspricht, kann zur Verwendung bei der Feststellung erzeugt werden, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt.
  • Die Benutzeräußerung kann ignoriert werden, wenn sie zu keinem Abschnitt des Registrierungstextes passt.
  • In einem anderen allgemeinen Aspekt kann ein Benutzer in einem Spracherkennungssystem durch Aufzeichnen der Sprache eines Benutzers unter Verwendung einer tragbaren Aufzeichnungsvorrichtung und Übertragen der aufgezeichneten Sprache zu einem Computer registriert werden. Der Computer wird dann verwendet, um den akustischen Inhalt der aufgezeichneten Sprache zu analysieren, beruhend auf der Analyse Abschnitte der Sprache zu identifizieren, die zu Abschnitten des Registrierungstextes passen, und akustische Modelle, die den passenden Abschnitten des Registrierungstextes entsprechen, unter Verwendung des akustischen Inhalts passender Abschnitte der Sprache zu aktualisieren. Die aufgezeichnete Sprache kann Abschnitte des Registrierungstextes überspringen oder wiederholen.
  • Andere allgemeine Aspekte umfassen das Erhalten von Daten, die einem Registrierungstext entsprechen, unter Verwendung einer physikalisch getrennten Aufzeichnungsvorrichtung, als auch die Kennzeichnung eines aktiven Abschnitts des Registrierungstextes und der Analyse des akustischen Inhalts einer Äußerung in Bezug auf den aktiven Abschnitt des Registrierungstextes.
  • Ein bevorzugtes Beispiel eines erfindungsgemäßen Systems wird gemäß den beigefügten Zeichnungen beschrieben. Es zeigen:
  • 1 ein Blockdiagramm eines Spracherkennungssystems.
  • 2 ein Blockdiagramm einer Spracherkennungssoftware des Systems der 1.
  • 3 und 4 eine Benutzerschnittstelle für ein Registrierungsprogramm,
  • 57 Ablaufpläne von Registrierungsprozeduren.
  • 8 einen Ablaufplan einer Modell-Anpassungsprozedur.
  • Bezugnehmend auf 1, weist ein Spracherkennungssystem 100 Eingabe-/Ausgabe-(I/O)-Vorrichtungen (z.B. ein Mikrophon 105, eine Maus 110, eine Tastatur 115 und eine Anzeige 120) und einen Allzweckcomputer 125 auf, der einen Prozessor 130, eine I/O-Einheit 135 und eine Soundkarte 140 aufweist. Ein Speicher 145 speichert Daten und Programme, wie ein Betriebssystem 150, ein Anwendungsprogramm 155 (z.B. ein Textverarbeitungsprogramm) und eine Spracherkennungssoftware 160.
  • Das Mikrophon 105 nimmt die Sprache eines Benutzers auf und überträgt die Sprache in Form eines Analogsignals zur Soundkarte 140, die wiederum das Signal durch einen Analog-Digital-(A/D)-Wandler schickt, um das Analogsignal in einen Satz digitaler Muster umzuwandeln. Unter Kontrolle des Betriebssystems 150 und der Spracherkennungssoftware 160 identifiziert der Prozessor 130 Äußerungen in der kontinuierlichen Sprache des Benutzers. Äußerungen werden voneinander durch eine Pause getrennt, die eine ausreichend große vorbestimmte Dauer aufweist (z.B. 160–250 Millisekunden). Jede Äußerung kann ein oder mehrere Worte der Sprache eines Benutzers enthalten.
  • Das System kann außerdem einen Analogaufzeichnung-Anschluss 165 und/oder einen Digitalaufzeichnung-Anschluss 170 aufweisen. Der Analogaufzeichnung-Anschluss 165 ist mit der Soundkarte 140 verbunden und wird dazu verwendet, Sprache, die unter Verwendung einer Handaufzeichnungsgerätes aufgezeichnet wurde, zur Soundkarte zu übertragen. Der Analogaufzeichnung-Anschluss kann als ein Mikrophon implementiert sein, das so angeordnet ist, dass es dem Sprecher mit dem Handaufzeichnungsgeräte nahe ist, wenn die Aufzeichnungsvorrichtung in den Anschluss 165 eingesteckt ist, und kann außerdem unter Verwendung des Mikrophons 105 oder als eine analoge Kabelverbindung implementiert sein. Alternativ kann der Analogaufzeichnung-Anschluss 165 als ein Bandabspielgerät implementiert sein, das ein Band aufnimmt, das unter Verwendung einer Handaufzeichnungsvorrichtung aufgezeichnet wird, und auf das Band aufgezeichnete Informationen zur Soundkarte 140 überträgt.
  • Der Digitalaufzeichnung-Anschluss 170 kann so implementiert sein, dass dieser eine digitale Datei übertragen kann, die unter Verwendung einer digitalen Handaufzeichnungsvorrichtung erzeugt wird. Diese Datei kann direkt in den Speicher 145 übertragen werden. Der Digitalaufzeichnung-Anschluss 170 kann als eine Speichervorrichtung (z.B. ein Diskettenlaufwerk) des Computers 125, oder als ein Modem oder eine Netzwerkkarte implementiert sein, die eine elektronische Kommunikation von einem entfernten Ort aus bereitstellt.
  • 2 veranschaulicht Komponenten der Spracherkennungssoftware 160. Zur Vereinfachung der Erläuterung gibt die folgende Beschreibung an, dass die Komponenten Vorgänge ausführen, um spezifizierte Ergebnisse zu erzielen. Jedoch sollte klar sein, dass jede Komponente tatsächlich den Prozessor 130 veranlasst, in der angegebenen Weise zu arbeiten.
  • Anfänglich wandelt ein Vorverarbeitungsmodul 200 die digitalen Muster 205 aus der Soundkarte 140 (oder aus dem Digitalaufzeichnung-Anschluss 170) in Frames von Parametern 210 um, die den Frequenzinhalt einer Äußerung repräsentieren. Jeder Frame enthält 24 Parameter und repräsentiert einen kurzen Abschnitt (z.B. 10 Millisekunden) der Äußerung.
  • Eine Erkennungseinrichtung 215 empfängt und verarbeitet die Frames einer Äußerung, um Text zu identifizieren, welcher der Äußerung entspricht. Die Erkennungseinrichtung führt mehrere Hypothesen über den Text aus und verbindet mit jeder Hypothese eine Bewertung. Die Bewertung spiegelt die Wahrscheinlichkeit wider, dass eine Hypothese der Sprache eines Benutzers entspricht. Zur Vereinfachung der Verarbeitung werden Bewertungen als negative logarithmische Werte aufbewahrt. Folglich zeigt eine niedrigere Bewertung eine bessere Anpassung (eine hohe Wahrscheinlichkeit) an, während eine höhere Bewertung eine weniger wahrscheinliche Anpassung (eine niedrigere Wahrscheinlichkeit) anzeigt, wobei die Wahrscheinlichkeit der Anpassung abnimmt, wenn die Bewertung zunimmt. Nach der Verarbeitung der Äußerung liefert die Erkennungseinrichtung die Hypothesen mit der besten Bewertung an das Steuer-/Schnittstellenmodul 220 als eine Liste von Erkennungskandidaten, wobei jeder Erkennungskandidat einer Hypothese entspricht und eine damit verbundene Bewertung aufweist. Einige Erkennungskandidaten können einem Text entsprechen, während andere Erkennungskandidaten Befehlen entsprechen.
  • Die Erkennungseinrichtung 215 verarbeitet die Frames 210 einer Äußerung in Hinblick auf eine oder mehrere Zwangsgrammatiken 225. Eine Zwangsgrammatik, die auch als ein Template oder eine Einschränkungsregel bezeichnet wird, kann eine Beschränkung auf Worte sein, die einer Äußerung entsprechen können, eine Beschränkung der Reihenfolge oder grammatikalischen Form der Worte oder beides sein. Zum Beispiel kann eine Zwangsgrammatik für Menümanipulationsbefehle nur Einträge aus dem Menü (z.B. "Datei", "Bearbeiten") oder Befehlsworte zur Navigation durch das Menü (z.B. "up", "down", "top", "bottom") enthalten. Es können unterschiedliche Zwangsgrammatiken zu unterschiedlichen Zeiten aktiv sein. Zum Beispiel kann eine Zwangsgrammatik mit einem bestimmten Anwendungsprogramm 155 verbunden sein und kann aktiviert werden, wenn der Benutzer das Anwendungsprogramm öffnet, und deaktiviert werden, wenn der Benutzer das Anwendungsprogramm schließt. Die Erkennungseinrichtung 215 verwirft jede Hypothese, die keiner aktiven Zwangsgrammatik entspricht. Zusätzlich kann die Erkennungseinrichtung 215 die Bewertung einer Hypothese, die mit einer bestimmten Zwangsgrammatik verbunden ist, beruhend auf den Eigenschaften der Zwangsgrammatik einstellen.
  • Eine Zwangsgrammatik 225, die durch die Spracherkennungssoftware 160 verwendet werden kann, ist eine Großvokabular-Diktiergrammatik. Die Großvokabular-Diktiergrammatik identifiziert Worte, die im aktiven Vokabular 230 enthalten sind, welches das Vokabular der Worte ist, die der Software bekannt sind. Das Großvokabular-Diktiergrammatik schreibt auch die Häufigkeit vor, mit der Worte auftreten. Ein Sprachmodell, das mit der Großvokabular- Diktiergrammatik verbunden ist, kann ein Unigram-Modell sein, das die Häufigkeit angibt, mit der ein Wort unabhängig vom Kontext vorkommt, oder ein Bigram-Modell, das die Häufigkeit angibt, mit der ein Wort im Kontext eines vorausgehenden Wortes vorkommt. Zum Beispiel kann ein Bigram-Modell anzeigen, dass es wahrscheinlicher ist, dass ein Substantiv oder Adjektiv dem Wort "the" folgt, als ein Verb oder eine Präposition.
  • Das aktive Vokabular 230 verwendet ein Aussprachemodell, in dem jedes Wort durch eine Reihe von Phonemen repräsentiert wird, welche die phonetische Schreibweise des Wortes umfassen. Jedes Phonem kann als ein Triphon, ein kontextabhängiges Phonem, repräsentiert werden, das drei Knoten enthält. Zum Beispiel repräsentiert das Triphon "abc" das Phonem "b" im Kontext der Phoneme "a" und "c", wobei dem Phonem "b" das Phonem "a" vorausgeht und das Phonem "c" folgt.
  • Die Phoneme werden durch akustische Modelle 235 repräsentiert. Im Fall von Triphonen repräsentieren die akustischen Modelle 235 jeden Triphonknoten als eine Mischung von Gauß'schen Wahrscheinlichkeitsdichte-Funktionen ("PDFs"). Zum Beispiel kann der Knoten "i" eines Triphons "abc" als abic repräsentiert werden: abic = Σ kwkN(μk, ck)wobei jedes wk eine Mischgewichtung ist, Σ kwk = 1μk ein mittlerer Vektor für die Wahrscheinlichkeitsdichtefunktion ("PDF") Nk, und ck die Kovarianzmatrix für die PDF Nk ist. Wie die Frames in der Abfolge von Frames, enthalten die Vektoren jeweils vierundzwanzig Parameter. Die Matrizen ck sind Matrizen der Größe vierundzwanzig mal vierundzwanzig. Jeder Triphonknoten kann als eine Mischung von zum Beispiel bis zu sechszehn unterschiedlichen PDFs repräsentiert werden.
  • Ein vollständiges Diktiervokabular besteht aus dem aktiven Vokabular 230 plus einem Hilfsvokabular 245. Das Hilfsvokabular kann Dateien enthalten, die benutzerspezifische Hilfsvokabularworte und systemweite Hilfsvokabularworte enthalten. Das systemweite Hilfsvokabular enthält alle Worte, die dem System bekannt sind, einschließlich der Worte, die sich gegenwärtig in einem aktiven Vokabular befinden können.
  • Während der Fehlerkorrektur beginnen Wortsuchen der Hilfsvokabulars mit dem benutzerspezifischen Hilfsvokabular und prüfen dann das systemweite Hilfsvokabular. Die Hilfsvokabulars werden auch durchsucht, wenn es neue Worte im Text gibt, die ein Benutzer getippt hat.
  • Die Erkennungseinrichtung 215 kann parallel mit einer Vorfilterungsprozedur 240 arbeiten. Nach der Einleitung der Verarbeitung einer Äußerung fordert die Erkennungseinrichtung 215 aus der Vorfilterungsprozedur 240 eine Liste von Worten an, die als das erste Wort der Äußerung ausgesprochen worden sind (d.h. Worte, die dem ersten und nachfolgenden Frame der Äußerung entsprechen können). Die Vorfilterungsprozedur 240 führt einen groben Vergleich der Abfolge von Frames mit dem aktiven Vokabular 230 durch, um einen Teilsatz des Vokabulars zu identifizieren, für die ein umfangreicherer Vergleich unter Verwendung der Erkennungseinrichtung gerechtfertigt ist.
  • Das Steuer-/Schnittstellenmodul 220 steuert den Betrieb der Spracherkennungssoftware und stellt eine Schnittstelle zu einer anderen Software oder zum Benutzer bereit. Das Steuer-/Schnittstellenmodul empfängt die Liste von Erkennungskandidaten für jede Äußerung vom Erkennungseinrichtung. Erkennungskandidaten können einem diktierten Text, Spracherkennungsbefehlen oder äußeren Befehlen entsprechen. Wenn der Erkennungskandidat mit der besten Bewertung dem diktierten Text entspricht, liefert das Steuer-/Schnittstellenmodul den Text an eine aktive Anwendung, wie ein Textverarbeitungsprogramm. Das Steuer-/Schnittstellenmodul kann auch durch eine graphische Benutzerschnittstelle dem Benutzer den Erkennungskandidaten mit der besten Bewertung anzeigen. Das Steuer-/Schnittstellenmodul steuert den Betrieb der Spracherkennungssoftware als Reaktion auf Spracherkennungsbefehle (z.B. "wake up, "make that"), und leitet äußere Befehle an die geeignete Software weiter.
  • Das Steuer-/Schnittstellenmodul steuert auch das aktive Vokabular, akustische Modelle und Zwangsgrammatiken, die durch den Erkennungseinrichtung verwendet werden. Wenn zum Beispiel die Spracherkennungssoftware in Verbindung mit einer bestimmten Anwendung (z.B. Microsoft Word) verwendet wird, aktualisiert das Steuer-/Schnittstellenmodul das aktive Vokabular, so dass es Befehlsworte enthält, die mit der Anwendung verbunden sind, und aktiviert Zwangsgrammatiken, die mit der Anwendung verbunden sind.
  • Andere Funktionen, die durch das Steuer-/Schnittstellenmodul 220 bereitgestellt werden, umfassen einen Vokabularanpasser und einen Vokabularverwalter. Der Vokabularanpasser optimiert das Sprachmodell eines spezifischen Themas, indem er den durch den Benutzer gelieferten Text abtastet. Der Vokabularverwalter ist ein Entwicklerwerkzeug, das verwendet wird, um Vokabulars, Grammatiken und Makros zu durchblättern und zu manipulieren. Jede solche Funktion des Steuer-/Schnittstellenmoduls 220 kann als ein ausführbares Programm implementiert sein, das von der Hauptspracherkennungssoftware getrennt ist. Entsprechend kann das Steuer-/Schnittstellenmodul 220 ebenfalls als ein getrenntes ausführbares Programm implementiert sein.
  • Das Steuer-/Schnittstellenmodul 220 kann auch ein Registrierungsprogramm bereitstellen, das einen Registrierungstext und eine entsprechende Registrierungsgrammatik verwendet, um die Spracherkennungssoftware an einen spezifischen Benutzer anzupassen. Das Registrierungsprogramm kann in einer interaktiven Betriebsart arbeiten, die den Benutzer durch den Registrierungsprozess führt, oder in einer nicht interaktiven Betriebsart, die es zulässt, dass der Benutzer unabhängig vom Computer registriert wird. In der interaktiven Betriebsart zeigt das Registrierungsprogramm dem Benutzer den Registrierungstext an, und der Benutzer liest den angezeigten Text. Wenn der Benutzer liest, verwendet die Erkennungseinrichtung 215 die Registrierungsgrammatik, um eine Abfolge von Äußerungen durch den Benutzer an aufeinanderfolgende Abschnitte des Registrierungstextes anzupassen. Wenn die Erkennungseinrichtung 215 erfolglos ist, fordert das Registrierungsprogramm den Benutzer auf, bestimmte Passagen des Textes zu wiederholen. Die Erkennungseinrichtung verwendet die akustische Information aus den Äußerungen des Benutzers, um die akustischen Modelle 235 zu trainieren oder anzupassen, die den passenden Abschnitten des Registrierungstextes entsprechen.
  • In der nicht interaktiven Betriebsart liest der Benutzer den Text ohne Aufforderung vom Computer. Dies bietet den erheblichen Vorteil, dass zusätzlich zum Lesen des Textes, der durch den Computer angezeigt wird, der Benutzer unabhängig vom Computer von einem gedruckten Text lesen kann. So könnte der Benutzer den Registrierungstext in eine tragbare Aufzeichnungsvorrichtung lesen und die aufgezeichnete Information später in den Computer zur Verarbeitung durch den Erkennungseinrichtung herunterladen, oder er könnte den Registrierungstext über eine Telefonleitung lesen. Zusätzlich ist es nicht erforderlich, dass der Benutzer jedes Wort des Registrierungstextes liest, und Worte oder Paragraphen überspringen kann, falls erwünscht. Der Benutzer kann außerdem Abschnitte des Textes wiederholen. Dies erweitert den Registrierungsprozess um eine wesentliche Flexibilität.
  • Das Registrierungsprogramm kann eine Liste von Registrierungstexten, von denen jeder eine entsprechende Registrierungsgrammatik aufweist, zur Auswahl durch den Benutzer bereitstellen. Alternativ kann der Benutzer einen Registrierungstext von einer anderen Quelle eingeben. In diesem Fall kann das Registrierungsprogramm die Registrierungsgrammatik aus dem eingegebenen Registrierungstext erzeugen, oder kann eine vorher erzeugte Registrierungsgrammatik einsetzen.
  • 3 zeigt eine Benutzerschnittstelle 300 des interaktiven Registrierungsprogramms. Die Benutzerschnittstelle 300 zeigt einen Registrierungstext 310 für einen Benutzer zum Lesen an, und zeigt die gegenwärtige Position des Benutzers an, die auch als die "Registrierungsposition" bezeichnet wird, zum Beispiel unter Verwendung eines beweglichen Pfeiles 320 im Registrierungstext. Die Anzeige der 3 zeigt eine Registrierungsposition am Wort "for" an, die anzeigt, dass das Registrierungsprogramm das Lesen des Benutzers des Registrierungstextes bis zum Wort "for" erkannt hat und dass der Registrierungsprozess weitergehen wird, wenn der Benutzer das Lesen beginnend mit dem Wort "for" fortsetzt. Im Gegensatz dazu zeigt die Anzeige der 4 eine Registrierungsposition beim Wort "program" an. Zusätzlich zur Verwendung des Pfeiles kann die Benutzerschnittstelle die Registrierungsposition anzeigen, indem sie Abschnitte des Textes hervorhebt, wenn sie erkannt werden, oder eine Schreibmarke an der Registrierungsposition anzeigt.
  • Unter Verwendung der Benutzerschnittstelle 300 der 3 startet der Benutzer das Registrierungsprogramm, indem er den Aufzeichnungsknopf 330 durch einen Sprachbefehl oder eine Eingabevorrichtung, wie eine Maus auswählt. Der Benutzer liest dann den angezeigten Text 310, wobei er mit dem Text an der Registrierungsposition beginnt, wie durch den Pfeil 320 angezeigt. Wenn der Benutzer liest, passt die Erkennungseinrichtung 215 die Sprache eines Benutzers an den Registrierungstext unter Verwendung der Registrierungsgrammatik an und rückt die Registrierungsposition (und den Pfeil 320) zum Anfang des nächsten Wortes vor, das ausgesprochen werden soll. Akustische Modelle, die dem Registrierungstext entsprechen, werden beruhend auf den passenden Benutzeräußerungen aktualisiert. Im allgemeinen verwendet die Erkennungseinrichtung 215 nicht die Vorfilterungsprozedur 240 während des Registrierungsprozesses.
  • Wie in 5 gezeigt, beginnt das Registrierungsprogramm damit, dass es die Registrierungsposition an den Anfang des Registrierungstextes setzt (Schritt 1510) und den Pfeil an der Registrierungsposition anzeigt (Schritt 1520). Das Registrierungsprogramm empfängt als nächstes die digitalisierte Sprache des Benutzers für eine Äußerung (Schritt 1530). Die Erkennungseinrichtung 215 stellt unter Verwendung der Registrierungsgrammatik, die dem Registrierungstext entspricht, fest, ob die Äußerung zu einem Abschnitt des Registrierungstextes passt, der an der Registrierungsposition beginnt (Schritt 1540). Da der Abschnitt des Textes, dem eine Äußerung entspricht, nicht angegeben ist, verwendet Die Erkennungseinrichtung 215 die Registrierungsgrammatik, um einen Abschnitt des Registrierungstextes zu identifizieren, der an der Registrierungsposition beginnt, die am besten zur Äußerung passt.
  • Wenn es keine Anpassung gibt, wiederholt das Registrierungsprogramm den Prozess des Abrufens und Vergleichens der Sprache eines Benutzers mit dem Registrierungstext (Schritte 1530, 1540). Wenn es keine Anpassung gibt, aktualisiert das Registrierungsprogramm die akustischen Modelle 235, die dem angepassten Abschnitt des Registrierungstextes entsprechen, beruhend auf der Benutzeräußerung (Schritt 1550). Alternativ kann das Registrierungsprogramm die akustischen Modelle aktualisieren, nachdem spezifische Segmente (wie Sätze oder Paragraphen) des Registrierungstextes erkannt worden sind, oder nachdem der gesamte Registrierungstext erkannt worden ist.
  • Wenn kein Registrierungstext nach dem angepassten Abschnitt des Registrierungstextes (Schritt 1560) übrig bleibt, endet das Registrierungsprogramm für diesen Registrierungstext (Schritt 1570). Wenn das Registrierungsprogramm mehrere Registrierungstexte bereitstellt, kann das Registrierungsprogramm nach der Beendigung eines Registrierungstextes automatisch den nächsten Registrierungstext beginnen, indem der neue Registrierungstext angezeigt wird und die Registrierungsposition an den Beginn dieses neuen Textes gesetzt wird (Schritt 1510).
  • Wenn der Registrierungstext bei Schritt 1560 bleibt, wird die Registrierungsposition zu dem Wort vorwärts bewegt, das dem angepassten Abschnitt des Registrierungstextes entspricht (Schritt 1580), die Pfeilanzeige wird aktualisiert, um auf die aktualisierte Registrierungsposition (Schritt 1520) zu zeigen, und der Registrierungsprozess geht weiter.
  • Es können unterschiedliche Verfahren verwendet werden, um festzustellen, ob eine Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt (Schritt 1540). Zum Beispiel kann die Registrierungsgrammatik so implementiert werden, dass sie erkennt, dass unterschiedliche Nutzer an unterschiedlichen Positionen im Registrierungstext innehalten, mit dem Ergebnis, dass Äußerungen unterschiedlicher Nutzer nicht einheitlich demselben Abschnitt des Registrierungstextes entsprechen. Wie oben angegeben, kann die Registrierungsgrammatik solche Situationen handhaben, indem sie es zulässt, dass unterschiedliche Längen der Registrierungstextes zu einer Benutzeräußerung passen.
  • Die Registrierungsgrammatik kann so implementiert werden, dass sie erwartete Variationen beim Lesen des Benutzers des Registrierungstextes bei der Feststellung, ob eine Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, erkennt und geeignet behandelt. Ein Beispiel einer solchen Variation ist die Diktierkonvention der Aussprache von Satzzeichen: am Ende eines Satzes kann der Benutzer das Wort "period" aussprechen. Um diese Situation zu handhaben, kann die Registrierungsgrammatik implementiert werden, das Wort "period" am Ende von Sätze als optional zu erkennen. Wenn folglich der Benutzer "period" sagt, passt die Registrierungsgrammatik die Sprache eines Benutzers an das Wort „period" zum Zweck der Aktualisierung der akustischen Modelle an. Wenn der Benutzer nicht „period" sagt, lässt die Registrierungsgrammatik das optionale Wort "period" aus und fährt mit dem nächsten Wort im Registrierungstext fort.
  • Ähnliche Regeln können zur Handhabung der Ausdrucksweise des Benutzer des Abstands (z.B. neue Zeile oder neuer Paragraph) und von Formatierungskonventionen (z.B. Großschreibung, fett, unterstreichen oder kursiv) implementiert werden. Zum Beispiel kann die Registrierungsgrammatik für die Textpassage, die in 3 dargestellt wird, in erweiterbarer Backus-Naur-Form (EBNF) ausgedrückt werden als:
    <recognition result>::=[Kapitälchen] dragon [Kapitälchen] systems is pleased to acknowledge [Kapitälchen] arthur [Kapitälchen] c [Pause] [Kapitälchen] clarke and [Kapitälchen] harper [Kapitälchen] collins [Kapitälchen] publishers for allowing as to use selections from [Kapitälchen] arthur [Kapitälchen] c [Pause] [Kapitälchen] {clarke's |clarke Apostrophe s} novel three thousand [und] one [Semikolon] [Kapitälchen] the [Kapitälchen] final [Kapitälchen] odyssey [Komma] for our training program [Pause],
    wobei
  • []
    optional bedeutet,
    <>
    eine Regel bedeutet,
    |
    eine ODER-Funktion bedeutet, und
    ::=
    "ist definiert als" oder "ist" bedeutet.
  • Die Registrierungsgrammatik wird modifiziert, wenn sich der Benutzer durch den Text vorwärts bewegt. Wenn sich zum Beispiel der Benutzer am Wort "for" im Text befindet, wie durch den Pfeil 320 in 3 angezeigt, kann die Registrierungsgrammatik in EBNF ausgedrückt werden als:
    <recognition result>::=for our training program [Pause]
    Alternativ kann der Registrierungsgrammatik als ein Satz von Regeln ausgedrückt werden. Anhang A enthält eine mögliche regelbasierte Grammatik für den Registrierungstext, der in 3 gezeigt wird. Ein Vorteil der regelbasierten Grammatik ist, dass sie nicht modifiziert werden muss, wenn der Benutzer sich durch den Text vorwärts bewegt.
  • Im allgemeinen reduziert die Verwendung des Registrierungsprogramms die Erkennungsfehlerrate des Spracherkennungssystems durch Anpassung akustischer Modelle an eine Sprache eines Benutzers beruhend auf der Aussprache eines Benutzers von Tönen, die diesen akustischen Modelle entsprechen, beim Vortragen des Registrierungstextes. Wenn jedoch der Benutzer etwas anderes sagt, als den erwarteten Registrierungstext, sollte die Sprache eines Benutzers nicht verwendet werden, um die akustischen Modelle zu aktualisieren, die dem erwarteten Registrierungstext entsprechen. Diese Situation kann zum Beispiel auftreten, wenn der Benutzer eine Zeile im angezeigten Text 310 auslässt, irrtümlicherweise ein angezeigtes Wort als ein anderes Wort liest, oder unterbrochen wird, während er den angezeigten Text liest, und sich an einem außerhalb liegenden Gespräch beteiligt. Diese Situation tritt auch auf, wenn das Spracherkennungssystem andere Töne als die Sprache eines Benutzers aufnimmt, wie Husten oder Niesen, oder Umgebungsgeräusche, wie Verkehr oder einen bellenden Hund.
  • Die Registrierungsgrammatik lässt den Erkennungseinrichtung 215 den Abschnitt des Registrierungstextes finden, welcher der Benutzeräußerung am besten entspricht. Jedoch lässt die Registrierungsgrammatik den Erkennungseinrichtung 215 nicht verifizieren, dass die Äußerung dem Registrierungstext tatsächlich entspricht. Zu diesem Zweck verwendet das Registrierungsprogramm eine Ablehnungsgrammatik in Verbindung mit der Registrierungsgrammatik, um Situationen zu erkennen, in denen die Töne, die durch den Erkennungseinrichtung detektiert werden, nicht zum erwarteten Registrierungstext passen. 6 führt den Prozess des Schrittes 1540 der 5 näher aus, wo sowohl die Registrierungsgrammatik als auch die Ablehnungsgrammatik verwendet werden, um Situationen zu detektieren, in denen die Benutzeräußerung nicht verwendet werden sollte, um die akustischen Modelle für einen Registrierungstext zu aktualisieren. Das Registrierungsprogramm identifiziert einen besten Erkennungskandidaten, welcher der Registrierungsgrammatik entspricht, und bestimmt die Bewertung, die durch den Erkennungseinrichtung 215 für jenen Kandidaten geliefert wird, als die Registrierungsbewertung (Schritt 1541). Die Erkennungseinrichtung 215 kann die Bewertung für den Kandidaten beruhend auf Kriterien bestimmen, wie der Anpassung akustischer Modelle und eines Wortkontexts.
  • Es kann sein, dass selbst der beste Erkennungskandidat keine gute Anpassung an den Registrierungstext ist. Wenn sich zum Beispiel die Registrierungsposition bei "for" befindet, wie in 3 gezeigt, und die Benutzeräußerung "from Arthur C. Clarke's novel" aus der vorhergehenden Zeile ist, wird die Erkennungseinrichtung 215 versuchen, die Äußerung an den Abschnitt der Registrierungsgrammatik anzupassen, die mit "for" beginnt, und wird einen Erkennungskandidaten erzeugen, welcher der besten Anpassung an jenen Abschnitt der Registrierungsgrammatik entspricht.
  • Das Registrierungsprogramm identifiziert außerdem einen besten Erkennungskandidaten, welcher der Ablehnungsgrammatik entspricht, und bestimmt eine Bewertung, die durch den Erkennungseinrichtung 215 bereitgestellt wird, für jenen Kandidaten als eine Ablehnungsbewertung (Schritt 1542). Im allgemeinen sollte die Ablehnungsbewertung besser als die Registrierungsbewertung sein, wenn die Benutzeräußerung dem erwarteten Abschnitt des Registrierungstextes nicht entspricht.
  • Die Ablehnungsgrammatik kann in EBNF ausgedrückt werden als:
    <recognition result>::=<phonemes>
    wobei
    <phonemes>::=Phoneme[<phonemes>]
    und Phonem irgendein Phonem in einem Ablehnungsgrammatik-Phonemsatz ist. Der Ablehnungsgrammatik-Phonemsatz wird so ausgewählt, dass die meisten Töne in der erwarteten Sprache vernünftig modelliert werden können. Wenn, wie im obigen Beispiel, die Ablehnungsgrammatik irgendeine Kombination von diesen Phonemen zulässt, kann die Verarbeitung, die erforderlich ist, um das am besten passende Phonemen für eine Äußerung zu finden, aufwendig sein. Folglich kann der Ablehnungsgrammatik-Phonemsatz nur einen Teilsatz des Satzes der Phoneme enthalten, die durch den Spracherkennungseinrichtung verwendet werden. Zum Beispiel veranschaulicht der beigefügte Anhang B einen Satz von fünfzig Phonemen, wobei ein Teilsatz von neunzehn der Phonemen im Ablehnungsgrammatik-Phonemsatz enthalten ist.
  • Die Ablehnungsgrammatik passt die Akustik der Benutzeräußerung an eine Folge von Phonemen aus dem Ablehnungsgrammatik-Phonemsatz an. Die Bewertung, die mit einem Ablehnungsgrammatik-Erkennungskandidaten verbunden ist, spiegelt das Maß wieder, in dem die Benutzeräußerung der angepassten Folge von Phonemen entspricht, und wird so bestimmt, dass es wahrscheinlich ist, dass die Ablehnungsbewertung besser als die Registrierungsbewertung ist, wenn die Benutzeräußerung zu keinem Abschnitt des Registrierungstextes passt.
  • Erneut auf das obige Beispiel der 3 bezugnehmend, in dem die Registrierungsposition sich bei "for" befindet und die Benutzeräußerung "from Arthur C. Clarke's novel" ist, wird die Registrierungsgrammatik wahrscheinlich zu einem Erkennungskandidaten mit einer Bewertung führen, die eine schlechte Anpassung widerspiegelt. Andererseits wird die Ablehnungsgrammatik zu einem Erkennungskandidaten führen, der nicht genau "from Arthur C. Clarke's novel" ist, jedoch wahrscheinlich näher liegen wird, als der Registrierungserkennungskandidat, der mit "for" beginnt. Folglich sollte die Ablehnungsgrammatik zu einem Erkennungskandidaten führen, der eine bessere Anpassung und eine bessere Bewertung aufweist.
  • Das Registrierungsprogramm stellt fest, ob die Benutzeräußerung zu einer Registrierungsäußerung passt, indem sie die Registrierungsbewertung mit der Ablehnungsbewertung vergleicht (Schritt 1543). Das genaue Verfahren des Vergleichs kann variieren. Zum Beispiel vergleicht das Registrierungsprogramm bei einer einfachen Vorgehensweise die Registrierungs- und Ablehnungsbewertungen, und stellt fest, wenn die Registrierungsbewertung besser als die Ablehnungsbewertung ist, dass die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt (Schritt 1544). Wenn die Ablehnungsbewertung besser als die Registrierungsbewertung ist, wie im obigen Beispiel, stellt das Registrierungsprogramm alternativ fest, dass die Benutzeräußerung zu keinem Abschnitt des Registrierungstextes passt (Schritt 1545).
  • Die Ablehnungsgrammatik ist unter Bezugnahme auf ihre Verwendung mit der Registrierungsgrammatik beschrieben worden. Jedoch kann sie auch unter anderen Umständen verwendet werden, und im allgemeinen wird sie immer dann verwendet, wenn die Großvokabular-Diktierzwangsgrammatik nicht aktiv ist. Zum Beispiel kann die Spracherkennungssoftware einen "Go To Sleep"-Befehl enthalten, der alle Zwangsgrammatiken mit der Ausnahme der Ablehnungsgrammatik und einer Grammatik zur Erkennung eines "Wake Up"-Befehls deaktiviert. Im Allgemeinen wird die Erkennungseinrichtung 215, nachdem der "Go To Sleep"-Befehl implementiert worden ist, nur den "Wake Up"-Befehl erkennen. Die Ablehnungsgrammatik ermöglicht es dem Steuer- /Schnittstellenmodul 220 zwischen dem "Wake Up"-Befehl und Geräuschen oder anderen Tönen zu unterscheiden.
  • Bezugnehmend auf 7, arbeitet das nicht interaktive Registrierungsprogramm gemäß einer Prozedur 1700. Anfangs erhält das Programm eine Benutzersprache, die einem Registrierungstext entspricht (Schritt 705). Diese Sprache entspricht dem gesamten Benutzervortrag des Registrierungstextes und kann auf eine Anzahl von Arten erhalten werden. Zum Beispiel kann der Benutzer die Sprache aufzeichnen, indem er einen gedruckten Text abliest, wobei er eine analoge Aufzeichnungsvorrichtung verwendet. Der Benutzer kann dann die aufgezeichnete Sprache dem Computer 125 unter Verwendung des Anschlusses 165 bereitstellen. Der gedruckte Text kann durch das Registrierungsprogramm bereitgestellt werden.
  • Der Benutzer kann die Sprache auch unter Verwendung einer digitalen Aufzeichnungsvorrichtung aufzeichnen. In diesem Fall kann der Benutzer eine digitale Datei, die der aufgezeichneten Sprache entspricht, unter Verwendung des Anschlusses 170 bereitstellen.
  • Der Benutzer kann die Sprache auch unter Verwendung des Mikrophons 105 und durch Ablesen eines gedruckten Textes oder eines Textes bereitstellen, der auf der Anzeige 120 angezeigt wird. Im Gegensatz zum interaktiven Registrierungsprogramm treibt das nicht interaktive Registrierungsprogramm den Benutzer hinsichtlich der Position des Benutzers im Text nicht an. Vielmehr verwendet das nicht interaktive Registrierungsprogramm einen Texteditor oder vergleichbares Programm, um den gesamten Registrierungstext anzuzeigen und den Benutzer durch den Registrierungstext steuern zu lassen, falls erwünscht. Alternativ könnte das Registrierungsprogramm eine gedruckte Ausgabe des Registrierungstextes für den Benutzer zum Lesen bereitstellen.
  • Nachdem der Benutzer den Registrierungstext spricht, verarbeitet das Programm die Sprache, um Sätze von Frames zu erzeugen, die Benutzeräußerungen entsprechen (Schritt 1710). Wenn die Sprache unter Verwendung des Anschlusses 165 oder des Mikrophons 105 geliefert wird, verarbeitet das Programm die Sprache unter Verwendung der Soundkarte 140 und der Prozedur 300, wie oben erläutert. Wenn die Sprache unter Verwendung des Anschlusses 170 geliefert wird, umfasst die Verarbeitung typischerweise die Neuformatierung der Inhalte der digitalen Datei. In jedem Fall kann das Programm feststellen, dass die Sprache geendet hat, wenn das Programm Stille mit einer ausreichenden Dauer angetroffen hat (z.B. dreißig Sekunden).
  • Danach bestimmt das Registrierungsprogramm einen aktiven Abschnitt des Registrierungstextes und baut eine Registrierungszwangsgrammatik für den aktiven Abschnitt (Schritt 1715) auf. Zum Beispiel kann der aktive Abschnitt des Registrierungstextes anfangs aus den ersten drei bis fünf Paragraphen des Registrierungstextes bestehen. In diesem Fall baut das Registrierungsprogramm eine Registrierungsgrammatik auf, die Zwangsgrammatiken für jeden der bestimmten Anzahl von Paragraphen enthält. Im allgemeinen sind die Zwangsgrammatiken flexibel und erfordern es nur, dass der Benutzer eine Folge von Worten aus dem Registrierungstext in ihrer Reihenfolge ausgesprochen hat. Zum Beispiel kann eine Äußerung mit jedem Wort in der Registrierungsgrammatik beginnen, und kann mit jedem Wort in der Registrierungsgrammatik enden, so lange irgendwelche Zwischenworte der Äußerung in ihrer Reihenfolge in der Registrierungsgrammatik zwischen den Anfangs- und Endworten gefunden werden. Folglich läßt eine Registrierungsgrammatik es zu, dass eine Erkennung selbst dann stattfindet, wenn der Benutzer Worte, Sätze oder sogar ganze Paragraphen ausgelassen oder wiederholt hat.
  • Die Registrierungsgrammatik für die ersten fünf Paragraphen eines Registrierungstextes kann in EBNF ausgedrückt werden als:
    <recognition result>::=<paragraph 1>|<paragraph 2>|<paragraph 3>|<paragraph 4>|<paragraph 5>,
    wobei
    <paragraph n>::=[word1n[word2n[word3n ... wordmn]]]|[word2n[word3n ... wordmn]]| [wordmn],
    und
    "wordin" das Wort i aus dem Paragraphen n ist.
  • Wie oben erläutert, kann die Registrierungsgrammatik so implementiert werden, dass es erwartete Variationen beim Lesen des Benutzers des Registrierungstextes bei der Feststellung, ob eine Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt, erkennt und geeignet behandelt. Folglich berücksichtigt die Registrierungsgrammatik, wie bei der interaktiven Registrierungsgrammatik, zum Beispiel Satzzeichen, Abstand und Formatierung.
  • Danach ruft das Registrierungsprogramm eine Äußerung ab (Schritt 1720) und veranlasst den Erkennungseinrichtung, eine Erkennung an der Äußerung unter Verwendung der aktiven Registrierungsgrammatik durchzuführen (Schritt 1725). Diese Erkennung umfasst die Verwendung einer Ablehnungsgrammatik und läuft ab, wie oben bezüglich des interaktiven Registrierungsprogramms erläutert.
  • Wenn die Erkennungseinrichtung Worte in der Äußerung findet, die zum Registrierungstext passen (Schritt 1730), aktualisiert das Registrierungsprogramm die akustische Modelle für das Phonemen jener Worte (Schritt 1735). Alternativ kann das Registrierungsprogramm die Aktualisierung der akustischen Modelle verschieben, bis alle Äußerungen analysiert worden sind.
  • Nach der Aktualisierung der akustischen Modelle stellt das Registrierungsprogramm fest, ob der aktive Abschnitt des Registrierungstextes aktualisiert werden muß (Schritt 1740). Im allgemeinen aktualisiert das Registrierungsprogramm den aktiven Abschnitt, um ein Fenster von aktiven Paragraphen um die gegenwärtige Position der Sprache eines Benutzers im Registrierungstext aufzubewahren. Wenn folglich zum Beispiel die Erkennungseinrichtung gerade Text identifiziert hat, der im vierten Paragraphen des Registrierungstextes erscheint, und das Registrierungsprogramm einen aktiven Abschnitt von fünf Paragraphen aufbewahrt, der gegenwärtig die ersten bis fünften Paragraphen enthält, kann das Registrierungsprogramm den aktiven Abschnitt so aktualisieren, dass er die Paragraphen zwei bis sechs enthält.
  • Wenn der aktive Abschnitt des Registrierungstextes aktualisiert werden muß, aktualisiert das Registrierungsprogramm den aktiven Abschnitt und die aktive Registrierungsgrammatik (Schritt 1745). Folglich würde im oben angegebenen Beispiel das Registrierungsprogramm den Abschnitt der Zwangsgrammatik beseitigen, der dem ersten Paragraphen des Registrierungstextes entspricht, und würde einen Abschnitt hinzufügen, der dem sechsten Paragraphen entspricht. Die modifizierte Registrierungsgrammatik kann in EBNF ausgedrückt werden als:
    <recognition result>::=<paragraph 2>|<paragraph 3>|<paragraph 4>|<paragraph 5>|<paragraph 6>.
  • Wenn die verarbeitete Äußerung nicht die letzte Äußerung ist (Schritt 1750), ruft das Registrierungsprogramm die nächste Äußerung ab (Schritt 1720) und wiederholt den Prozess.
  • Bei der Bearbeitung der letzten Äußerung zeigt das Registrierungsprogramm einen Bericht der Registrierungsleistung an (Schritt 1755). Der Bericht kann eine Angabe des Prozentsatzes der Worte in der Sprache eines Benutzers enthalten, die erkannt wurden. Der Bericht kann außerdem eine Angabe der erwarteten Erkennungsleistung unter Verwendung der modifizierten akustischen Modelle enthalten. Der Benutzer kann die Information aus diesem Bericht verwenden, um festzustellen, ob es ergiebig wäre, den Registrierungsprozess zu wiederholen oder unter Verwendung eines anderen Textes zu registrieren.
  • Das Registrierungsprogramm erzeugt ein sprecherangepasstes Modell für den Benutzer, indem es sprecherunabhängige akustische Modelle, die dem Registrierungstext entsprechen, beruhend auf den Äußerungen des Benutzers anpasst. Wie oben beschrieben, repräsentieren die sprecherunabhängigen akustischen Modelle jeden Triphonknoten als eine Mischung von Gauß'schen Wahrscheinlichkeitsdichtefunktionen ("PDFs") Nk, die Erwartungsvektoren μk und Kovarianzmatrizen ck aufweisen, wobei der Beitrag, der durch jede PDF zum Triphonknoten geleistet wird, durch ein Mischungsgewicht wk repräsentiert wird. Das sprecherangepasste Modell verwendet die Mischungsgewichte wk und die Kovarianzmatrizen ck des sprecherunabhängigen Modells, verwendet jedoch angepasste Erwartungsvektoren μkA.
  • Bezugnehmend auf 8, erzeugt das Registrierungsprogramm die angepassten Erwartungsvektoren μkA gemäß einer Prozedur 1800. Beginnend mit den Erwartungsvektoren μk des sprecherunabhängigen Modells (Schritt 1805) verwendet das Registrierungsprogramm eine auf einer Transformation beruhende Vorgehensweise, um die angepassten Erwartungsvektoren μkA zu erzeugen. Die auf einer Transformation beruhende Vorgehensweise setzt voraus, dass ein angepasster Erwartungsvektor μkA ausgedrückt werden kann als: μkA = Aμk + b,wobei A und b Transformationen sind. Wenn jeder Erwartungsvektor 24 Einträge aufweist, ist A eine 24 × 24-Matrix und weist b 24 Einträge auf.
  • Danach erzeugt das Registrierungsprogramm Sammlungen von PDFs, von denen erwartet wird, dass sie sich eine gemeinsame Transformation teilen (Schritt 1810). Eine Sammlung C könnte die PDFs enthalten, die ähnlich klingende Triphone repräsentieren, wie alle PDFs, die mit Vokalen verbunden sind, oder alle PDFs, die mit Konsonanten verbunden sind. Eine andere Vorgehensweise bei der Erzeugung von Sammlungen ist es, PDFs zu gruppieren, die Erwartungsvektoren μk mit ähnlichen Werten aufweisen. Diese Vorgehensweise lässt eine vereinfachte Erzeugung großer Anzahlen von Sammlungen zu. Im allgemeinen können Implementierungen eine bis zu mehreren Hundert unterschiedliche Sammlungen enthalten. Anfängliche experimentelle Ergebnisse zeigen an, dass die erste Vorgehensweise bessere Ergebnisse liefert (d.h. Ergebnisse mit niedrigeren Erkennungsfehlerraten). Im allgemeinen können die Sammlungen vor der Registrierungssitzung identifiziert werden.
  • Danach stellt das Registrierungsprogramm für jede Sammlung alle Sprecherdaten für die PDFs zusammen, die in der Sammlung enthalten sind (Schritt 1815). Diese Sprecherdaten entsprechen die Benutzeräußerungen, die während der Registrierungssitzung erzeugt werden.
  • Als nächstes bestimmt das Registrierungsprogramm y[j], den Durchschnittswert des Sprecherdatenvektors für jedes PDF j (Schritt 1820). Wenn f[n] der Vektor für den n-ten Frames der Sprecherdaten ist, pj(n) die Wahrscheinlichkeit ist, dass der n-te Frames der Sprecherdaten einer PDF j entspricht (d.h. dem Mischungsgewicht wj für den Triphonknoten, der mit dem n-ten Frame der Sprecherdaten verbunden ist), und N die Gesamtzahl der Frames der Sprecherdaten ist, dann können y[j] und der Frameszählwert N[j] für den Frame j bestimmt werden als:
    Figure 00240001
    Dies wird üblicherweise als der Baum-Welch- oder EM-Algorithmus bezeichnet.
  • Als nächstes erzeugt das Registrierungsprogramm Transformationen (AC und bC) für jede Sammlung C unter Verwendung der Beziehung zwischen den Durchschnittswerten der Sprecherdaten und den PDFs aus dem sprecherunabhängigen Modell (Schritt 1825). Diese Beziehung kann allgemein ausgedrückt werden als: y[j] = ACx[j] + bC + ewobei x[j] dem Erwartungsvektor μj für eine PDF j entspricht und e ein Fehlerterm ist. Beruhend auf dieser Beziehung kann AC T, die Transponierte der Transformation AC, bestimmt werden als:
    Figure 00240002
    wobei xT[j] die Transponierte von x[j] ist, yT[j] die Transponierte von y[j] ist, und NC die Anzahl der Komponenten in der Sammlung C ist.
  • Die Transformation AC wird dann erzeugt, indem AC T transponiert wird, und die Transformation bC wird bestimmt als:
  • Figure 00250001
  • Unter Verwendung der Transformationen bestimmt das Registrierungsprogramm angepasste Erwartungsvektoren μjA für jede Komponente in der Sammlung C (Schritt 1830). Insbesondere werden die angepassten Erwartungsvektoren bestimmt als: μjA = ACμj + bC Das Registrierungsprogramm speichert dann die angepassten Erwartungsvektoren μjA zusammen mit einem Sprecherbezeichner als ein sprecherangepasstes Modell zur späteren Verwendung bei der Erkennung von Sprache durch den Benutzer (Schritt 1835). Dieser Prozess kann mehrere Male unter Verwendung der angepassten Modelle wiederholt werden, um die Frameszählwerte, Sprecher (N[j] und y[j]) und die Transformationsmatrix zu aktualisieren.
  • In einer anderen Implementierung können Bruchteile der sprecherunabhängigen Erwartungsvektoren (x[j]) und der sprecherspezifischen Erwartungsvektoren verwendet werden, um y[j] und N[j] zu berechnen:
    Figure 00250002
    wobei r die relative Wichtigkeit der sprecherunabhängigen Erwartungsvektoren und der Beobachtungsdaten steuert. Der Wert von r wird als eine Funktion der Menge der verfügbaren Anpassungsdaten optimiert.
  • Andere Ausführungsformen liegen innerhalb der Frame der folgenden Ansprüche. Zum Beispiel können die spezifischen Verfahren variieren, durch welche die Registrierungs- und Ablehnungsgrammatiken eine Benutzeräußerung bewerten. Entsprechend kann das Verfahren variieren, durch welches die Bewertungen ausgewertet werden, um festzustellen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes passt.
  • Die hier beschriebenen Techniken sind nicht auf irgendeine besondere Hardware oder Software-Konfiguration beschränkt; sie können in irgendeiner Rechner- oder Verarbeitungsumgebung Anwendung finden, die zur Spracherkennung verwendet werden. Die Techniken können in Hardware oder Software oder einer Kombination der beiden implementiert werden. Vorzugsweise werden die Techniken in Computerprogrammen implementiert, die auf programmierbaren Computern ausgeführt werden, die jeweils einen Prozessor, ein Speichermedium, das durch den Prozessor lesbar ist (einschließlich einem flüchtigen und nichtflüchtigen Speicher und/oder Speicherelementen), mindestens eine Eingabevorrichtung und eine oder mehrere Ausgabevorrichtungen aufweisen. Der Programmcode wird auf Daten angewendet, die unter Verwendung der Eingabevorrichtung eingegeben werden, um die beschriebenen Funktionen auszuführen und um Ausgabeinformationen zu erzeugen. Die Ausgabeinformationen wird an eine oder mehrere Ausgabevorrichtungen angelegt.
  • Jedes Programm wird vorzugsweise in einer prozeduralen oder objektorientierten Hochprogrammiersprache implementiert, um mit einem Computersystem zu kommunizieren. Jedoch können die Programme in Assembler- oder Maschinensprache implementiert werden, falls erwünscht. Auf jeden Fall kann die Sprache eine kompilierte oder interpretierte Sprache sein.
  • Jedes solche Computerprogramm wird vorzugsweise auf einem Speichermedium oder -Vorrichtung (z.B. CD-ROM, Festplatte oder Magnetdiskette) gespeichert, die durch einen programmierbaren Allzweck- oder Spezialzweckcomputer zur Konfiguration und zum Betreiben des Computers lesbar ist, wenn das Speichermedium oder -Vorrichtung durch den Computer gelesen wird, um die Prozeduren auszuführen, die in diesem Dokument beschrieben werden. Es wird auch erwogen, das System als ein computerlesbares Speichermedium zu implementieren, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium bewirkt, dass ein Computer in einer spezifischen und vordefinierten Weise arbeitet.
  • Anhang A
  • Das Folgende ist eine Registrierungsgrammatik für den Paragraphen, der für Beispiele im Patentdokument verwendet wird (die Regel, die in diesem Beispiel anfangs aktiviert wird, ist AltList0):
    rule0=Dragon[<rule1>]
    rule1=systems[<AftAlt1>]
    rule2=dragon[<rule3>]
    rule3=systems[<AftAlt1>]
    rule4=Dragon Systems[<AftAlt1>]
    AltList0=<rule0>|<rule2>|<rule4>|
    AftAlt1=is[<rule7>]
    rule7=please[<rule8>]
    rule8=to[<rule9>]
    rule9=acknoledge[<rule10>]
    rule10=Arthur[<AltList2>]
    rule11=C.[<AftAlt3>]
    rule12=[C\carbon][<rule13>]
    rule13=[.\dot][<AftAlt3>]
    rule14=[C\carbon][<rule15>]
    rule15=[.\period][<AftAlt3>]
    rule16=[C\carbon][<rule17>]
    rule17=[.\point][<AftAlt3>]
    rule18=[c\charlie][<rule19>]
    rule19=[.\dot][<AftAlt3>]
    rule20=[c\charlie][<rule2l>]
    rule21=[.\period][<AftAlt3>]
    rule22=[c\charlie][<rule23>]
    rule23=[.\point][<AftAlt3>]
    rule24=[C\Roman one hundred][<rule25>]
    rule25=[.\dot][<AftAlt3>]
    rule26=[C\Roman one hundred][<rule27>]
    rule27=[.\period][<AftAlt3>]
    rule28=[C\Roman one hundred][<rule29>]
    rule29=[.\point][<AftAlt3>]
    AltList2=<rule11>|<rule12>|<rule14>|<rule16>|<rule18>|<rule20>|<rule22>| <rule24>|<rule26>|<rule28>
    AftAlt3=Clarke[<rule32>]
    rule32=and[<AltList4>]
    rule33=harper[<AftAlt5>]
    rule34=Harper[<AftALt5>]
    AltList4=<rule33>|<rule34>
    AftAlt5=Collins[<rule37>]
    rule37=publishers[<rule38>]
    rule38=for[<rule39>]
    rule39=allowing[<rule40>]
    rule40=us[<rule41>]
    rule41=to[<rule42>]
    rule42=use[<rule43>]
    rule43=selections[<rule44>]
    rule44=from[<rule45>]
    rule45=Arthur[<AltList6>]
    rule46=C.[<AftAlt7>]
    rule47=[C\carbon][<rule48>]
    rule48=[.\dot][<AftAlt7>]
    rule49=[C\carbon][<rule50>]
    rule50=[.\period][<AftAlt7>]
    rule51=[C\carbon][<rule52>]
    rule52=[.\point][<AftAlt7>]
    rule53=[c\charlie][<rule54>]
    rule54=[.\dot][<AftAlt7>]
    rule55=[c\charlie][<rule56>]
    rule56=[.\period][<AftAlt7>]
    rule57=[c\charlie][<rule58>]
    rule58=[.\point][<AftAlt7>]
    rule59=[C\Roman one hundred][<rule60>]
    rule60=[.\dot][<AftAlt7>]
    rule61=[C\Roman one hundred][<rule62>]
    rule62=[.\period][<AftAlt7>]
    rule63=[C\Roman one hundred][<rule64>]
    rule64=[.\point][<AftAlt7>]
    AltList6=<rule46>|<rule47>|<rule49>|<rule51>|<rule53>|<rule55>|<rule57>| <rule59>|<rule61>|<rule63>
    <AftAlt7>=Clarke[<AltList8>]
    rule67=['s\apostrophe-ess][AftAlt9>]
    rule68=['s\iz\r][<AftAlt9>]
    rule69=['s\s\r][<AftAlt9>]
    rule70=['s\z\r][<AftAlt9>]
    rule71=['\apostrophe][<rule72>]
    rule72=[s\sierra][<AftAlt9>]
    rule73=['\close-single-quote][<rule74>]
    rule74=[s\sierra][<AftAlt9>]
    rule75=['\open-single-quote][<rule76>]
    rule76=[s\sierra][<AftAlt9>]
    AltList8=<rule67>|<AftAlt9>|<rule68>|<rule69>|<rule70>|<rule71>|<rule73>| <rule75>
    AftAlt9=novel[<AltList10>]
    rule79=3001[<AftAlt11>]
    rule80=30[<rule81>]
    rule81=01[<AftAlt11>]
    rule82=30[<rule83>]
    rule83=0[<rule84>]
    rule84=1[<AftAlt11>]
    rule85=3[<rule86>]
    rule86=0[<rule87>]
    rule87=01[<AftAlt11>]
    rule88=3[<rule89>]
    rule89=0[<rule90>]
    rule90=0[<rule91>]
    rule91=1[<AftAlt11>]
    AltList10=<rule79>|<rule80>|<rule82>|<rule85>|<rule88>
    rule93=[:\colon][<AftAlt13>]
    rule94=[:\numeric-colon][<AftAlt13>]
    AftAlt11=<rule93>|<AftAlt13>|<rule94>
    AftAlt13=the[<rule97>]
    rule97=final[<AltList14>]
    rule98=odyssey[<AftAlt15>]
    rule99=Odyssey[<AftAlt15>]
    AltList14=<rule98>|<rule99>
    rule101=[,\comma[<AftAlt17>]
    rule102=[,\numeric-comma][<AftAlt17>]
    AftAlt15=<rule101>|<AftAlt17>|<rule102>
    AftAlt17=for[<rule105>]
    rule105=our[<rule106>]
    rule106=training[<rule107>]
    rule107=program[<AltList18>]
    rule108=[.\dot][<AftAlt19>]
    rule109=[.\period][<AftAlt19>]
    rule110=[.\point][<AftAlt19>]
    AltList18=<rule108>|<AftAlt19>|<rule109>|<rule110>AftAlt19
  • Anhang B
  • Das Phonem-Kennzeichen in der ersten Spalte wird wie der/die groß geschriebene(n) Buchstabe(n) im zweiten Feld ausgesprochen. Die Phoneme, die einen Stern im dritten Feld aufweisen, befinden sich im Teilsatz 19, der für die Ablehnungsgrammatik verwendet wird.
  • Figure 00310001
  • Figure 00320001
    Figure 00330001

Claims (20)

  1. Computer-implementiertes Verfahren zum Registrieren einer Benutzers in einem Spracherkennungssystem, das aufweist: Erhalten von Daten, die die Sprache eines Benutzers repräsentieren (1705), wobei die Sprache mehrere Benutzeräußerungen enthält und einem Registrierungstext entspricht; Analysieren des akustischen Inhalts von Daten, die einer Benutzeräußerung entsprechen (1710); Feststellen beruhend auf der Analyse, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730); und wenn die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730), Verwenden des akustischen Inhalts der Benutzeräußerung, um akustische Modelle zu aktualisieren, die dem Abschnitt des Registrierungstextes entsprechen (1735); wobei das Feststellen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt, das Zulassen einer Feststellung aufweist, daß die Benutzeräußerung paßt, wenn der Benutzer Worte des Registrierungstextes ausgelassen hat (1715).
  2. Verfahren nach Anspruch 1, wobei das Erhalten von Daten das Erhalten von Daten aufweist, die unter Verwendung einer Aufzeichnungsvorrichtung aufgezeichnet werden, die physikalisch von dem Computer getrennt ist, der das Verfahren implementiert.
  3. Verfahren nach Anspruch 2, wobei: die Aufzeichnungsvorrichtung eine digitale Vorrichtung aufweist, und das Erhalten der Daten das Empfangen einer Datei von der digitalen Aufzeichnungsvorrichtung aufweist.
  4. Verfahren nach Anspruch 3, wobei das Erhalten von Daten das Empfangen von Signalen aufweist, die durch Wiedergeben der Sprache eines Benutzers unter Verwendung der Aufzeichnungsvorrichtung erzeugt werden.
  5. Verfahren nach Anspruch 2, wobei die Aufzeichnungsvorrichtung eine analoge Aufzeichnungsvorrichtung aufweist.
  6. Verfahren nach einem der vorhergehenden Ansprüche, das ferner die Kennzeichnung eines aktiven Abschnitts des Registrierungstextes aufweist (1715), wobei das Analysieren des akustischen Inhalts von Daten, die einer Benutzeräußerung entsprechen, das Analysieren der Daten relativ zum aktiven Abschnitt des Registrierungstextes aufweist.
  7. Verfahren nach Anspruch 6, das ferner das Identifizieren einer Position einer vorhergehenden analysierten Äußerung im Registrierungstext aufweist, wobei die Kennzeichnung eines aktiven Abschnitts des Registrierungstextes die Kennzeichnung eines aktiven Abschnitts beruhend auf der identifizierten Position aufweist.
  8. Verfahren nach Anspruch 7, wobei die Kennzeichnung des aktiven Abschnitts die Kennzeichnung eines Abschnitts aufweist, der Text enthält, der der Position vorangeht und ihr folgt.
  9. Verfahren nach Anspruch 8, wobei die Kennzeichnung des aktiven Abschnitts die Kennzeichnung eines Abschnitts aufweist, der einen Paragraphen, der die Position enthält, einen Paragraphen, der der Position vorangeht, und einen Paragraphen enthält, der der Position folgt.
  10. Verfahren nach einem der Ansprüche 6 bis 9, wobei das Analysieren der Daten relativ zum aktiven Abschnitt des Registrierungstextes das Versuchen aufweist, die Daten an Modelle für Worte anzupassen, die im aktiven Abschnitt des Registrierungstextes enthalten sind.
  11. Verfahren nach einem der Ansprüche 6 bis 9, wobei das Analysieren der Daten relativ zum aktiven Abschnitt des Registrierungstextes die Verwendung einer Registrierungsgrammatik aufweist, die dem aktiven Abschnitt des Registrierungstextes entspricht.
  12. Verfahren nach einem der Ansprüche 1 bis 5, wobei die Feststellung, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt, die Verwendung einer Registrierungsgrammatik aufweist, die dem Registrierungstext entspricht.
  13. Verfahren nach Anspruch 12, wobei die Feststellung, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt, ferner die Verwendung einer Ablehnungsgrammatik aufweist.
  14. Verfahren nach Anspruch 13, wobei die Ablehnungsgrammatik eine Phonemgrammatik aufweist.
  15. Verfahren nach Anspruch 14, wobei die Ablehnungsgrammatik eine Äußerung unter Verwendung eines Satzes von Phonemen modelliert, der kleiner als ein Satz von Phonemen ist, der durch die Registrierungsgrammatik verwendet wird.
  16. Verfahren nach einem der vorhergehenden Ansprüche, das ferner das Ignorieren der Benutzeräußerung aufweist, wenn die Benutzeräußerung zu keinem Abschnitt des Registrierungstextes paßt (1715).
  17. Computer-implementiertes Verfahren zum Registrieren eines Benutzers in einem Spracherkennungssystem, das aufweist: Aufzeichnen der Sprache eines Benutzers unter Verwendung einer tragbaren Aufzeichnungsvorrichtung (1705), wobei die Sprache einem Registrierungstext entspricht; Überfragen der aufgezeichneten Sprache zu einem Computer; wobei der Computer verwendet wird, um: einen akustischen Inhalt der aufgezeichneten Sprache zu analysieren (1710); beruhend auf der Analyse Abschnitte der Sprache zu identifizieren, die zu Abschnitten des Registrierungstextes passen (1730); Aktualisieren akustischer Modelle, die den angepaßten Abschnitten des Registrierungstextes entsprechen, unter Verwendung eines akustischen Inhalts passender Abschnitte der Sprache (1735).
  18. Verfahren nach Anspruch 17, wobei die aufgezeichnete Sprache Abschnitte des Registrierungstextes ausläßt oder wiederholt.
  19. Computer-Software, die auf einem computer-lesbaren Speichermedium (145) liegt, die Befehle aufweist, um einen Computer (125) zu veranlassen: Daten zu erhalten, die Sprache eines Benutzers repräsentieren (1705), wobei die Sprache mehrere Benutzeräußerungen enthält und einem Registrierungstext entspricht; einen akustischen Inhalt von Daten zu analysieren, die einer Benutzeräußerung entsprechen (1710); beruhend auf der Analyse zu bestimmen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730); und den akustischen Inhalt der Benutzeräußerung zu verwenden, um akustische Modelle zu aktualisieren, die einem Abschnitt des Registrierungstextes entsprechen, der zu der Benutzeräußerung (1735); wobei die Befehle den Computer dazu einrichten, eine Feststellung zuzulassen, daß die Benutzeräußerung paßt, wenn der Benutzer Worte des Registrierungstextes ausgelassen hat (1715).
  20. Spracherkennungssystem (100) zum Registrieren eines Benutzers, das aufweist: eine Eingabevorrichtung (105, 165, 170) zum Empfangen von Sprachsignalen; und einen Prozessor (130), der dazu eingerichtet ist: Daten zu erhalten, die die Sprache eines Benutzers repräsentieren (1705), wobei die Sprache (1705) mehrere Benutzeräußerungen enthält und einem Registrierungstext entspricht; einen akustischen Inhalt von Daten zu analysieren, die einer Benutzeräußerung entsprechen (1710); beruhend auf der Analyse zu bestimmen, ob die Benutzeräußerung zu einem Abschnitt des Registrierungstextes paßt (1730); den akustischen Inhalt der Benutzeräußerung zu verwenden, um akustische Modelle zu aktualisieren, die einem Abschnitt des Registrierungstextes entsprechen, der zu der Benutzeräußerung paßt (1735); und eine Feststellung zuzulassen, daß die Benutzeräußerung paßt, wenn der Benutzer Worte des Registrierungstextes ausgelassen hat (1715).
DE69923379T 1998-06-15 1999-06-15 Nicht-interaktive Registrierung zur Spracherkennung Expired - Lifetime DE69923379T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US94609 1998-06-15
US09/094,609 US6163768A (en) 1998-06-15 1998-06-15 Non-interactive enrollment in speech recognition

Publications (2)

Publication Number Publication Date
DE69923379D1 DE69923379D1 (de) 2005-03-03
DE69923379T2 true DE69923379T2 (de) 2006-02-16

Family

ID=22246143

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69923379T Expired - Lifetime DE69923379T2 (de) 1998-06-15 1999-06-15 Nicht-interaktive Registrierung zur Spracherkennung

Country Status (4)

Country Link
US (2) US6163768A (de)
EP (1) EP0965978B9 (de)
JP (1) JP4510953B2 (de)
DE (1) DE69923379T2 (de)

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6349281B1 (en) * 1997-01-30 2002-02-19 Seiko Epson Corporation Voice model learning data creation method and its apparatus
GB9723214D0 (en) * 1997-11-03 1998-01-07 British Telecomm Pattern recognition
US6304848B1 (en) * 1998-08-13 2001-10-16 Medical Manager Corp. Medical record forming and storing apparatus and medical record and method related to same
DE19847419A1 (de) * 1998-10-14 2000-04-20 Philips Corp Intellectual Pty Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US20020095290A1 (en) * 1999-02-05 2002-07-18 Jonathan Kahn Speech recognition program mapping tool to align an audio file to verbatim text
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
JP2003505778A (ja) 1999-05-28 2003-02-12 セーダ インコーポレイテッド 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
US6678658B1 (en) * 1999-07-09 2004-01-13 The Regents Of The University Of California Speech processing using conditional observable maximum likelihood continuity mapping
US6477493B1 (en) * 1999-07-15 2002-11-05 International Business Machines Corporation Off site voice enrollment on a transcription device for speech recognition
US6405167B1 (en) * 1999-07-16 2002-06-11 Mary Ann Cogliano Interactive book
US7110945B2 (en) * 1999-07-16 2006-09-19 Dreamations Llc Interactive book
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US7130800B1 (en) 2001-09-20 2006-10-31 West Corporation Third party verification system
US6401066B1 (en) 1999-11-09 2002-06-04 West Teleservices Holding Company Automated third party verification system
US7206746B1 (en) 1999-11-09 2007-04-17 West Corporation Third party verification system
US6434529B1 (en) * 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US8200485B1 (en) * 2000-08-29 2012-06-12 A9.Com, Inc. Voice interface and methods for improving recognition accuracy of voice search queries
US6556971B1 (en) * 2000-09-01 2003-04-29 Snap-On Technologies, Inc. Computer-implemented speech recognition system training
EP1187096A1 (de) * 2000-09-06 2002-03-13 Sony International (Europe) GmbH Anwendung an einen Sprecher mittels Beschneidung des Sprachmodells
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
EP1215659A1 (de) * 2000-12-14 2002-06-19 Nokia Corporation Örtlich verteiltes Spracherkennungssystem und entsprechendes Betriebsverfahren
US8180643B1 (en) 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US7739115B1 (en) 2001-02-15 2010-06-15 West Corporation Script compliance and agent feedback
US7664641B1 (en) 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US7191133B1 (en) 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US7966187B1 (en) 2001-02-15 2011-06-21 West Corporation Script compliance and quality assurance using speech recognition
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7200565B2 (en) * 2001-04-17 2007-04-03 International Business Machines Corporation System and method for promoting the use of a selected software product having an adaptation module
JP3795409B2 (ja) * 2001-09-14 2006-07-12 富士通株式会社 音声認識装置及び方法
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
US20030200094A1 (en) * 2002-04-23 2003-10-23 Gupta Narendra K. System and method of using existing knowledge to rapidly train automatic speech recognizers
US7403967B1 (en) 2002-06-18 2008-07-22 West Corporation Methods, apparatus, and computer readable media for confirmation and verification of shipping address data associated with a transaction
DE10229207B3 (de) * 2002-06-28 2004-02-05 T-Mobile Deutschland Gmbh Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
US6999918B2 (en) * 2002-09-20 2006-02-14 Motorola, Inc. Method and apparatus to facilitate correlating symbols to sounds
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
US20040230431A1 (en) * 2003-05-14 2004-11-18 Gupta Sunil K. Automatic assessment of phonological processes for speech therapy and language instruction
US7302389B2 (en) * 2003-05-14 2007-11-27 Lucent Technologies Inc. Automatic assessment of phonological processes
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
US20050055216A1 (en) * 2003-09-04 2005-03-10 Sbc Knowledge Ventures, L.P. System and method for the automated collection of data for grammar creation
US6930759B2 (en) * 2003-09-23 2005-08-16 Eastman Kodak Company Method and apparatus for exposing a latent watermark on film
US7634412B2 (en) * 2003-12-11 2009-12-15 Nuance Communications, Inc. Creating a voice response grammar from a user grammar
US9378187B2 (en) 2003-12-11 2016-06-28 International Business Machines Corporation Creating a presentation document
US8499232B2 (en) 2004-01-13 2013-07-30 International Business Machines Corporation Differential dynamic content delivery with a participant alterable session copy of a user profile
US7430707B2 (en) 2004-01-13 2008-09-30 International Business Machines Corporation Differential dynamic content delivery with device controlling action
US7571380B2 (en) 2004-01-13 2009-08-04 International Business Machines Corporation Differential dynamic content delivery with a presenter-alterable session copy of a user profile
US7890848B2 (en) 2004-01-13 2011-02-15 International Business Machines Corporation Differential dynamic content delivery with alternative content presentation
US20050240406A1 (en) * 2004-04-21 2005-10-27 David Carroll Speech recognition computing device display with highlighted text
US7827239B2 (en) 2004-04-26 2010-11-02 International Business Machines Corporation Dynamic media content for collaborators with client environment information in dynamic client contexts
US7519683B2 (en) 2004-04-26 2009-04-14 International Business Machines Corporation Dynamic media content for collaborators with client locations in dynamic client contexts
US7487208B2 (en) 2004-07-08 2009-02-03 International Business Machines Corporation Differential dynamic content delivery to alternate display device locations
US8185814B2 (en) 2004-07-08 2012-05-22 International Business Machines Corporation Differential dynamic delivery of content according to user expressions of interest
US7426538B2 (en) 2004-07-13 2008-09-16 International Business Machines Corporation Dynamic media content for collaborators with VOIP support for client communications
US9167087B2 (en) 2004-07-13 2015-10-20 International Business Machines Corporation Dynamic media content for collaborators including disparate location representations
US7912592B2 (en) * 2006-06-09 2011-03-22 Garmin International, Inc. Automatic speech recognition system and method for aircraft
US7881832B2 (en) * 2006-06-09 2011-02-01 Garmin International, Inc. Automatic speech recognition system and method for aircraft
US8731925B2 (en) * 2006-12-22 2014-05-20 Nuance Communications, Inc. Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US20090171663A1 (en) * 2008-01-02 2009-07-02 International Business Machines Corporation Reducing a size of a compiled speech recognition grammar
US8185646B2 (en) * 2008-11-03 2012-05-22 Veritrix, Inc. User authentication for social networks
US8536976B2 (en) * 2008-06-11 2013-09-17 Veritrix, Inc. Single-channel multi-factor authentication
US8166297B2 (en) 2008-07-02 2012-04-24 Veritrix, Inc. Systems and methods for controlling access to encrypted data stored on a mobile device
EP2196989B1 (de) * 2008-12-10 2012-06-27 Nuance Communications, Inc. Spracherkennung aus Grammatiken und Mustern
US10241752B2 (en) * 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
US9330667B2 (en) 2010-10-29 2016-05-03 Iflytek Co., Ltd. Method and system for endpoint automatic detection of audio record
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
CN102800312A (zh) * 2011-05-24 2012-11-28 鸿富锦精密工业(深圳)有限公司 语音控制系统及方法
US9037467B2 (en) 2012-01-02 2015-05-19 International Business Machines Corporation Speech effects
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9633661B1 (en) 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US11282528B2 (en) * 2017-08-14 2022-03-22 Lenovo (Singapore) Pte. Ltd. Digital assistant activation based on wake word association
US10490195B1 (en) * 2017-09-26 2019-11-26 Amazon Technologies, Inc. Using system command utterances to generate a speaker profile
GB2568902B (en) * 2017-11-29 2020-09-09 Auris Tech Ltd System for speech evaluation
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1169969A (en) * 1980-08-20 1984-06-26 Gregor N. Neff Dictation system and method
US4355302A (en) 1980-09-12 1982-10-19 Bell Telephone Laboratories, Incorporated Spelled word recognizer
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4674065A (en) 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US5054085A (en) * 1983-05-18 1991-10-01 Speech Systems, Inc. Preprocessing system for speech recognition
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
JPS60113298A (ja) * 1983-11-24 1985-06-19 富士通株式会社 特定話者音声認識装置
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
US4914704A (en) 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4991217A (en) * 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
DE3518337A1 (de) * 1985-06-01 1986-12-04 Herbert Dipl.-Ing. Kubin (FH), 7300 Esslingen Sprachgesteuertes elektronisches schreib- und drucksystem mit wechselmodulen fuer fremdsprachen
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US5468947A (en) * 1986-08-08 1995-11-21 Norand Corporation Pocket size data capture unit with processor and shell modules
US4866778A (en) 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
JPS63149699A (ja) * 1986-12-15 1988-06-22 富士通株式会社 音声入出力装置
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JP2609874B2 (ja) * 1987-10-20 1997-05-14 三洋電機株式会社 音声認識システム
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
US5031218A (en) 1988-03-30 1991-07-09 International Business Machines Corporation Redundant message processing and storage
US4931950A (en) * 1988-07-25 1990-06-05 Electric Power Research Institute Multimedia interface and method for computer system
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
AT391035B (de) * 1988-12-07 1990-08-10 Philips Nv System zur spracherkennung
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5054074A (en) * 1989-03-02 1991-10-01 International Business Machines Corporation Optimized speech recognition system and method
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
US5036538A (en) * 1989-11-22 1991-07-30 Telephonics Corporation Multi-station voice recognition and processing system
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5222190A (en) * 1991-06-11 1993-06-22 Texas Instruments Incorporated Apparatus and method for identifying a speech pattern
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US5444768A (en) * 1991-12-31 1995-08-22 International Business Machines Corporation Portable computer device for audible processing of remotely stored messages
ATE203119T1 (de) * 1992-03-06 2001-07-15 Dragon Systems Inc Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
US5398220A (en) * 1992-04-06 1995-03-14 Barker; Bruce J. Portable dictation recording device having a mechanism for transmitting recorded dictation to a remote device
US5333236A (en) * 1992-09-10 1994-07-26 International Business Machines Corporation Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5491774A (en) * 1994-04-19 1996-02-13 Comp General Corporation Handheld record and playback device with flash memory
US5600756A (en) * 1994-05-11 1997-02-04 Sony Corporation Method of labelling takes in an audio editing system
DE4434255A1 (de) * 1994-09-24 1996-03-28 Sel Alcatel Ag Vorrichtung zur Sprachaufzeichnung mit anschließender Texterstellung
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
US6212498B1 (en) * 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US5933804A (en) * 1997-04-10 1999-08-03 Microsoft Corporation Extensible speech recognition system that provides a user with audio feedback
WO1999000790A1 (en) * 1997-06-27 1999-01-07 M.H. Segan Limited Partnership Speech recognition computer input and device
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems

Also Published As

Publication number Publication date
US6424943B1 (en) 2002-07-23
JP4510953B2 (ja) 2010-07-28
EP0965978A1 (de) 1999-12-22
EP0965978B1 (de) 2005-01-26
EP0965978B9 (de) 2005-06-08
JP2000035795A (ja) 2000-02-02
DE69923379D1 (de) 2005-03-03
US6163768A (en) 2000-12-19

Similar Documents

Publication Publication Date Title
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE60201262T2 (de) Hierarchische sprachmodelle
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE68928097T2 (de) Spracherkennungssystem
DE69519328T2 (de) Verfahren und Anordnung für die Umwandlung von Sprache in Text
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
US6912498B2 (en) Error correction in speech recognition by correcting text around selected area
DE60309822T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69817844T2 (de) Verfahren und vorrichtung zur spracherkennungscomputereingabe
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE3788488T2 (de) Sprachenübersetzungssystem.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: COOPER TECHNOLOGIES COMPANY, HOUSTON, TEX., US

8327 Change in the person/name/address of the patent owner

Owner name: DRAGON SYSTEMS INC., NEWTON, MASS., US