DE69922104T2 - Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz - Google Patents

Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz Download PDF

Info

Publication number
DE69922104T2
DE69922104T2 DE69922104T DE69922104T DE69922104T2 DE 69922104 T2 DE69922104 T2 DE 69922104T2 DE 69922104 T DE69922104 T DE 69922104T DE 69922104 T DE69922104 T DE 69922104T DE 69922104 T2 DE69922104 T2 DE 69922104T2
Authority
DE
Germany
Prior art keywords
speech recognizer
hybrid
phonetic
word
transcriptions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69922104T
Other languages
English (en)
Other versions
DE69922104D1 (de
Inventor
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69922104D1 publication Critical patent/DE69922104D1/de
Application granted granted Critical
Publication of DE69922104T2 publication Critical patent/DE69922104T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf Spracherkenner. Insbesondere bezieht sich die Erfindung auf einen Erkenner mit niedrigem Speicherplatzbedarf, der für eingebettete Anwendungen geeignet ist, bei denen die zur Verfügung stehenden Speicher- und Prozessorressourcen begrenzt sind. Neue Wörter werden dem Wortschatz des Erkenners durch Eingabe als buchstabierte Wörter hinzugefügt, die dann in phonetische Transkriptionen und anschließend in syllabische Transkriptionen zum Einspeichern in den Wortschatz umgewandelt werden.
  • Der derzeitige Konsumgütertrend zielt auf die Integration der Sprachtechnologie, um die Benutzung dieser Güter zu vereinfachen. Viele Konsumgüter, wie beispielsweise Mobiltelefone, bieten ideale Gelegenheiten zur Nutzung der Sprachtechnologie, stellen jedoch auch eine Herausforderung dar, weil Speicherkapazität und Verarbeitungsleistung oft begrenzt sind. Betrachtet man den speziellen Fall der Anwendung von Sprachtechnologie auf das sprachausgelöste Mobiltelefonwählen, so muss der eingebettete Erkenner in einen relativ kleinen nichtflüchtigen Speicherplatz eingepasst werden, und außerdem ist der vom Erkenner betrieblich genutzte Schreib-Lese-Speicher auch ziemlich begrenzt.
  • Um mit der Speichernutzung sparsam umzugehen, hat das typische eingebettete Erkennersystem ein sehr beschränktes, oft statisches Vokabular. Die flexibleren Erkenner mit großem Vokabular, die einen phonetischen Ansatz mit statistischen Methoden verbinden, wie beispielsweise dem Hidden-Markow-Modell (HMM), sind für viele eingebettete Systemanwendungen viel zu speicherhungrig. Außerdem modellieren die leistungsfähigeren Allzweckerkenner Wörter auf Wortteileinheiten, wie zum Beispiel Phonemen, die verkettet werden, um die Wortmodelle zu definieren. Diese Modelle sind oft kontextabhängig. Sie speichern verschiedene Versionen eines jeden Phonems, je nachdem welche benachbarten Phoneme vorausgehen und folgen (sie werden typischerweise als Triphone gespeichert). Für die meisten eingebetteten Anwendungen gibt es einfach zu viele Triphone, um sie alle in einem kleinen Speicherplatz unterzubringen.
  • Im Zusammenhang mit dem Speicherkapazitätsproblem fällt es vielen eingebetteten Systemen schwer, einen Benutzer zufrieden zu stellen, der dem Wortschatz für erkannte Wörter neue Wörter hinzufügen will. Ein Beispiel für eine derartige Erweiterung des Wortschatzes wird in EP-A-562 138 offenbart. Dabei ist nicht nur die Wortschatzspeicherkapazität begrenzt, sondern auch die Kapazität des Zwischenspeichers, der gebraucht wird, um den Wortschatzerweiterungsprozess auszuführen. Bei eingebetteten Systemen, wie beispielsweise dem Mobiltelefon, wo der Prozessor andere Aufgaben ausführen muss, kann es außerdem vorkommen, dass konventionelle Wortschatzerweiterungsverfahren innerhalb einer annehmbaren Zeitspanne nicht realisierbar sind. Die bei der herkömmlichen Erkennertechnologie üblichen Benutzerdialogfunktionen sind ebenfalls begrenzt. Zum Beispiel wird in einem herkömmlichen Erkennersystem typischerweise ein Führungstext benutzt, um zu bestätigen, dass ein vom Benutzer ausgesprochenes Wort richtig erkannt wurde. In konventionellen Systemen kann der Führungstext eine codierte Version der aufgezeichneten Sprache des Benutzers sein. In einigen stark beschränkten eingebetteten Systemen können solche Führungstexte unpraktisch sein, da die codierte Version der aufgezeichneten Sprache (Führungssprache) zu viel Speicherplatz erfordert.
  • Erfindungsgemäß wird ein Spracherkenner nach Anspruch 1 zur Verfügung gestellt.
  • Die vorliegende Erfindung geht die obigen Probleme dadurch an, dass sie einen Erkenner mit niedrigem Speicherplatzbedarf zur Verfügung stellt, der schnell und ohne großen Speicherbedarf durch die buchstabierte Eingabe neuer Wörter trainiert werden kann. Der Benutzer gibt Buchstaben ein, etwa über eine Tastatur oder den Tastwahlblock eines Telefons, und diese Zeichen werden durch einen Phonetisierer verarbeitet, der Entscheidungsbäume oder Ähnliches benutzt, um eine phonetische Transkription des buchstabierten Wortes zu erzeugen. Falls erwünscht, kann der Phonetisierer eine Vielzahl von Transkriptionen erzeugen, aus der sich die n-besten Transkriptionen ergeben. Wo Speicherkapazität sehr knapp ist, können die n-besten Transkriptionen mit Hilfe einer Konfusionsmatrix erzeugt werden, die auf der Basis der vom Phonetisierer erstellten einzelnen Transkription die n-besten Transkriptionen berechnet. Diese Transkriptionen werden dann in eine weitere Form umgewandelt, die auf den nachfolgend beschriebenen Hybridlauteinheiten basiert.
  • Zur Repräsentation von Wörtern im Wortschatz benutzt das System eine Hybridlauteinheit. Die vom Phonetisierer erzeugten Transkriptionen werden zwecks kompakter Speicherung im Wortschatz in diese Hybridlauteinheiten umgewandelt. Die Hybrideinheiten können aus einer Mischung von mehreren unterschiedlichen Lauteinheiten bestehen, einschließlich Silben, Halbsilben, Phonemen und Ähnlichem. Vorzugsweise werden die Hybrideinheiten so ausgewählt, dass die Klasse der größeren Lauteinheiten (z. B. Silben) die am häufigsten im Wortschatz gebrauchten Laute darstellt und dass eine oder mehrere Klassen kleinerer Lauteinheiten (z. B. Halbsilben und Phoneme) die weniger häufig vorkommenden Laute repräsentieren. Eine derartige Mischung führt zu einer mit den größeren Lauteinheiten verbundenen hohen Erkennungsqualität, ohne den hohen Speicherbedarf. Beispielsweise werden koartikulierte Laute besser durch die größeren Lauteinheiten verarbeitet.
  • Unter Benutzung eines Wörterbuchs für Hybridlauteinheiten werden die durch phonetische Transkription erzeugten Transkriptionen umgewandelt, um die n-besten Hybrideinheits-Transkriptionen zu erhalten. Falls erwünscht, kann in dieser Phase den Transkriptionen durch Entscheidungsbäume oder Ähnliches ein neuer Score zugeteilt werden. Als Alternative wird die beste Transkription (oder das Set der n-besten Transkriptionen) durch Benutzerdialog oder durch Vergleich mit der Spracheingabe des Benutzers (z. B. über das Mikrophon eines Mobiltelefons) extrahiert.
  • Aus der extrahierten besten Transkription oder den extrahierten n-besten Transkriptionen wird dann durch Auswahl von vorher gespeicherten Hybrideinheiten aus dem Hybrideinheits-Wörterbuch eine Wortvorlage konstruiert, und diese Einheiten werden zu einem Hybrideinheits-String verkettet, der das Wort repräsentiert. Vorzugsweise werden die Hybrideinheiten durch eine geeignete sprecherunabhängige Repräsentation repräsentiert; zur Zeit wird eine Lautähnlichkeitsrepräsentation bevorzugt, obwohl andere Repräsentationen verwendet werden können. Das buchstabierte Wort (Buchstaben) und der Hybrideinheits-String (verkettete Hybrideinheiten) werden im Wortschatz als neuer Eintrag gespeichert. Falls erwünscht, kann das gespeicherte buchstabierte Wort als Führungstext benutzt werden, indem es auf dem LCD-Display des Konsumguts aufgezeigt wird.
  • Der erfindungsgemäße Erkenner ist sehr speichereffizient. Im Gegensatz zu dem großen Wortschatz der HMM-Parameter, den konventionelle Systeme enthalten, ist der Wortschatz der vorliegenden Erfindung recht kompakt. Man braucht nur wenige Bytes, um die Buchstaben des buchstabierten Wortes und den dazugehörigen Hybrideinheits-String zu speichern. Die auf Hybrideinheiten basierende Wortmodellrepräsentation ist sehr kompakt, und das bei der Konstruktion der Wortvorlagen benutzte Hybrideinheits-Wörterbuch ist auch bedeutend kleiner als die Wörterbücher konventioneller Systeme.
  • Ein vollständigeres Verständnis der Erfindung, ihrer Aufgaben und Vorteile ergibt sich aus der nachfolgenden Spezifikation und den beigefügten Zeichnungen.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm einer erfindungsgemäßen Ausführungsart des Erkenners; und
  • 2 ist ein Flussdiagramm, das einen derzeitig bevorzugten Syllabierungsprozess veranschaulicht;
  • 3 ist ein Blockdiagramm, das den derzeitig bevorzugten Phonetisierer bei der Verwendung von Entscheidungsbäumen veranschaulicht;
  • 4 ist ein Baumdiagramm, das eine auf Buchstaben beschränkte Baumstruktur zeigt; und
  • 5 ist ein Baumdiagramm, das eine erfindungsgemäße Gemischtbaumstruktur zeigt.
  • Ausführliche Beschreibung der bevorzugten Ausführungsarten
  • Mit Bezug auf 1 wird der erfindungsgemäße Spracherkenner im Zusammenhang mit einer typischen Konsumgutanwendung beschrieben, in diesem Fall einer Mobiltelefonanwendung. Man wird sich natürlich bewusst sein, dass die Prinzipien der Erfindung in einer Vielzahl von Anwendungen realisiert werden können und deshalb nicht auf die hier veranschaulichte Mobiltelefonanwendung beschränkt sind.
  • Das Erkennersystem speichert Einträge für alle Wörter, die es erkennen kann, in einem Wortschatz. Im Gegensatz zu konventionellen Erkennern repräsentiert dieses System aber jedes Wort als einen aus verketteten Hybrideinheiten bestehenden String. Im Falle der Mobiltelefonanwendung können einige der Wörter die Namen von Teilnehmern darstellen, denen der Benutzer Telefonnummern zugeordnet hat. So kann der Benutzer den Namen des Teilnehmers in das Mobiltelefongerät 12 sprechen, und das System erkennt dann den gesprochenen Namen und sucht die dazugehörige Telefonnummer auf, sodass die Verbindung aufgebaut werden kann.
  • Um besser zu verstehen, wie der erfindungsgemäße Erkenner Einträge in seinem Wortschatz repräsentiert, wird jetzt eine Beschreibung des derzeitig bevorzugten Wortregistriersystems vorgelegt. Das Wortregistriersystem ist der Mechanismus, mit dem neue Wörter durch buchstabierte Worteintragung dem Wortschatz hinzugefügt werden.
  • Um dem Wortschatz ein neues Wort hinzuzufügen, buchstabiert der Benutzer das Wort, wobei die buchstabierten Buchstaben die neue Worteingabe darstellen. Jedes geeignete Mittel kann benutzt werden, um die Buchstaben des buchstabierten Wortes einzugeben. Hardwaregeräte, wie beispielsweise Tastaturen oder Tastwahlblöcke, können verwendet werden. Spracherkennung kann auch benutzt werden, wobei der Erkenner die gesprochenen Buchstaben selbst in alphanumerische Zeichen umwandelt.
  • Das vom Benutzer eingegebene buchstabierte Wort wird dann vom Phonetisierer 14 verarbeitet. Der Phonetisierer 14 wandelt die Buchstaben des buchstabierten Wortes in eine oder mehrere phonetische Transkriptionen um. Die derzeitig bevorzugte Ausführungsart verwendet Entscheidungsbäume, um die Buchstaben in Phoneme umzuwandeln. Der derzeitig bevorzugte Phonetisierer verwendet einen Entscheidungsbaum pro Buchstaben des Alphabets; auf der Basis der Informationen über benachbarte Buchstaben erzeugt jeder Entscheidungsbaum die Wahrscheinlichkeit, dass ein gegebener Buchstabe eine gegebene phonetische Transkription hat. Eine ausführlichere Beschreibung des derzeitig bevorzugten, auf Entscheidungsbäumen basierenden Phonetisierers erscheint an späterer Stelle dieses Dokuments. Während Entscheidungsbaum-Technologie derzeitig bevorzugt wird, können auch andere algorithmische oder heuristische Methoden benutzt werden.
  • Der Phonetisierer 14 erzeugt für die buchstabierte Worteintragung mindestens eine phonetische Transkription und optional mehrere phonetische Transkriptionen. Der Phonetisierer ordnet jeder Umwandlung eines Buchstabens in ein Phonem einen Wahrscheinlichkeitswert oder einen Score zu, und diese Daten können dazu benutzt werden, die Transkriptionen nach der Rangordnung der n-besten einzustufen, wobei n ein ganzzahliger Wert ist. In einer Ausführungsart erzeugt der Phonetisierer 14 die n-besten Transkriptionen und gibt diese als eine Liste an das Hybrideinheits-Transkriptionsmodul 20 aus. In einer alternativen Ausführungsart erzeugt der Phonetisierer 14 eine einzige phonetische Transkription (z. B. die beste Transkription), und diese Transkription wird dann von einem Generator 18 für n-beste Transkriptionen verarbeitet, der eine Konfusionsmatrix 19 benutzt, um auf der Basis der vom Phonetisierer bereitgestellten einzelnen Transkription eine Liste der n-besten phonetischen Transkriptionen zu erzeugen. Die Konfusionsmatrix besteht aus einer vorgespeicherten Nachschlagetabelle oft miteinander verwechselter phonetischer Laute. Der Generator 18 benutzt die Konfusionsmatrix, um mehrfache Permutationen der ursprünglichen phonetischen Transkription zu erzeugen, indem er aus der Konfusionsmatrix erhaltene Laute substituiert.
  • Das Hybrideinheits-Transkriptionsmodul 20 verarbeitet die n-besten Transkriptionen, wobei diese in Hybrideinheits-Transkriptionen verwandelt werden. Die derzeitig bevorzugte Ausführungsart führt die Übersetzung von phonetischer Einheit in Hybrideinheit aus, indem sie zunächst das in 2 gezeigte Syllabierungsverfahren benutzt. Das Syllabierungsverfahren erzeugt eine Liste der n-besten syllabischen Transkriptionen. Das System befragt das Wörterbuch 30, um festzustellen, ob jede in der syllabischen Transkription enthaltene Silbe im Wörterbuch enthalten ist. Wenn das der Fall ist, wird die Silbe durch einen diese Silbe repräsentierenden gespeicherten Code substituiert. Eine nicht gefundene Silbe wird weiter in ihre einzelnen Untereinheitsteile (z. B. Halbsilben oder Phoneme) zerlegt, und es werden aus dem Wörterbuch 30 Codes ausgewählt, um diese Teile zu repräsentieren. So wird das Wort letztlich durch Hybrideinheiten (eine Mischung aus Silben, Halbsilben, Phonemen oder anderen geeigneten Lauteinheiten) repräsentiert. Jede dieser Hybrideinheiten wird durch Codes repräsentiert, die im Wörterbuch 30 nachgesehen werden. Diese Speichermethode spart im Wortschatz eine beträchtliche Menge Speicherplatz und stellt dabei geschliffene Transkriptionen mit guter Verarbeitung der koartikulierten Laute zur Verfügung, wodurch für robuste Spracherkennung gesorgt wird.
  • Um mit der Veranschaulichung fortzufahren, eine Silbe kann aus einem oder mehreren phonetischen Lauten bestehen. So ist die syllabische Transkription eine makroskopischere Repräsentation als die phonetische Transkription. Werden nur Silben zur Repräsentation von Wörtern benutzt, dann ergibt sich ein vergleichsweise umfangreicher Wortschatz. So könnten mindestens 1000 Silben nötig sein, um die Mehrzahl der Wörter in der englischen Sprache zu repräsentieren. Die erfindungsgemäße Ausführungsart mit niedrigem Speicherplatzbedarf vermeidet den großen Wortschatz, indem sie Wörter durch Hybrideinheiten repräsentiert, in denen nur die am meisten gebrauchten Silben beibehalten werden; die weniger oft gebrauchten Silben werden in kleinere Einheiten zerlegt, z. B. in Halbsilben oder Phoneme, und diese kleineren Einheiten werden anstelle dieser Silben verwendet. Daraus ergibt sich eine natürliche Datenverdichtung, die zur effizienten Speicherausnutzung der Erfindung beiträgt.
  • Das Modul 22 wählt aus den n-besten Hybrideinheits-Transkriptionen die beste Transkription oder die n-besten Transkriptionen aus. Eine Methode zur Auswahl der besten Transkription durch Befehl 22 ist die Verwendung der Spracheingabe des Benutzers. Der Benutzer spricht einfach den Namen in das Gerät 12, und das Modul 22 ordnet die gesprochene Eingabe den über das Modul 20 erhaltenen n-besten Transkriptionen zu, um die beste oder die n-besten Transkriptionen auszuwählen. Ein Vorteil dieser Extraktionsmethode liegt darin, dass das Erkennersytem inhärent für die Stimme dieses Benutzers codiert. Tatsächlich führt das zu einer äußerst wirtschaftlichen Sprecheranpassung, bei der Eintragungen in den Wortschatz auf die Stimme des Benutzers abgestimmt sind.
  • Als Alternative zur Extraktion durch Spracheingabe kann Modul 22 so konfiguriert werden, dass es mit einem Mechanismus zum Neuscoren 24 zusammenarbeitet, der jeder Transkription, auf Regeln bezüglich phonetischer Informationen basierend, neue Wahrscheinlichkeitsscores zuweist. Obwohl nicht erforderlich, kann der Mechanismus zum Neuscoren die Leistung steigern, und er stellt eine wünschenswerte Ergänzung dar, falls Speicher- und Prozessorressourcen vorhanden sind. Der derzeitig bevorzugte Mechanismus zum Neuscoren benutzt Entscheidungsbäume 26, bei denen es sich um gemischte Entscheidungsbäume handeln kann, die auf Buchstaben basierende Fragen und auf Phonemen basierende Fragen enthalten. Die unten gegebene Beschreibung der Entscheidungsbaum-Phonetisierer erklärt eine Ausführungsart eines solchen gemischten Entscheidungsbaum-Mechanismus zum Neuscoren.
  • Nach Auswahl der besten Transkription oder der n-besten Transkriptionen baut dann das Wortvorlage-Konstruktionsmittel 28 unter Benutzung des Wörterbuchs 30 eine sehr kompakte Repräsentation des Wortes auf. Das Wörterbuch repräsentiert Hybrideinheiten als Einheiten, die vom Mustervergleichsalgorithmus des erwünschten Erkenners benutzt werden können. Ähnlichkeitsbasierte Einheiten, wie beispielsweise auf Lautähnlichkeit basierende Einheiten, werden derzeitig bevorzugt, weil sie sprecherunabhängig gemacht werden können und weil sie speichereffizient sind. Hidden-Markow-Modelle können auch benutzt werden, um die Hybrideinheiten zu repräsentieren, obwohl eine solche Repräsentation größere Komplexität zur Folge hat.
  • Auf Lautähnlichkeit beruhende Repräsentationen der Hybrideinheiten können im Voraus konstruiert werden, wobei ein geeignetes Phonemwörterbuch zum Vergleich mit den Hybrideinheiten benutzt wird, um die Lautähnlichkeit zu berechnen. Um das System sprecherunabhängig zu machen, darf die Datenbank viele Beispiele jeder Hybrideinheit enthalten, deren jedes dann mit dem Phonemwörterbuch verglichen wird, um für jede Einheit die Ähnlichkeit zu berechnen. Die Beispiele können als Trainingsdaten zur Verfügung gestellt werden. Die Ergebnisse werden dann unter Verwendung eines geeigneten Dynamic-Time-Warping-Algorithmus (DTW) gemeinsam zeitverzerrt, woraus für jede Hybrideinheit eine „durchschnittliche" Lautähnlichkeitsrepräsentation entsteht. Diese durchschnittlichen Lautähnlichkeitsparameter oder -repräsentationen werden dann im Wörterbuch 30 gespeichert. Obwohl die auf Lautähnlichkeit basierende Repräsentation wegen ihrer Robustheit und Wirtschaftlichkeit derzeit bevorzugt wird, können andere Repräsentationen benutzt werden, wozu Repräsentationen von den komplexen, sprecherunabhängigen Hidden-Markow-Modellen bis zur einfachen, weniger sprecherunabhängigen LPC-Codierung (Linear Predictive Coding) gehören.
  • Das Wortvorlage-Konstruktionsmittel baut einen verketteten String aus Lautähnlichkeitseinheiten auf, die den in der extrahierten Transkription enthaltenen Hybrideinheiten entsprechen. Dieser String wird dann in Verbindung mit dem buchstabierten Wort im Wortschatz gespeichert, wie durch die Datenstruktur 32 diagrammatisch veranschaulicht wird. Die Datenstruktur 32 enthält mit den Strings 36 assoziierte buchstabierte Worteintragungen 34. Die Datenstruktur kann auch andere Informationen speichern, wie beispielsweise assoziierte Telefonnummern von Teilnehmern, die durch die buchstabierten Wörter (Namen) repräsentiert werden.
  • Die Speicherung der buchstabierten Wörter 34 verleiht dem System die Fähigkeit, das erkannte Wort auf dem LCD-Display des Geräts 12 aufzuzeigen. Dadurch wird ein benutzerfreundliches, billiges Feedback zur Verfügung gestellt, wodurch der Benutzer Gewissheit erlangt, dass das System seine oder ihre gesprochene Eingabe richtig verstanden hat.
  • Als Nächstes wird mit Bezug auf 2 das derzeit bevorzugte Syllabierungsverfahren in den Schritten 16 veranschaulicht. Bei Sichtung des Flussdiagramms von 2 kann der Leser die unten reproduzierten Beispiele zu Rate ziehen. Die Beispiele veranschaulichen verschiedene Worteintragungen und demonstrieren, welche Vorgänge der Syllabierungsalgorithmus in jedem der sechs nummerierten Schritte ausführt. Die Zeilennummern in den Beispielen entsprechen den Schrittnummern in 2. In den Beispielen werden Winkelklammern <> benutzt, um Silbengrenzen zu bezeichnen, und das Prozentzeichen % wird benutzt, um Wortgrenzen zu bezeichnen. Die Zahlen hinter den Phonemen entsprechen dem Betonungsgrad, der auf dem Phonem liegt. Der derzeit bevorzugte Phonetisierer 14 erzeugt die phonetische Ausgabe mit drei Betonungsniveaus 0, 1 und 2.
  • Mit Bezug auf 2 werden in Schritt 1 die Silbengrenzen um jedes betonte Phonem gelegt. So gehört eine Silbe zu jedem Phonem mit einer nachgesetzten Zahl, die das Betonungsniveau angibt. Als Nächstes werden alle intervokalischen velaren Nasale („ng") in Kodas gesetzt. Die Koda bezieht sich auf den Teil der Silbe, der dem Nukleus genannten Tonstärkegipfel der Silbe – meistens einem Vokal – nachfolgt. Der velare Nasal „ng" kann im Englischen nur in Kodas vorkommen. Mit Bezug auf Zeile 2 im ersten Beispiel beachte man, dass die Buchstaben „ng" zwischen Winkelklammern in die Kodaposition gebracht wurden, d. h. in die dem Nukleus nachfolgende Position.
  • Als Nächstes werden in Schritt 3 alle intervokalischen „s"- und „sh"-Phoneme in die entsprechenden Kopfpositionen gebracht. Der Kopf bezieht sich auf den Silbenteil, der dem Nukleus vorausgeht. Siehe z. B. Zeile 3 im unten angegebenen zweiten Beispiel. In Schritt 4 werden alle nicht syllabierten „s"- und „sh"-Phoneme, die betonten Vokalen unmittelbar folgen, in Kodas platziert.
  • Schritt 5 schließt sich dann an und optimiert die Köpfe mit dem verbleibenden intervokalischen, nicht syllabierten Material. Alle der verbleibenden intervokalischen, nicht syllabierten Phoneme werden getestet, um festzustellen, ob Sie einen Kopf formen können. Das wird dadurch erreicht, dass sie mit einer Liste möglicher Köpfe verglichen werden. Falls sie den Teil eines Kopfes ausmachen können, so werden sie jetzt entsprechend platziert. Falls sie nicht den Teil eines Kopfes bilden können, dann entfernt das Verfahren ein Phonem aus dem Stringanfang, bis der Rest einen möglichen Kopf bilden kann. Der Kopf wird an dieser Stelle geschaffen und bringt das Ende der Koda der vorangehenden Silbe an die Stelle heran.
  • Schließlich wird in Schritt 6 der Kopf der ersten Wortsilbe bis zum Wortanfang erweitert, und die Koda der letzten Wortsilbe wird bis ans Wortende erweitert. Die Schritte 5 und 6 betreffen die meisten Wörter, aber Schritte 14 betreffen nur eine beschränkte Teilmenge. Die folgenden Beispiele dienen der weiteren Veranschaulichung.
  • Beispiele:
  • In Schritt 2 wird der velare Nasal in die Koda gebracht.
  • ~bellingham #NAME;
    bcl b eh1 l ih0 ng ax0 m
    1 %bcl b <eh1> l <ih0> ng <ax0> m%
    2 %bcl b <eh1> l <ih0 ng> <ax0> m%
    3 %bcl b <eh1> l <ih0 ng> <ax0> m%
    4 %bcl b <eh1> l <ih0 ng> <ax0> m%
    5 %bcl b <eh1> <l ih0 ng> <ax0> m%
    6 %<bcl b eh1 > <l ih0 ng> <ax0> m%
  • In Schritt 3 wird das intervokalische „s" in den Kopf gebracht.
  • absences #
    ae1 bcl b s en0 s ih0 z
    1 %<ae1> bcl b s <en0> s <ih0> z%
    2 %<ae1> bcl b s <en0> s <ih0> z%
    3 %<ae1> bcl b s <en0> <s ih0> z%
    4 %<ae1> bcl b s <en0> <s ih0> z%
    5 %<ae1 bcl b> <s en0> <s ih0> z%
  • In Schritt 3 wird das intervokalische „sh" in den Kopf gebracht.
  • abolitionist #
    ae2 bc1 b ax0 l ih1 sh ih0 n ih0 s tcl t
    1 %<ae2> bcl b <ax0> l <ih1> sh <ih0> n <ih0> s
    tcl t%
    2 %<ae2> bcl b <ax0> l <ih1> sh <ih0> n <ih0> s
    tcl t%
    3 %<ae2> bcl b <ax0> l <ih1> <sh ih0> n <ih0> s
    tcl t%
    4 %<ae2> bcl b <ax0> l <ih1> <sh ih0> n <ih0> s
    tcl t%
    5 %<ae2> <bcl b ax0> <l ih1> <sh ih0> <n ih0> s
    tcl t%
    6 %<ae2> <bcl b ax0> <l ih1 > <sh ih0> <n ih0 s tcl
    t>%
  • In Schritt 4 wird das nicht syllabierte „s" in die Koda hinter den betonten Vokal gebracht.
  • ~abasement #
    ax0 bcl b ey1 s m ih0 n tcl t
    1 %<ax0> bcl b <ey1> s m <ih0> n tcl t%
    2 %<ax0> bcl b <ey1> s m <ih0> n tcl t%
    3 %<ax0> bcl b <ey1> s m <ih0> n tcl t%
    4 %<ax0> bcl b <ey1 s> m <ih0> n tcl t%
    5 %<ax0> <bcl b ey1 s> <m ih0> n tcl t%
    6 %<ax0> <bcl b ey1 s> <m ih0 n tcl t>%
  • In Schritt 4 wird das nicht syllabierte „sh" in die Koda hinter den betonten Vokal gebracht.
  • ~cochrane #/NAME;
    kcl k ow1 sh r ey2 n
    1 %kcl k <ow1> sh r <ey2> n%
    2 %kcl k <ow1> sh r <ey2> n%
    3 %kcl k <ow1> sh r <ey2> n%
    4 %kcl k <ow1 sh> r <ey2> n%
    5 %kcl k <ow1 sh> <r ey2> n%
    6 %<kcl k ow1 sh> <r ey2 n>%
  • Der Entscheidungsbaum-Phonetisierer
  • Der derzeit bevorzugte Phonetisierer ist ein Aussprachegenerator, der sich zweier Phasen bedient. Die erste Phase benutzt ein Set von ausschließlich aus Buchstaben bestehenden Entscheidungsbäumen 110, und die zweite Phase benutzt ein Set von gemischten Entscheidungsbäumen 112. Eine Eingabesequenz 114, wie beispielsweise die Buchstabensequenz B-I-B-L-E, wird einem mit dynamischer Programmierung arbeitenden Phonemsequenzgenerator 116 zugeführt. Der Sequenzgenerator benutzt die Nur-Buchstabenbäume 110, um eine Ausspracheliste 118 zu erzeugen, worin die möglichen Aussprachekandidaten der buchstabierten Worteingabesequenz repräsentiert werden.
  • Der Sequenzgenerator prüft der Reihe nach jeden Buchstaben der Sequenz und setzt dabei den mit diesem Buchstaben assoziierten Entscheidungsbaum ein, um für diesen Buchstaben eine Phonemaussprache auszuwählen, wobei die Auswahl auf den Wahrscheinlichkeitsdaten basiert, die der Nur-Buchstabenbaum enthält.
  • Vorzugsweise enthält das Set der Nur-Buchstabenbäume einen Entscheidungsbaum für jeden Buchstaben des Alphabets. 4 zeigt ein Beispiel mit einem Nur-Buchstabenentscheidungsbaum für den Buchstaben E. Der Entscheidungsbaum enthält eine Vielzahl von Knoten (in der Abbildung durch Ovale veranschaulicht) und eine Vielzahl von Blättern (in der Abbildung durch Rechtecke veranschaulicht). Jeder Knoten ist mit einer Ja-Nein-Frage bestückt. Ja-Nein-Fragen sind Fragen, die entweder mit Ja oder mit Nein beantwortet werden können. In dem Nur-Buchstabenbaum werden diese Fragen an den gegebenen Buchstaben (in diesem Fall den Buchstaben E) und die ihm in der Eingabesequenz benachbarten Buchstaben gerichtet. Man beachte in 3, dass jeder Knoten nach links bzw. rechts abzweigt, je nachdem, ob die Antwort auf die assoziierte Frage Ja oder Nein ist.
  • Abkürzungen werden in 4 wie folgt verwendet: Zahlen in Fragen, wie beispielsweise „+1" oder „–1 ", beziehen sich auf die Positionen in der Buchstabierfolge relativ zum aktuellen Buchstaben. „+1L=='R'?" bedeutet zum Beispiel: „Ist der Buchstabe hinter dem aktuellen Buchstaben (wobei es sich in diesem Fall um den Buchstaben E handelt) ein R?". Die Abkürzungen CONS und VOW repräsentieren Buchstabenklassen, nämlich Konsonanten und Vokale. Die Abwesenheit eines benachbarten Buchstabens, d. h. des Leerbuchstabens, wird durch das Symbol – bezeichnet, das beim Aneinanderreihen gewisser Buchstaben mit den entsprechenden Phonemaussprachen als Füllfeld oder Platzhalter benutzt wird. Das Symbol # bezeichnet eine Wortgrenze.
  • Die Blätter werden mit Wahrscheinlichkeitsdaten bestückt, die mögliche Phonemaussprachen mit numerischen Werten assoziieren, wobei diese Werte die Wahrscheinlichkeit angeben, dass das fragliche Phonem die korrekte Aussprache des gegebenen Buchstabens repräsentiert. Die Bezeichnung „iy=> 0,51" bedeutet zum Beispiel: „Die Wahrscheinlichkeit von Phonem ,iy' in diesem Blatt ist 0,51". Das Leerphonem, d. h. Geräuschlosigkeit, wird durch das Symbol ,–' repräsentiert.
  • So benutzt der Sequenzgenerator 116 (3) die Nur-Buchstabenbäume 110, um eine oder mehrere Aussprachehypothesen zu konstruieren, die in Liste 118 gespeichert werden. Vorzugsweise wird jede Aussprache mit einem numerischen Score assoziiert, der dadurch bestimmt wird, dass die Wahrscheinlichkeitsscores der einzelnen Phoneme, die mit Hilfe des Entscheidungsbaums 110 ausgewählt wurden, kombiniert werden. Den Aussprachen eines Wortes können Scores zugewiesen werden, indem eine Matrix der möglichen Kombinationen konstruiert wird und dann durch dynamische Programmierung die n-besten Kandidaten ausgewählt werden. Als Alternative können die n-besten Kandidaten durch Anwendung einer Substitutionsmethode ausgewählt werden, die zunächst den wahrscheinlichsten Wortkandidaten identifiziert und dann weitere Kandidaten durch iterative Substitution erzeugt, wie im Folgenden gezeigt wird.
  • Die Aussprache mit dem höchsten Wahrscheinlichkeitsscore wird zuerst ausgewählt, indem die jeweiligen Scores der Phoneme mit den höchsten Scores (wobei die Identifizierung durch Untersuchen der Blätter erfolgt) multipliziert werden und diese Auswahl dann als der wahrscheinlichste Kandidat oder als der beste Wortkandidat benutzt wird. Weitere (n-beste) Kandidaten werden dann ausgewählt, indem die Phonemdaten in den Blättern erneut untersucht werden, um das Phonem zu identifizieren, das noch nicht ausgewählt wurde und die kleinste Differenz zu einem ursprünglich ausgewählten Phonem aufweist. Dieses Phonem minimaler Differenz ersetzt dann das zuerst ausgewählte und erzeugt damit den zweitbesten Wortkandidaten. Der obige Prozess kann dann iterativ wiederholt werden, bis die erwünschte Zahl n-bester Kandidaten ausgewählt worden ist. Liste 118 kann nach absteigenden Scores sortiert werden, sodass die durch Nur-Buchstabenanalyse als am besten beurteilte Aussprache an der Spitze der Liste steht.
  • Wie oben festgestellt wurde, führt eine Nur-Buchstabenanalyse oft zu schlechten Resultaten. Das ist darauf zurückzuführen, dass die Nur- Buchstabenanalyse nicht in der Lage ist, bei jedem Buchstaben zu bestimmen, welches Phonem von nachfolgenden Buchstaben erzeugt wird. So kann eine Nur-Buchstabenanalyse eine Aussprache mit hohem Score erzeugen, die tatsächlich in natürlicher Sprache nicht vorkommen könnte. Der Eigenname Achilles würde beispielsweise zu einer Aussprache führen, die ein l zweimal artikuliert: ah-k-ih-l-l-iy-z [englische Aussprache]. Tatsächlich bleibt das zweite l in natürlicher Sprache stumm: ah-k-ih-l-iy-z. Der Sequenzgenerator, der Nur-Buchstabenbäume benutzt, hat keinen Mechanismus, um Wortaussprachen herauszufiltern, die in natürlicher Sprache nie vorkommen würden.
  • Die zweite Phase des Aussprachesystems befasst sich mit dem obigen Problem. Eine mit Gemischtbäumen arbeitende Scoreschätzfunktion 120 benutzt das Set gemischter Entscheidungsbäume 112, um die Realisierbarkeit einer jeden Aussprache in Liste 118 zu beurteilen. Die Scoreschätzfunktion untersucht nacheinander jeden Buchstaben in der Eingabesequenz im Zusammenhang mit den jedem Buchstaben vom Sequenzgenerator 116 zugewiesenen Phonemen.
  • Wie das Set der Nur-Buchstabenbäume einen Nur-Buchstabenbaum für jeden Buchstaben des Alphabets hat, so hat das Set der Gemischtbäume einen Gemischtbaum für jeden Buchstaben des Alphabets. Ein beispielhafter Gemischtbaum wird in 5 gezeigt. Wie der Nur-Buchstabenbaum hat der Gemischtbaum Knoten und Blätter. In 5 werden die Knoten durch Ovale und die Blätter durch Rechtecke veranschaulicht. Jeder der Knoten wird mit einer Ja-Nein-Frage bestückt, und jedes der Blätter wird mit Wahrscheinlichkeitsdaten bestückt. Obwohl die Baumstruktur des Gemischtbaums der Baumstruktur des Nur-Buchstabenbaums ähnelt, gibt es einen wichtigen Unterschied. Die Knoten der Gemischtbäume können zwei verschiedene Klassen von Fragen enthalten. Ein Knoten kann eine Frage über einen gegebenen Buchstaben und die ihm in der Sequenz benachbarten Buchstaben enthalten, oder er kann eine Frage über das mit dem Buchstaben assoziierte Phonem und über die relativ zu dieser Sequenz benachbarten Phoneme enthalten. Der Entscheidungsbaum ist also in dem Sinne gemischt, dass er gemischte Klassen von Fragen enthält.
  • Die Abkürzungen von 5 ähneln denen von 4, es gibt aber einige zusätzliche Abkürzungen. Das Symbol L repräsentiert eine auf einen Buchstaben und die ihm benachbarten Buchstaben bezogene Frage. Das Symbol P repräsentiert eine auf ein Phonem und die ihm benachbarten Phoneme bezogene Frage. Die Frage „+1L=='D'?" bedeutet zum Beispiel: „Ist der Buchstabe in der Position +1 ein ,D'?". Die Abkürzungen CONS und SYL bezeichnen Phonemklassen, und zwar die Konsonanten- und Silbenklasse. Die Frage „+1P==CONS?" bedeutet zum Beispiel: „Ist das Phonem in der Position +1 ein Konsonant?". Wie in den Nur-Buchstabenbäumen bezeichnen die Zahlen in den Blättern Phonemwahrscheinlichkeiten.
  • Die Gemischtbaum-Scoreschätzfunktion gibt jeder der in Liste 118 enthaltenen Aussprachen einen neuen Score, der auf den Gemischtbaum-Fragen basiert und die Wahrscheinlichkeitsdaten in den Blättern der Gemischtbäume benutzt. Falls erwünscht, kann die Liste der Aussprachen in Verbindung mit dem jeweiligen Score wie in Liste 122 gespeichert werden. Falls erwünscht, kann Liste 122 absteigend sortiert werden, sodass die zuerst aufgelistete Aussprache den höchsten Score hat.
  • In vielen Fällen wird die Aussprache in der höchsten Scoreposition in Liste 122 von der Aussprache in der höchsten Scoreposition in Liste 118 verschieden sein. Das kommt vor, weil die Gemischtbaum-Scoreschätzfunktion die Gemischtbäume 112 benutzt und Aussprachen herausfiltert, die keine selbstkonsistenten Phonemsequenzen enthalten oder anderweitig Aussprachen repräsentieren, die in natürlicher Sprache nicht vorkommen.
  • Falls erwünscht, kann ein Selektormodul 124 auf Liste 122 zugreifen und eine oder mehrere der Aussprachen in der Liste abrufen. Typischerweise ruft der Selektor 124 die Aussprache mit dem höchsten Score ab und stellt sie als Ausgabeaussprache 126 zur Verfügung.
  • Ein Hybrideinheits-Worterkenner
  • Die ähnlichkeitsbasierte Hybrideinheits-Repräsentation ist für kompakte Spracherkenner gut brauchbar, die für eine Reihe von Konsumgüteranwendungen geeignet sind. Die dem Erkenner gelieferte Eingabesprache wird mit den Eintragungen im Wortschatz verglichen, wobei ein Mustervergleichsalgorithmus benutzt wird. Beispielsweise kann ein Dynamic-Time-Warping-Algorithmus (DTW) benutzt werden.
  • Um möglichen Variationen in Betonung oder Geschwindigkeit Rechnung zu tragen, mit denen Silben innerhalb eines buchstabierten Wortes ausgesprochen werden können, bedient sich das System einer Reihe von Regeln, nach denen die Dauer bestimmter Hybrideinheiten komprimiert oder expandiert werden kann. Die Silben in langen buchstabierten Wörtern werden manchmal schnell ausgesprochen. Diese Information kann beispielsweise dem Wortschatz hinzugefügt werden. Der Erkenner kann dann eine apriorische, zum Beispiel durch Zählen der Buchstaben der buchstabierten Wörter erworbene Kenntnis der Länge buchstabierter Wörter dazu nutzen, die gesprochene Eingabe dem richtigen Wortschatzeintrag besser zuzuordnen.
  • Zu den andere Methoden der Einbeziehung apriorischer Kenntnis der Aussprachevariationen gehört das Gewichten der zuverlässigeren Hybrideinheits-Informationen im Wortschatz. Die Grenzen der Hybrideinheiten können weniger zuverlässig sein als die Mittelrahmen. Der Mustervergleichsalgorithmus könnte deshalb die Mittelrahmen stärker gewichten als die Grenzen und auf diese Weise die zuverlässigsten Teile der Hybrideinheiten betonen.

Claims (18)

  1. Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz, der Folgendes umfasst: einen Phonetisierer (14) zum Erzeugen einer phonetischen Transkription der buchstabierten Worteingabe; einen Hybrideinheits-Generator (20), der für die phonetische Transkription rezeptiv ist, um mindestens eine auf der phonetischen Transkription basierende Hybrideinheits-Repräsentation der buchstabierten Worteingabe zu erzeugen, wobei eine Hybrideinheit eine Mischung von mehreren verschiedenen Lauteinheiten umfasst, die mindestens eine der folgenden Kategorien einschließt: Silben, Halbsilben oder Phoneme; und ein Wortvorlage-Konstruktionsmittel (28), das für das buchstabierte Wort eine für die Hybrideinheits-Repräsentation bezeichnende Symbolfolge erzeugt, die im Wortschatz gespeichert wird.
  2. Spracherkenner nach Anspruch 1, wobei der Phonetisierer ein Set von Entscheidungsbäumen enthält, die verschiedene den Buchstaben eines Alphabets entsprechende Phonemtranskriptionen identifizieren.
  3. Spracherkenner nach Anspruch 1, der außerdem einen Generator phonetischer Mehrfachtranskription enthält, der die phonetische Transkription in eine n-beste Vielzahl phonetischer Transkriptionen umwandelt.
  4. Spracherkenner nach Anspruch 3, wobei der Generator phonetischer Mehrfachtranskription eine Konfusionsmatrix enthält, die verschiedene Phonemtranskriptionen für verwechselbare Buchstaben eines Alphabets speichert.
  5. Spracherkenner nach Anspruch 1, wobei der Phonetisierer eine phonetische Transkription erzeugt und der Spracherkenner außerdem einen Generator phonetischer Mehrfachtranskription enthält, der diese eine phonetische Transkription in eine n-beste Vielzahl phonetischer Transkriptionen umwandelt.
  6. Spracherkenner nach Anspruch 1, wobei der Phonetisierer eine n-beste Vielzahl phonetischer Transkriptionen erzeugt.
  7. Spracherkenner nach Anspruch 1, wobei der Hybrideinheits-Generator eine Vielzahl von Hybrideinheits-Repräsentationen des buchstabierten Wortes erzeugt.
  8. Spracherkenner nach Anspruch 7, der außerdem einen Score-Prozessor aufweist, der jedem der Vielzahl von Hybrideinheits-Repräsentationen einen Score zuteilt und mindestens eine aus der Vielzahl von Hybrideinheits-Repräsentationen auswählt, die auf der Basis des Scores dem Wortvorlage-Konstruktionsmittel verfügbar gemacht werden soll.
  9. Spracherkenner nach Anspruch 8, wobei der Score-Prozessor ein Set von Entscheidungsbäumen enthält, die den verschiedenen Phonemtranskriptionen verschiedene Scores zuteilen.
  10. Spracherkenner nach Anspruch 1, der außerdem eine Sprachdateneingabe zum Bereitstellen von Ausspracheinformationen für das buchstabierte Wort aufweist.
  11. Spracherkenner nach Anspruch 10, wobei die Sprachdateneingabe eine Spracheingabe umfasst, womit Ausspracheinformationen geliefert werden, die auf der von einem Benutzer eingegebenen Sprache basieren.
  12. Spracherkenner nach Anspruch 10, wobei der Hybrideinheits-Generator eine Vielzahl von Hybrideinheits-Repräsentationen des buchstabierten Wortes erzeugt; und wozu außerdem ein Score-Prozessor gehört, der aus der Vielzahl von Hybrideinheits-Repräsentationen eine Hybrideinheits-Repräsentation auswählt, die auf der Basis der Sprachdaten dem Wortvorlage-Konstruktionsmittel verfügbar gemacht werden soll.
  13. Spracherkenner nach Anspruch 1, wobei das Wortvorlage-Konstruktionsmittel ein Wörterbuch umfasst, das eine ähnlichkeitsbasierte Repräsentation der Hybrideinheiten enthält.
  14. Spracherkenner nach Anspruch 1, wobei der Phonetisierer einen Speicher zum Speichern von Schrift-zu-Aussprache-Daten enthält, der Folgendes aufweist: eine im Speicher gespeicherte Entscheidungsbaumstruktur, die eine Vielzahl von inneren Knoten und eine Vielzahl von Blättern definiert, wobei die inneren Knoten zum Speichern von Ja-Nein-Fragen angepasst sind und die Blätter zum Speichern von Wahrscheinlichkeitsdaten angepasst sind; wobei eine erste Vielzahl von inneren Knoten mit Buchstabenfragen über einen vorgegebenen Buchstaben und die ihm in der buchstabierten Worteingabe benachbarten Buchstaben bestückt ist; wobei eine zweite Vielzahl von inneren Knoten mit Phonemfragen über ein Phonem und die ihm in der buchstabierten Worteingabe benachbarten Phoneme bestückt ist; wobei die Blätter mit Wahrscheinlichkeitsdaten bestückt sind, die dem vorgegebenen Buchstaben eine Vielzahl von Phonemaussprachen zuordnen.
  15. Spracherkenner nach Anspruch 1, wobei die Hybrideinheiten als Ähnlichkeitsparameter repräsentiert werden.
  16. Spracherkenner nach Anspruch 1, wobei die Hybrideinheiten als Phonähnlichkeitsparameter repräsentiert werden, die auf einer aus einer Vielzahl von Trainingsbeispielen abgeleiteten Durchschnittsähnlichkeit basieren.
  17. Spracherkenner nach Anspruch 1, der außerdem zum Expandieren oder Komprimieren der Dauer ausgewählter Hybrideinheiten auf der Basis der Länge des buchstabierten Wortes Modifikationsregeln für die Dauer der Hybrideinheiten enthält.
  18. Spracherkenner nach Anspruch 1, der außerdem einen Mustervergleichsmechanismus zum Vergleich einer Spracheingabe mit dem Wortschatz aufweist, wobei der Mustervergleichsmechanismus über einen Gewichtungsmechanismus verfügt, um beim Mustervergleich die Wichtigkeit ausgewählter Teile der Hybrideinheiten zu erhöhen.
DE69922104T 1998-09-04 1999-08-23 Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz Expired - Fee Related DE69922104T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US148579 1998-09-04
US09/148,579 US6684185B1 (en) 1998-09-04 1998-09-04 Small footprint language and vocabulary independent word recognizer using registration by word spelling

Publications (2)

Publication Number Publication Date
DE69922104D1 DE69922104D1 (de) 2004-12-30
DE69922104T2 true DE69922104T2 (de) 2005-12-15

Family

ID=22526382

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69922104T Expired - Fee Related DE69922104T2 (de) 1998-09-04 1999-08-23 Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz

Country Status (4)

Country Link
US (1) US6684185B1 (de)
EP (1) EP0984430B1 (de)
DE (1) DE69922104T2 (de)
ES (1) ES2233002T3 (de)

Families Citing this family (160)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406084B2 (en) * 1997-09-19 2008-07-29 Nokia Siemens Networks Gmbh & Co. Kg Flexible software architecture for a call processing system
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US7809574B2 (en) 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
GB2385698B (en) * 2002-02-26 2005-06-15 Canon Kk Speech processing apparatus and method
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
US8583440B2 (en) * 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
WO2004077404A1 (en) 2003-02-21 2004-09-10 Voice Signal Technologies, Inc. Method of producing alternate utterance hypotheses using auxilia ry information on close competitors
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US20050055197A1 (en) * 2003-08-14 2005-03-10 Sviatoslav Karavansky Linguographic method of compiling word dictionaries and lexicons for the memories of electronic speech-recognition devices
WO2005027093A1 (en) * 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
FR2864281A1 (fr) * 2003-12-18 2005-06-24 France Telecom Procede de correspondance automatique entre des elements graphiques et elements phonetiques
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
WO2005103951A1 (en) * 2004-04-23 2005-11-03 Novauris Technologies Limited Tree index based method for accessing automatic directory
EP1594120B1 (de) * 2004-05-07 2013-08-14 Swisscom AG Verfahren zur Herstellung von Hidden-Markov-Modellen
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US20060173734A1 (en) * 2005-01-31 2006-08-03 Thorsten Brandt Display apparatus for and method of displaying baby care articles
US20060183086A1 (en) * 2005-01-31 2006-08-17 Thorsten Brandt Feeding implements for children of different stages of development
US20060173695A1 (en) * 2005-01-31 2006-08-03 Thorsten Brandt Marking system for identifying baby care articles suitable for particular stages of child development
KR101221172B1 (ko) * 2005-02-03 2013-01-11 뉘앙스 커뮤니케이션즈, 인코포레이티드 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
CN102272827B (zh) * 2005-06-01 2013-07-10 泰吉克通讯股份有限公司 利用语音输入解决模糊的手工输入文本输入的方法和装置
GB2428853A (en) * 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
US7644209B2 (en) * 2005-08-31 2010-01-05 Research In Motion Limited Handheld electronic device with text disambiguation allowing dynamic expansion of input key associations
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7707032B2 (en) * 2005-10-20 2010-04-27 National Cheng Kung University Method and system for matching speech data
US20070150279A1 (en) * 2005-12-27 2007-06-28 Oracle International Corporation Word matching with context sensitive character to sound correlating
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
US7555534B2 (en) * 2006-02-15 2009-06-30 Microsoft Corporation Phonetic name support in an electronic directory
US7831911B2 (en) * 2006-03-08 2010-11-09 Microsoft Corporation Spell checking system including a phonetic speller
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8798994B2 (en) * 2008-02-06 2014-08-05 International Business Machines Corporation Resource conservative transformation based unsupervised speaker adaptation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9202460B2 (en) 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
KR101193362B1 (ko) * 2012-04-13 2012-10-19 최병기 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP2962300B1 (de) * 2013-02-26 2017-01-25 Koninklijke Philips N.V. Verfahren und vorrichtung zur erzeugung eines sprachsignals
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
CN103700367B (zh) * 2013-11-29 2016-08-31 科大讯飞股份有限公司 实现黏着语文本韵律短语划分的方法及系统
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN112669848B (zh) * 2020-12-14 2023-12-01 深圳市优必选科技股份有限公司 一种离线语音识别方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
EP0562138A1 (de) * 1992-03-25 1993-09-29 International Business Machines Corporation Methode und Einrichtung zur automatischen Erzeugung von Markov-Modellen von neuen Wörtern zur Aufnahme in einem Wortschatz zur Spracherkennung
DE69423838T2 (de) * 1993-09-23 2000-08-03 Xerox Corp., Rochester Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances

Also Published As

Publication number Publication date
EP0984430A3 (de) 2003-12-10
US6684185B1 (en) 2004-01-27
EP0984430B1 (de) 2004-11-24
EP0984430A2 (de) 2000-03-08
DE69922104D1 (de) 2004-12-30
ES2233002T3 (es) 2005-06-01

Similar Documents

Publication Publication Date Title
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69525178T2 (de) Ansagedienste mit spracheingabe
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
DE60003971T2 (de) Verteilte Architektur zum Trainieren eines Spracherkennungssystems
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69514382T2 (de) Spracherkennung
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE68928097T2 (de) Spracherkennungssystem
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60219943T2 (de) Verfahren zum komprimieren von wörterbuchdaten
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee