DE69908047T2 - Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern - Google Patents

Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern Download PDF

Info

Publication number
DE69908047T2
DE69908047T2 DE1999608047 DE69908047T DE69908047T2 DE 69908047 T2 DE69908047 T2 DE 69908047T2 DE 1999608047 DE1999608047 DE 1999608047 DE 69908047 T DE69908047 T DE 69908047T DE 69908047 T2 DE69908047 T2 DE 69908047T2
Authority
DE
Germany
Prior art keywords
transcription
transcriptions
spelled
generator
rated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1999608047
Other languages
English (en)
Other versions
DE69908047D1 (de
Inventor
Matteo Santa Barbara Contolini
Jean-Claude Santa Barbara Junqua
Roland Santa Barbara Kuhn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69908047D1 publication Critical patent/DE69908047D1/de
Application granted granted Critical
Publication of DE69908047T2 publication Critical patent/DE69908047T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich im allgemeinen auf Spracherkennungs- und Sprachsynthesesysteme. Die Erfindung bezieht sich besonders auf Aussprachegenerierung.
  • Heute involviert computerimplementierte und automatisierte Sprachtechnologie eine Konfluenz vieler Expertisenbereiche, die von Sprachwissenschaft und Psychoakustik bis zur Verarbeitung digitaler Signale und Informatik reichen. Die traditionell getrennten Probleme von Text-zu-Sprache-Synthese (TTS) und automatischer Spracherkennung (ASR) präsentieren eigentlich viele Möglichkeiten zur Technologieteilung. Üblicherweise wurden Spracherkennung und Sprachsynthese aber als gänzlich separate Disziplinen angegangen, die sich sehr wenig auf die Vorteile verließen, die gegenseitige Befruchtung beiden Disziplinen bringen könnte.
  • Wir haben in diesem Dokument beschriebene Techniken für das Kombinieren von Spracherkennungs- und Sprachsynthesetechnologien zum gegenseitigen Vorteil beider Disziplinen beim Generieren von Aussprachewörterbüchern entdeckt. Das Vorhandensein eines guten Aussprachewörterbuchs ist der Schlüssel zu Anwendungen für sowohl Text-zu-Sprache als auch automatischer Spracherkennung. Bei Text-zu-Sprache dient das Wörterbuch als die Aussprachequelle für Worte, die durch Graphemik oder buchstabierte Eingabe eingegeben wurden.
  • Bei Anwendungen automatischer Spracherkennung dient das Wörterbuch als das Lexikon der dem System bekannten Worte. Beim Schulen des Spracherkennungssystems identifiziert dieses Lexikon wie jedes Wort phonetisch buchstabiert ist, so dass die Sprachmodelle für jedes der Wörter richtig geschult werden können.
  • Bei sowohl Sprachsynthese- als auch Spracherkennungsanwendungen kann die Qualität und Leistung der Anwendung stark von der Genauigkeit des Aussprachewörterbuchs abhängen. Typisch ist die Schaffung eines guten Aussprachewörterbuchs kostspielig und zeitraubend, da bisher der einzige Weg genaue Daten zu bekommen über die Verwendung professioneller Sprachwissenschaftler lief, d. h. vorzugsweise eines Einzelnen, um Übereinstimmung zu garantieren. Der Sprachwissenschaftler arbeitet sich sorgfältig durch jedes Wort vor und stellt seine phonetische Transkription bereit.
  • Phonetische Aussprachewörterbücher stehen für die meisten der Hauptsprachen zur Verfügung, obwohl diese Wörterbücher typisch einen begrenzten Wortschatz haben und Eigennamen, ungewöhnliche und zusammengesetzte Hauptwörter oder Fremdwörter nicht angemessen handhaben. Öffentlich verfügbare Wörterbücher sind ebenso unzureichend, wenn man sie dazu verwenden möchte Aussprachen für einen Dialekt zu erhalten, der anders als jener ist, für den das System geschult oder beabsichtigt war.
  • Außerdem entsprechen derzeitig verfügbare Wörterbücher selten allen Anforderungen eines gegebenen Systems. Einige Systeme (wie beispielsweise Text-zu-Sprache-Systeme erfordern hohe Genauigkeit; wogegen andere Systeme (wie beispielsweise einige automatische Spracherkennungssysteme) geringere Genauigkeit tolerieren können, aber möglicherweise mehrfache gültige Aussprachen für jedes Wort erfordern. Im allgemeinen erschwert die Vielfalt an Systemanforderungen das Problem. Weil es kein Aussprachewörterbuch von „Einheitsgröße" gibt, bleibt die Konstruktion guter, anwendungsspezifischer Wörterbücher teuer.
  • Es sind Verfahren und Systeme bekannt, die eine einzige Transkription für ein spezifisch buchstabiertes Wort generieren. Ein derartiges System wird von Ayman Asadi et al beschrieben. 'AUTOMATISCHES MODELLEREN ZUM HINZUFÜGEN NEUER WÖRTER ZU EINEM KONTINUIERLICHEN SPRACHERKENNUNGSSYSTEMS GROSSEN VOKABULARS', ICASSP '91, US, NEW YORK, IEEE, Vol. CONF. 16, 14 Mai 1991 (1991-05-14), Seiten 305–-308, XP000245228 ISBN: 0-7803-0003-3. Asadi offenbart ein System, das einen Satz Text-zu-Klang-Regeln benutzt, um eine erste phonetische Transkription für ein neues Wort zu erhalten. Da Text-zu-Klang-Regeln Imperfekt sind, wird eine probabilistische Transformationstechnik verwendet, die ein phonetisches Aussprachenetzwerk aller möglichen Aussprachen, anhand der gegebenen phonetischen Transkription, produziert.
  • Asadis Offenbarung verlässt sich jedoch auf den Gebrauch deterministischer Buchstaben-zu-Klang-Regeln, die eine einzige Transkriptionsausgabe generieren. Wegen der Natur von Sprachen kann die durch solche dem Stand der Technik entsprechende Systeme produzierte Transkription häufig falsch sein. Zwei weitere dem Stand der Technik entsprechende Offenbarungen, die ähnlich durch Produzieren falscher Aussprachen leiden, die in natürlicher Sprache nicht vorkommen, schließen folgende ein:
    Andersen O et al. 'Vergleich von zwei Lösungen des Baumstrukturtyps für Graphem-zu-Phonem-Umwandlung'. BERICHTE DER INTERNATIONALEN KONFERENZ ÜBER DIE VERARBEITUNG GESPROCHENER SPRACHE, 3 Oktober 1996 (1996-10-03), XP002123689 und Europäische Patentveröffentlichung Nr. 0562138 im Namen der International Business Machines Corporation.
  • Die vorliegende Erfindung stellt, abhängig von der gewünschten Genauigkeit des Wörterbuchs, ein System und Verfahren für das automatische Generieren phonetischer Transkriptionen mit wenig oder keiner menschlichen Involvierung bereit. Die Erfindung stellt ein Werkzeug bereit, mit dem der Benutzer einen Vertrauensgrad spezifizieren kann und das System speichert alle generierten Aussprachen im Wörterbuch, die den gewünschten Vertrauensgrad erfüllen. Gegensätzlich zu anderen phonetischen Transkriptionswerkzeugen, erfordert die Erfindung kein spezifischen sprachliches oder phonetisches Wissen, um ein Aussprachewörterbuch zu produzieren. Das System kann, wie erforderlich, mehrfache Aussprachen mit verschiedenen Vertrauensgraden auf der Basis der Anforderungen des in Entwicklung befindlichen Sprachsystems generieren.
  • Ein starker Vorteil des Systems und Verfahrens der Erfindung ist, dass es mehrfache Informationsquellen benutzt, um synergistisch bessere Ergebnisse zu erzielen. Integrieren von Information ab verschiedenen Dimensionen ergibt ein Resultat, das größer als die Summe seiner Teile ist. Überdies können verschiedene Wörter durch verschiedene Verfahren gehandhabt werden, was zum einem besseren Endprodukt führt. Eine nicht umfassende, auf die vorliegende Erfindung zutreffende Liste von Informationsquellen schließt ein: Expertensysteme auf der Basis von Buchstaben-zu-Klang-Regeln, Online-Wörterbüchern, Morphem-Wörterbücher mit Morphem-Kombinationsregeln, schulbare Lern-Subsysteme, Dialekttransformationsregeln, und Ausgabe ab automatischer Spracherkennung seitens der Stimme eines Bedieners oder ab anderen Audioquellen.
  • Einem Aspekt der Erfindung entsprechend, ist ein schulbares Lernsubsystem inbegriffen, das sich anpassen bzw. verbessern kann, sobald neue Ausspracheinformation verfügbar ist. Das lernfähige Lernsubsystem wird sich beispielsweise einem Sprecher anpassen, was erleichtert ein Lexikon einem neuen Dialekt anzupassen.
  • Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm, das das System und Verfahren der Erfindung illustriert;
  • 2 illustriert ein Editierwerkzeug, das beim Implementieren eines Systems entsprechend der Erfindung nützlich ist.
  • 3 ist ein Blockdiagramm, das das gegenwärtig bevorzugte Phonetisiergerät, unter Verwendung von Entscheidungsbäumen, illustriert.
  • 4 ist ein Baumdiagramm, das einen Nur-Buchstaben-Baum illustriert; und
  • 5 ist ein Baumdiagramm, das einen gemischten Baum entsprechend der Erfindung illustriert.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • 1 illustriert die Grundsätze der Erfindung wie sie auf die Aufgabe der Generierung und/oder der Aktualisierung eines Wortaussprachewörterbuchs oder Lexikons Anwendung finden. 1 illustriert das Lexikon bei 10. Lexikon 10 kann ein früher erstelltes Wortaussprachewörterbuch sein, das geordnete Wortpaare (als Graphem oder Text repräsentiert) und eine oder mehrere zugehörige phonetische oder Morphemtranskriptionen enthält. Wie ausführlicher erläutert werden wird, lässt sich das vorhandene Lexikon 10 durch Hinzufügen neuer Wörter bzw. durch Hinzufügen oder Revidieren von Aussprachen im Lexikon vorhandener Wörter aktualisieren.
  • Zur Veranschaulichung wird angenommen, dass der Anwender des Systems neue Wörter, wie bei 12, durch Buchstabieren eingibt. Die buchstabierten Wörter können durch jedwedes praktische Mittel einschließlich Tastatureingabe und Stimme eingegeben werden.
  • Ein Transkriptionsgenerator 14, empfängt als Eingabe (a) Wörter vom Lexikon 10, und (b) buchstabierte Wörter wie bei 12 eingegeben. Der Transkriptionsgenerator lässt sich je nach Anforderungen des Systems auf verschiedene Art konfigurieren. In der hier präsentierten Beschreibung wird ein Unterschied zwischen phonetischen Transkriptionen und Morphemtranskriptionen gemacht. Die ersteren repräsentieren Wörter unter dem Aspekt der Phoneme, die in menschlicher Sprache vorkommen, wenn das Wort gesprochen wird. Die letzteren repräsentieren Wörter als Atomeinheiten, Morpheme genannt, aus denen größere Wörter erstellt werden. Ein zusammengesetztes Wort wie beispielsweise „catwalk" kann morphemisch als die Atomeinheiten „cat" und „walk" umfassend behandelt werden.
  • Der Transkriptionsgenerator kann eine phonetische Komponente, eine morphemische Komponente, oder beide einschließen. Eine derzeit bevorzugte phonetische Transkriptionskomponente verwendet ein Phonetisiergerät, das phonetische Transkriptionen generiert, die auf buchstabierter Buchstabeneingabe, unter Verwendung eines Satzes von Entscheidungsbäumen, beruhen. Details eines geeigneten Phonetisiergeräts sind nachstehend angegeben. Die Morphem-Transkriptionskomponente kann ein verkettetes auf Regeln beruhendes System sein, das ein Morphemwörterbuch einschließt. Details eines geeigneten Morphem-Transkriptionssystems sind nachstehend ebenso angegeben.
  • Die Ausgabe des Transkriptionsgenerators 14 kann eine phonetische Transkription, eine Morphemfolge, oder beides, abhängig von der Konfiguration des Generators 14 sein. Diese Ausgaben werden im Bewertungsmodul 16 bewertet, so dass jede Transkription oder Folge einen numerischen Wert haben kann, durch den sie sich mit den anderen Ausgabetranskriptionen oder -folgen vergleichen lässt. Diese numerischen Bewertungen sind typisch das Nebenprodukt des bei 14 angewandten Transkriptions-Generierungsmechanismus. Wenn, beispielsweise das Phonetisiergerät auf Entscheidungsbaumbasis benutzt wird, ist mit jeder phonetischen Transkription eine Vertrauensgradbewertung verbunden. Diese Vertrauensgradbewertung repräsentiert die kumulative Bewertung der einzelnen, mit jedem Phonem verbundenen, Wahrscheinlichkeiten. Wie der Leser aus der nachstehenden Beschreibung ersehen wird, sind die Blattknoten jedes Entscheidungsbaums mit Phonemen und deren zugehörige Wahrscheinlichkeiten bestückt. Diese Wahrscheinlichkeiten sind numerisch dargestellt und lassen sich dazu verwenden eine Vertrauensgradbewertung zu generieren. Ähnliche Methoden können beim Generieren von Morphemfolgen zum Einsatz kommen.
  • Das Bewertungsmodul 16 bewertet die Ausgabe des Transkriptionsgenerators 14, so dass die n-besten Transkriptionen und/oder Folgen identifiziert werden. Falls erwünscht, kann das Bewertungsmodul die Transkriptionen und/oder Folgen in eine geordnete Liste sortieren, so dass die Transkription oder Folge höchsten Vertrauens an einem Ende der Liste und die Transkription oder Folge geringsten Vertrauens am andere Ende der Liste erscheint. In einigen Fällen könnte die Transkription oder Folge mit dem höchsten Vertrauensgrad, abhängig von den Anforderungen des Systems, zur direkten Aktualisierung des Lexikons ausreichen. Das System prüft auf diese Kondition bei 18, beispielsweise durch Behandeln der bewerteten Transkriptionen oder Folgen als Hypothesen mit zugehörigen Wahrscheinlichkeitsbewertungen. Wenn das Wahrscheinlichkeitsverhältnis zwischen der ersten Hypothese und der zweiten Hypothese über einem vorbestimmten Schwellwert liegt, dann aktualisiert das System, wie bei 20 angezeigt, das Lexikon automatisch mit der ersten Hypothese. Das Lexikon kann möglicherweise durch Hinzufügen der ersten Hypothese oder Folge zum Lexikon als neuer Eintrag oder durch Revidieren eines vorhandenen Eintrags in das Lexikon, um die erste Hypothese oder Folge darin aufzunehmen, aktualisiert werden.
  • Liegt das Wahrscheinlichkeitsverhältnis zwischen den ersten und zweiten Hypothesen nicht über einem vorbestimmten Schwellwert, so wird ein Neubewertungsprozess bei 22 angewandt. In einem alternativen Ausführungsbeispiel kann auf den Vertrauensprüfmechanismus 18 verzichtet werden; wobei die Ausgabe des Bewertungsmodells 16, wie illustriert, direkt an das Neubewertungsmodul 22 geliefert wird.
  • Das Neubwertungsmodul 22 enthält eine zweite Wissensquelle über die Wortaussprache. Im Besonderen verwendet das Neubewertungsmodul eine automatische Spracherkennungstechnologie (ASR), bei der ein Sprachsignal dazu benutzt wird die vom Modul 16 resultierenden Transkriptionen und/oder Folgen neu zu bewerten. Das Sprachsignal kann von einem menschlichen Sprecher oder ab automatisch generierter Sprache bereitgestellt werden. Diese sind bei 24 illustriert. Geeignete Sprachquellen schließen ein: Menschliche Live-Sprache, Audioaufzeichnungen, Sprachdatenbänke und Sprachsynthesiergeräte. Was Sprachsynthesiergeräte anbelangt, ist eine interessante Variation des derzeitigen Systems ein anderes Sprachsynthesiergerät als das zu verwenden, das für die Text-zu-Sprache-Synthese im endgültigen System benutzt wird. Auf diese Weise können einige der gewünschten Nuancen eines ersten Synthesiergeräts einem zweiten Synthesiergerät einverleibt werden.
  • Das Neubewertungsmodul 22 entlockt bei 24 phonetische Information aus der gelieferten Spracheingabe und diese Information kann zur Aufzeichnung der Liste von n-besten Transkriptionen oder Folgen verwendet werden. Danach kann bei 26 ein weiterer Vertrauenstest, ähnlich dem bei 18 beschrieben, angewandt werden, worauf sich das Lexikon bei 28 aktualisieren lässt. Falls die Höchstbewertung (nach der Neubewertung) hoch genug ist, wählt das System sie automatisch und setzt sie bei 28 in das Lexikon ein. Andernfalls gibt das System einen Editiermodus ein, in dem ein Editierwerkzeug 30 für Anwenderinteraktion 32 bereitgestellt wird. Das Editierwerkzeug des bevorzugten Ausführungsbeispiels ermöglicht dem Anwender eine der gewählten Aussprachen zu wählen, die der korrekten am besten angepasst sind. Das System präsentiert dem Anwender das auf dem Bildschirm angezeigte Wort, so dass individuelle Silben hervorgehoben oder gewählt werden können. Der Anwender wählt dann einfach die falsch ausgesprochene Silbe (jeweils eine Silbe) und das System gibt dem Anwender dann eine Reihe von Optionen zum Modifizieren jener Silbe.
  • Mit Bezugnahme auf die 2 sind Wörter im Wörterbuch in der Wortliste 34 angezeigt. Hervorheben eines Worts in der Wortliste – „contumacious", beispielsweise – platziert jenes Wort in die Felder „Buchstabier" bzw. „klingt wie", 35 und 36. Die phonetische Darstellung des gewählten Worts erscheint im Phonemfeld 37; die phonemische Darstellung ist mit Bindestrich geschrieben, um die Silben zu demarkieren aus denen sich das gewählte Wort zusammensetzt. Betonungstasten 38 richten sich auf die Silben im Feld 37 aus und der Anwender kann diese Tasten wählen, um die auf die Silbe angewandte Betonung zu ändern. Falls erwünscht, kann der Anwender den Vokalschritt durch Tasten 39 und/oder die Vokaltabellenliste 40 verwenden, um verschiedene Vokalklänge als Ersatz für jene zu wählen, die im Phonemfeld 37 erscheinen.
  • In einem Ausführungsbeispiel spricht der Anwender die Silbe, indem er sie in ein Mikrofon ausspricht und das System deduziert dann das Buchstabieren des Originaltexts, die dieser Aussprache entspricht. Als Alternative kann der Anwender die gewünschte Aussprache aus einem Menü von Wörtern auswählen, die einen Vokal haben, der jenem der hervorgehobenen Silbe ähnlich klingt. Das Editierwerkzeug präsentiert dem Anwender automatisch ein Menü von Wörtern, das auf der vom Anwender gewählten Silbe beruht. Das Werkzeug schließt außerdem einen Betonungsgradwähler in Form von computergraphisch generierten Tasten ein, die der Anwender wählen kann, um den einer speziellen Silbe gegebenen Betonungsgrad zu erhöhen oder zu reduzieren.
  • Ein weiteres Ausführungsbeispiel des Editierwerkzeugs verwendet einen automatisierten Algorithmus, der sequentiell eine neue Aussprache generiert, indem er Teile von zwei Aussprachehypothesen kombiniert. Der Anwender kann diese generierten Aussprachen hören und die beste auswählen wenn sie zu hören ist.
  • Sobald der Anwender mit dem Editieren der Aussprache einer oder mehrerer Silben fertig ist, produziert das System automatisch das korrigierte Buchstabier-Aussprachepaar und diese Information wird dann dazu verwendet das Lexikon wie bei 34 zu aktualisieren.
  • In einem Ausführungsbeispiel der Erfindung ist das System anpassungsfähig bzw. selbstlernend. Eine oder mehrere Transkriptionen hohen Vertrauens können herausgezogen und dazu benutzt werden den Transkriptionsgenerator 14 umzuschulen. Buchstabierte Wortaussprachepaare, die verwendet werden das Lexikon 10 zu aktualisieren, werden dazu benutzt neue Umschuldaten 34 zu tiefem, auf deren Grundlage der Transkriptionsgenerator 14 umgeschult bzw. Aktualisiert werden kann. Dies lässt sich durch Verwenden der Umschuldaten 34 als neue Schulungsdaten zum Generieren revidierter, vom Transkriptionsgenerator benutzter, Entscheidungsbäume erzielen. Das selbstlernende Ausführungsbeispiel verbessert daher seinen Transkriptionsgenerator mit der Zeit, was zu Transkriptionen noch höherer Qualität führt.
  • Das Entscheidungsbaum-Phonetisiergerät
  • Das derzeit bevorzugte Phonetisiergerät ist ein zweistufiger Aussprachegenerator, wobei die erste Stufe einen Satz von „Nur-Buchstaben" Entscheidungsbäumen 110 und die zweite Stufe einen Satz von „Misch"-Entscheidungsbäumen 112 verwendet. Eine Eingabefolge 114, wie beispielsweise die Buchstabenfolge B-I-B-L-E, wird zu einem dynamischen Programmier-Phonemfolgegenerator 116 gespeist. Der Folgegenerator benutzt die „Nur-Buchstaben"-Bäume 110, um eine Liste von Aussprachen 118 zu generieren, die mögliche Aussprachekandidaten der Eingabefolge des buchstabierten Worts repräsentiert.
  • Der Folgegenerator untersucht sequentiell jeden Buchstaben in der Folge und wendet den jenem Buchstaben zugehörigen Entscheidungsbaum an, um eine Phonemaussprache für jenen Buchstaben auf der Basis von Wahrscheinlichkeitsdaten auszuwählen, die im „Nur-Buchstaben"-Baum enthalten sind.
  • Vorzugsweise schließt der Satz von „Nur-Buchstaben"-Bäumen einen Entscheidungsbaum für jeden Buchstaben im Alphabet ein. 4 zeugt ein Beispiel eines „Nur-Buchstaben"-Entscheidungsbaums für den Buchstaben E. Der Entscheidungsbaum umfasst eine Vielheit interner Knoten (in der Abbildung als Ovale illustriert) und eine Vielheit von Blattknoten (in der Abbildung als Rechtecke illustriert). Jeder interne Knoten ist mit einer Ja-Nein-Frage bestückt. Ja-Nein-Fragen sind Fragen, die entweder mit Ja oder Nein beantwortet werden können. Im „Nur-Buchstaben"-Baum richten sich die Fragen auf den gegebenen Buchstaben (in diesem Fall den Buchstaben E) und seine benachbarten Buchstaben in der Eingabefolge. Beachten Sie in der 4, dass sich jeder interne Knoten, abhängig davon ob die Antwort auf die zugehörige Frage Ja oder Nein ist, entweder nach links oder rechts verzweigt.
  • Abkürzungen werden in der 4 wie folgt verwendet: Zahlen in Fragen, wie beispielsweise „+1" oder „1" beziehen sich auf Positionen in der Buchstabierfolge in Bezug auf den aktuellen Buchstaben. Zum Beispiel bedeutet, „+1L=='R'?" „Ist der Buchstabe nach dem aktuellen Buchstaben (der in diesem Fall der Buchstabe E ist) ein R?" Die Abkürzungen CONS und VOW repräsentieren Buchstabenklassen, nämlich Konsonanten und Vokale. Die Abwesenheit eines benachbarten Buchstabens, oder Null Buchstabe, wird durch das Symbol – dargestellt, das als ein Füllmittel oder Platzhalter verwendet wird, wo gewisse Buchstaben auf entsprechende Phonemaussprachen auszurichten sind. Das Symbol # bedeutet eine Wortbegrenzung.
  • Die Blattknoten sind mit Wahrscheinlichkeitsdaten bestückt, die mögliche Phonemaussprachen mit numerischen Werten in Verbindung bringen, die die Wahrscheinlichkeit repräsentieren, dass das spezielle Phonem die korrekte Aussprache des gegebenen Buchstabens repräsentiert. Beispielsweise bedeutet die Notation „iy=>0.51 ", dass „die Wahrscheinlichkeit des Phonems 'iy' in diesem Blatt 0.51." beträgt. Das Null-Phonem, d. h., Stille, wird durch das Symbol '–' dargestellt.
  • Der Sequenzgenerator 116 (3) verwendet daher die „Nur-Buchstaben"-Entscheidungsbäume 110 dazu eine oder mehrere Aussprachehypothesen zu konstruieren, die in der Liste 118 gespeichert sind. Vorzugsweise ist jede Aussprache mit einer numerischen Bewertung verbunden, die durch Kombinierender Wahrscheinlichkeitsbewertungen der mit Hilfe des Entscheidungsbaums 110 ausgewählten individuellen Phoneme erlangt wurde. Wortaussprachen können vielleicht durch Konstruieren einer Matrix möglicher Kombinationen bewertet werden, wonach dynamisches Programmieren dazu verwendet wird die n-besten Kandidaten auszuwählen. Oder aber können die n-besten Kandidaten vielleicht unter Verwendung einer Substitutionstechnik ausgewählt werden, die zuerst den wahrscheinlichsten Transkriptionskandidaten identifiziert und dann zusätzliche Kandidaten durch iterative Substitution, wie folgt, generiert.
  • Die Aussprache mit der höchsten Wahrscheinlichkeitsbewertung wird zuerst gewählt, indem die betreffenden Bewertungen der Phoneme mit höchsten Bewertungen (durch Untersuchen der Blattknoten identifiziert) multipliziert werden und dann diese Auswahl als der wahrscheinlichste Kandidat oder erste beste Wortkandidat verwendet wird. Zusätzliche (n-beste) Kandidaten werden dann durch Untersuchen der Phonemdaten in den Blattknoten ausgewählt, um wiederum das – nicht zuvor ausgewählte – Phonem zu identifizieren, das die kleinste Differenz von einem anfänglich ausgewählten Phonem hat. Dieses minimal unterschiedliche Phonem wird dann für das anfänglich gewählte substituiert, um dadurch den zweitbesten Wortkandidaten zu generieren. Der obige Vorgang kann iterativ wiederholt werden bis die gewünschte Zahl n-bester Kandidaten ausgewählt worden ist. Die Liste 118 kann vielleicht in absteigender Bewertungsreihenfolge sortiert werden, so dass die durch die „Nur-Buchstaben"-Analyse als beste beurteilte Aussprache als erste in der Liste erscheint.
  • Wie oben bemerkt, wird eine „Nur-Buchstaben"-Analyse häufig schlechte Resultate produzieren. Dies geschieht, weil die „Nur-Buchstaben"-Analyse keine Möglichkeit hat bei jedem Buchstaben zu bestimmen, welches Phonem durch nachfolgende Buchstaben generiert werden wird. Deshalb kann eine „Nur-Buchstaben"-Analyse eine Aussprache hoher Bewertung generieren, die eigentlich in natürlicher Sprache nicht auftreten würde. Beispielsweise würde der Eigenname, Achilles, wahrscheinlich zu einer Aussprache führen, die beide II phonetisiert: ah-k-ih-l-l-iy-z. In natürlicher Sprache ist das zweite l eigentlich stumm: ah-k-ih-l-iy-z. Der „Nur-Buchstaben"-Baum verwendende Sequenzgenerator besitzt keinen Mechanismus Wortaussprachen auszusieben, die in natürlicher Sprache nie vorkommen würden.
  • Die zweite Stufe des Aussprachesystems befasst sich mit dem obigen Problem. Ein Bewertungsschätzer 120 gemischten Baums verwendet den Satz Mischentscheidungsbäume 112, um die Realisierbarkeit jeder Aussprache in der Liste 118. einzuschätzen. Der Bewertungsschätzer arbeitet, indem er sequentiell jeden Buchstaben in der Eingabefolge zusammen mit den Phonemen untersucht, die jedem Buchstaben durch den Sequenzgenerator 116 zugeordnet wurden.
  • Wie der Satz „Nur-Buchstaben"-Bäume hat der Satz gemischter Bäume einen gemischten Baum für jeden Buchstaben des Alphabets. Ein beispielhafter gemischter Baum ist in der 5 gezeigt. Wie der „Nur-Buchstaben"-Baum, besitzt der gemischte Baum interne Knoten und Blattknoten. Die internen Knoten sind in der 5 als Ovale und die Blattknoten als Rechtecke dargestellt. Die internen Knoten sind jeweils mit einer Ja-Nein-Frage und die Blattknoten jeweils mit Wahrscheinlichkeitsdaten bestückt. Obwohl die Baumstruktur des gemischten Baums jener des „Nur-Buchstaben"-Baums ähnelt, gibt es einen wichtigen Unterschied. Die internen Knoten des gemischten Baums können zwei verschiedene Klassen von Fragen enthalten.
  • Ein interner Knoten kann eine Frage über einen gegebenen Buchstaben und seinen benachbarten Buchstaben in der Folge enthalten, oder er kann eine Frage über das mit jenem Buchstaben verbundene Phonem und benachbarte Phoneme enthalten, die jener Folge entsprechen. Der Entscheidungsbaum ist daher gemischt, indem er gemischte Klassen von Fragen enthält.
  • Die in der 5 verwendeten Abkürzungen, mit einigen zusätzlichen Abkürzungen, sind jenen in der 4 ähnlich. Das Symbol L repräsentiert eine Frage über einen Buchstaben und seinen benachbarten Buchstaben. Das Symbol P repräsentiert eine Frage über ein Phonem und seine benachbarten Phoneme. Zum Beispiel bedeutet die Frage „+1L=='D'?" „Ist der Buchstabe in der +1 Position ein 'D'?" Die Abkürzungen CONS und SYL sind Phonemklassen, nämlich konsonantisch und silbisch. Zum Beispiel bedeutet die Frage „+1P==CONS?" „Ist das Phonem in der +1 Position ein Konsonant?" Die Zahlen in den Blattknoten geben Phonemwahrscheinlichkeiten wie sie das in den „Nur-Buchstaben"-Bäumen auch machten.
  • Der Mischbaum-Bewertungsschätzer führt eine erneute Bewertung jeder der Aussprachen in der Liste 118 auf der Basis der Fragen des Mischbaums durch und verwendet die Wahrscheinlichkeitsdaten in den Blattknoten der gemischten Bäume. Falls erwünscht, kann die Liste von Aussprachen in Verbindung mit der betreffenden Bewertung wie in der Liste 122 gespeichert werden. Falls erwünscht, kann die Liste 122 in absteigender Reihenfolge sortiert werden, so dass die zuerst aufgeführte Aussprache jene mit der höchsten Bewertung ist.
  • In vielen Fällen wird die Aussprache, die die höchste Bewertungsposition in der List 122 einnimmt anders von der Aussprache sein, die die höchste Bewertungsposition in der Liste 118 einnimmt. Dies geschieht, weil der Mischbaum-Bewertungsschätzer, der die gemischten Bäume 112 verwendet, jene Aussprachen aussiebt, die keine selbst-konsistenten Phonemfolgen enthalten oder andernfalls Aussprachen repräsentieren, die in natürlicher Sprache nicht vorkommen würden.
  • Falls erwünscht, kann ein Wählermodul 124 auf die Liste 122 zugreifen, um eine oder mehrere der Aussprachen in der Liste abzufragen. Typisch fragt der Wähler 124 die Aussprache mit der höchsten Bewertung ab und liefert diese als die Ausgabeaussprache 126.

Claims (15)

  1. Verfahren für automatische Bestimmung der phonetischen Transkription, die mit einem spezifisch buchstabierten Wort verbunden ist, wobei besagte Methode folgende Schritte umfasst: Bereitstellen eines Satzes probabilistischer Regeln, die beschreiben wie sich buchstabierte Buchstabenfolgen in buchstabierten Wörtern in verschiedene Toneinheitsaussprachen umwandeln, wobei jede, durch eine verschieden bewertete Transkription repräsentiert ist; Transkribieren (14) besagten buchstabierten Worts in Toneinheiten unter Verwendung besagten Regelsatzes, um (16) eine Vielheit bewerteter Transkriptionen zu generieren, wobei jede besagtem buchstabierten Wort entspricht; Lieferung besagter Vielheit von Transkriptionen an einen automatischen Spracherkenner (22); Lieferung (24) der besagtem buchstabierten Wort entsprechenden Sprachdaten an besagten automatischen Spracherkenner (22); und Benutzen des besagten automatischen Spracherkenners (22), um besagte Transkriptionen auf der Basis besagter Sprachdaten neu zu bewerten.
  2. Verfahren des Anspruchs 1, wobei besagter Transkribierschritt (14) eine Vielheit phonetischer Transkriptionen (16) generiert.
  3. Verfahren des Anspruchs 1, wobei besagter Transkribierschritt (14) eine Vielheit morphemischer Transkriptionen (16) generiert.
  4. Verfahren des Anspruchs 1, wobei besagte Toneinheiten Modellen entsprechen.
  5. Verfahren des Anspruchs 1, wobei besagte Toneinheiten Sprachschablonen entsprechen.
  6. Verfahren des Anspruchs 1 weiter die Verwendung besagten Erkennens (22) umfasst, um mindestens eine Transkription zur Aktualisierung eines Lexikons (10) auszuwählen.
  7. Verfahren des Anspruchs 1, wobei besagter Transkribierschritt unter Verwendung eines lernfähigen Transkriptionsgenerators (14) ausgeführt wird und wobei besagtes Verfahren weiter die Verwendung des besagten Erkennens (22) zum Auswählen von mindestens einer Transkription und Verwenden besagter mindestens einer Transkription umfasst, um (34) besagten Transkriptionsgeneratorumzuschulen.
  8. Verfahren des Anspruchs 1, wobei besagter Transkribierschritt unter Verwendung eines lernfähigen Transkriptionsgenerators (14) ausgeführt wird, der mindestens einen Entscheidungsbaum verwendet und worin besagtes Verfahren weiter die Verwendung besagten Erkenners (22) umfasst, um mindestens eine Transkription auszuwählen und besagte mindestens eine Transkription verwendet, um mindestens einen Entscheidungsbaum zu aktualisieren.
  9. Verfahren des Anspruchs 1, das weiter das Auswählen von mindestens einer der besagten Transkriptionen und Verwenden besagter mindestens einen Transkription zum Aktualisieren (20, 28) eines Lexikons (10) umfasst.
  10. System zum Aktualisieren eines Lexikons (10) auf der Basis buchstabierter Worteingabe, wobei besagtes System umfasst: einen Satz probabilistischer Regeln, die beschreiben wie sich buchstabierte Buchstabenfolgen in buchstabierten Wörtern in verschiedene Toneinheitsaussprachen umwandeln, wobei jede, durch eine verschiedene bewertete Transkription repräsentiert ist; einen Transkriptionsgenerator (14), der für die besagte buchstabierte Worteingabe (12) aufnahmebereit ist, um (16) eine Vielheit bewerteter Transkriptionen zu generieren, die auf besagtem Satz von Regeln beruhen; einen automatischen Spracherkenner (22), der für Sprachdaten (24) aufnahmebereit ist, die besagter buchstabierter Worteingabe zur Neubewertung besagter Vielheit bewerteter Transkriptionen entsprechen, um eine Vielheit neu bewerteter Transkriptionen zu generieren; und einen Auswahlmechanismus (22, 24, 26, 28) zum Auswählen und Verwenden mindestens einer der besagten neu bewerteten Transkriptionen, um besagtes Lexikon (10) zu aktualisieren.
  11. System des Anspruchs 10, wobei besagter Transkriptionsgenerator (14) einen Satz phonetischer Transkriptionen produziert.
  12. System des Anspruchs 10, wobei besagter Transkriptionsgenerator (14) einen Satz morphemischer Transkriptionen (16) produziert.
  13. System des Anspruchs 10, wobei besagter Transkriptionsgenerator (14) ein Phonetisiergerät ist, das Entscheidungsbäume (110) verwendet.
  14. System des Anspruchs 10, wobei besagter Auswahlmechanismus mindestens eine der besagten neu bewerteten Transkriptionen (34) zum Umschulen des besagten Transkriptionsgenerators (14) bereitstellt.
  15. System des Anspruchs 10, wobei besagter Transkriptionsgenerator (14) ein Phonetisiergerät ist, das Entscheidungsbäume (110, 112) verwendet und wobei besagter Auswahlmechanismus mindestens eine der besagten neu bewerteten Transkriptionen zur Aktualisierung besagter Entscheidungsbäume bereitstellt.
DE1999608047 1998-09-04 1999-08-23 Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern Expired - Fee Related DE69908047T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/148,912 US6233553B1 (en) 1998-09-04 1998-09-04 Method and system for automatically determining phonetic transcriptions associated with spelled words
US148912 1998-09-04

Publications (2)

Publication Number Publication Date
DE69908047D1 DE69908047D1 (de) 2003-06-26
DE69908047T2 true DE69908047T2 (de) 2004-04-08

Family

ID=22527997

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999608047 Expired - Fee Related DE69908047T2 (de) 1998-09-04 1999-08-23 Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern

Country Status (3)

Country Link
US (1) US6233553B1 (de)
EP (1) EP0984428B1 (de)
DE (1) DE69908047T2 (de)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314165B1 (en) * 1998-04-30 2001-11-06 Matsushita Electric Industrial Co., Ltd. Automated hotel attendant using speech recognition
US6321226B1 (en) * 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
EP1058446A3 (de) * 1999-06-03 2003-07-09 Lucent Technologies Inc. Kennwortdetektion in Sprachpostnachrichten
JP3476008B2 (ja) * 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP3476007B2 (ja) * 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US6681206B1 (en) * 1999-11-05 2004-01-20 At&T Corporation Method for generating morphemes
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
JP3662519B2 (ja) * 2000-07-13 2005-06-22 シャープ株式会社 光ピックアップ
US7162422B1 (en) * 2000-09-29 2007-01-09 Intel Corporation Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US20020087313A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented intelligent speech model partitioning method and system
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US7127397B2 (en) * 2001-05-31 2006-10-24 Qwest Communications International Inc. Method of training a computer system via human voice input
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7809574B2 (en) 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
DE10147734A1 (de) * 2001-09-27 2003-04-10 Bosch Gmbh Robert Verfahren zum Einstellen einer Datenstruktur, insbesondere von phonetischen Transkriptionen für ein sprachbedientes Navigationssystem
US7099828B2 (en) * 2001-11-07 2006-08-29 International Business Machines Corporation Method and apparatus for word pronunciation composition
FI114051B (fi) * 2001-11-12 2004-07-30 Nokia Corp Menetelmä sanakirjatiedon kompressoimiseksi
US7243071B1 (en) 2003-01-16 2007-07-10 Comverse, Inc. Speech-recognition grammar analysis
JP2004303148A (ja) * 2003-04-01 2004-10-28 Canon Inc 情報処理装置
US8577681B2 (en) * 2003-09-11 2013-11-05 Nuance Communications, Inc. Pronunciation discovery for spoken words
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
DE102004029873B3 (de) * 2004-06-16 2005-12-29 Deutsche Telekom Ag Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
EP1669886A1 (de) * 2004-12-08 2006-06-14 France Telecom Konstruktion eines Automaten, der Regeln zur Transkription von Graphem/Phonem für einen Phonetisierer kompiliert
US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
WO2005057424A2 (en) * 2005-03-07 2005-06-23 Linguatec Sprachtechnologien Gmbh Methods and arrangements for enhancing machine processable text information
GB2428853A (en) * 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US20070233490A1 (en) * 2006-04-03 2007-10-04 Texas Instruments, Incorporated System and method for text-to-phoneme mapping with prior knowledge
US20070255567A1 (en) * 2006-04-27 2007-11-01 At&T Corp. System and method for generating a pronunciation dictionary
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
US20080127042A1 (en) * 2006-10-17 2008-05-29 Microsoft Corporation Customizable list of application specific terms
JP5366169B2 (ja) * 2006-11-30 2013-12-11 独立行政法人産業技術総合研究所 音声認識システム及び音声認識システム用プログラム
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US20100217591A1 (en) * 2007-01-09 2010-08-26 Avraham Shpigel Vowel recognition system and method in speech to text applictions
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion
WO2011089651A1 (ja) * 2010-01-22 2011-07-28 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
US20110218802A1 (en) * 2010-03-08 2011-09-08 Shlomi Hai Bouganim Continuous Speech Recognition
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US9129605B2 (en) * 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
DE102014114845A1 (de) * 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
US20180358004A1 (en) * 2017-06-07 2018-12-13 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for spelling words
CN112562636B (zh) * 2020-12-03 2024-07-05 云知声智能科技股份有限公司 一种语音合成纠错的方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
EP0562138A1 (de) * 1992-03-25 1993-09-29 International Business Machines Corporation Methode und Einrichtung zur automatischen Erzeugung von Markov-Modellen von neuen Wörtern zur Aufnahme in einem Wortschatz zur Spracherkennung
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
US6009392A (en) * 1998-01-15 1999-12-28 International Business Machines Corporation Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus

Also Published As

Publication number Publication date
EP0984428A3 (de) 2001-01-24
US6233553B1 (en) 2001-05-15
DE69908047D1 (de) 2003-06-26
EP0984428A2 (de) 2000-03-08
EP0984428B1 (de) 2003-05-21

Similar Documents

Publication Publication Date Title
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE69514382T2 (de) Spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
EP1336955B1 (de) Verfahren zur Erzeugung natürlicher Sprache in Computer-Dialogsystemen
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60201262T2 (de) Hierarchische sprachmodelle
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
DE102017124264A1 (de) Bestimmen phonetischer Beziehungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee