DE60203705T2 - Umschreibung und anzeige eines eingegebenen sprachsignals - Google Patents

Umschreibung und anzeige eines eingegebenen sprachsignals Download PDF

Info

Publication number
DE60203705T2
DE60203705T2 DE60203705T DE60203705T DE60203705T2 DE 60203705 T2 DE60203705 T2 DE 60203705T2 DE 60203705 T DE60203705 T DE 60203705T DE 60203705 T DE60203705 T DE 60203705T DE 60203705 T2 DE60203705 T2 DE 60203705T2
Authority
DE
Germany
Prior art keywords
credibility
word
syllable
words
syllables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60203705T
Other languages
English (en)
Other versions
DE60203705D1 (de
Inventor
Helene Sara BASSON
Dimitri Kanevsky
Emmanuel Benoit MAISON
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE60203705D1 publication Critical patent/DE60203705D1/de
Application granted granted Critical
Publication of DE60203705T2 publication Critical patent/DE60203705T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)
  • Control Of El Displays (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf automatische Spracherkennung und insbesondere auf die Umschreibung und Anzeige von Spracheingabe.
  • Das Umschreiben von Wörtern auf der Grundlage automatischer Spracherkennung (ASR) ist ein allgemein bekanntes Verfahren, das dabei hilft, die Kommunikationsfähigkeit von Hörgeschädigten zu verbessern. Bei dieser Verfahrensweise besteht ein Problem darin, dass dann, wenn die Fehlerkennungsrate relativ hoch ist, die Umschreibung für hörgeschädigte Kinder nicht wirkungsvoll genug ist, die noch beim Erlernen einer Sprache sind, da diese Kinder durch die falsch decodierten Wörter leicht verwirrt werden können. Eine Verfahrensweise, die dieses Problem anspricht, ist das Anzeigen einer phonetischen Ausgabe anstelle von Wörtern. Diese Verfahrensweise ist jedoch nicht optimal, weil das Lesen richtig erkannter Wörter leichter ist und besser funktioniert als das Lesen phonetischer Ausgaben.
  • Die Verwendung von ASR zum Leseunterricht hörgeschädigter Menschen ist ebenfalls ein allgemein bekanntes Verfahren. Bei dieser Verfahrensweise wird einem Benutzer ein Bezugstext angezeigt, und die ASR decodiert die Sprache des Benutzers, während er den Text laut liest, und vergleicht die decodierte Ausgabe mit dem Bezugstext. Eine Quelle, die diesen Gebrauch der ASR für diesen Zweck erklärt ist „Reading Tutor Using an Automatic Speech", Technical Disclosure Bulletin, Bd. 36, Nr. 8, 08-93, S. 287 bis 290. Ein Problem bei dieser Vorgehensweise besteht darin, dass jegliche Fehler bei der Spracherkennung den Benutzer denken lassen, dass er ein Wort falsch gesprochen hat, während der Fehler in Wirklichkeit ein Fehler des Programms ist.
  • Ein weiteres Problem mit der ASR tritt in geräuschvollen Umgebungen auf, wie es sich etwa bei einem schwierigen Kanal, wie etwa dem Telefon, ergibt, oder wenn Sprache mit Stockungen behaftet ist. In diesen Situationen ist es wahrscheinlich, dass eine beträchtliche Anzahl von Fehlern auftritt. Obwohl Fehler manchmal vom Benutzer aufgrund des Zusammenhangs erkannt werden, können die sich ergebende Verwirrung und die wachsende Erschwernis bei der Auslegung die Vorzüge einer auf Worten beruhenden Anzeige vermindern. Dies trifft insbesondere zu, wenn der Benutzer ein Kind ist, das noch dabei ist, die Sprache zu erlernen. In diesem Falle sollten praktisch keine Fehler erlaubt sein.
  • Obwohl dieses Problem für Kinder, die lernen, richtig zu sprechen, besonders hinderlich ist, sind hohe Fehlerraten von ASR auch ein allgemeines Problem. Wenn eine Person einem ASR-System diktiert, nimmt das System Umschreibungsentscheidungen vor, die auf Wahrscheinlichkeiten beruhen, und die Entscheidungen können auf geringen Wahrscheinlichkeiten beruhen. Wenn der Benutzer eine unrichtige Umschreibung nicht sofort mitbekommt, wird die richtige Umschreibung kaum zu ermitteln sein, selbst dann nicht, wenn der Zusammenhang bekannt ist.
  • Damit besteht ein Bedarf nach einem Weg, die Probleme einzugrenzen oder zu lösen, die mit einer hohen Fehlerkennungsrate verbunden sind, wenn ASR dafür benutzt wird, die Kommunikationsfähigkeit oder die Lesefertigkeiten von hörgeschädigten Menschen oder beides zu verbessern, oder wenn die ASR zu anderen Spracherkennungszwecken genutzt wird.
  • Die vorliegende Erfindung stellt ein Verfahren bereit, wie es in Anspruch 1 beansprucht wird, ein System, wie es in Anspruch 4 beansprucht wird, und ein Rechnerprogramm, wie es in Anspruch 3 beansprucht wird.
  • Im Allgemeinen bieten die bevorzugten Ausführungsformen der vorliegenden Erfindung die Fähigkeit, einem Benutzer eine gemischte Anzeige einer Umschreibung vorzulegen. Die gemischte Anzeige ist vorzugsweise in hierarchischer Form organisiert. Vorzugsweise können Wörter, Silben und Laute auf der gleichen Anzeige untergebracht werden, und die passende Symbolumschreibung kann auf der Grundlage von Sprachteilen ausgewählt werden, die Mindestwerte an Glaubwürdigkeit aufweisen. Wörter werden angezeigt, wenn sie einen Mindestwert an Glaubwürdigkeit einhalten, oder andernfalls werden Silben angezeigt, die das Wort bilden. Wenn eine Silbe eine vorgegebene Glaubwürdigkeit nicht erreicht, können zusätzlich Laute, aus denen die Silbe besteht, angezeigt werden. In einer Ausführungsform der vorliegenden Erfindung kann eine Umschreibung auch als hierarchische Umschreibung dargelegt werden, weil eine eindeutige Glaubwürdigkeit abgeleitet wird, die Daten eines gemischten Wortes / einer Silbe / eines Lautes berücksichtigt.
  • Ein vollständigeres Verständnis der bevorzugten Ausführungsformen der vorliegenden Erfindung und auch weitere Merkmale und Vorzüge der vorliegenden Erfindung werden durch die Bezugnahme auf die folgende ausführliche Beschreibung und die Zeichnungen erlangt.
  • 1 ist ein Blockschaltbild eines beispielhaften hierarchischen Umschreibungs- und Anzeigesystems nach einer Ausführungsform der vorliegenden Erfindung;
  • 2 ist eine Übersichtsdarstellung eines Moduls zur automatischen Spracherkennung (ASR) nach einer Ausführungsform der vorliegenden Erfindung;
  • 3 ist eine Übersichtsdarstellung einer Trenneinrichtung für Wörter/Silben/Laute nach einer Ausführungsform der vorliegenden Erfindung;
  • 4 ist eine Übersichtsdarstellung einer Anzeigesteuereinheit nach einer Ausführungsform der vorliegenden Erfindung;
  • 5, 6 und 7 sind Beispiele von Anzeigen nach den Ausführungsformen der vorliegenden Erfindung;
  • 8 ist ein Flussbild eines Verfahrens für Wort/Silben-Verarbeitung nach einer Ausführungsform der vorliegenden Erfindung;
  • 9 ist eine Übersichtsdarstellung eines Verfahrens und verschiedener Inhalte von N-Bestenlisten, die während des Verfahrens nach einer Ausführungsform der vorliegenden Erfindung vorkommen; und
  • 10 ist ein Blockschaltbild eines beispielhaften Systems, das zum Ablauf von Ausführungsformen der vorliegenden Erfindung geeignet ist.
  • Die bevorzugten Ausführungsformen der vorliegenden Erfindung, wie sie durch Ansprüche 1 und 4 definiert wird, lösen oder vermindern die Probleme des Standes der Technik, indem sie eine hierarchische Anzeige und Umschreibung von Sprache bereitstellen, bei denen eine Ermittlung des am ehesten wahrscheinlichen Teiles der Sprache erfolgt und dieser Teil angezeigt wird. In einer Ausführungsform hat jeder Sprachteil einen Mindestwert einer Glaubwürdigkeitsebene oder eine Annahmeschwelle. Damit gibt es Annahmeschwellen für Wörter, Silben und Laute. Wenn ein Wort seine Annahmeschwelle einhält, wird es angezeigt. Wenn es außerhalb der Annahmeschwelle liegt, wird jede Silbe geprüft, um zu ermitteln, ob sie eine Annahmeschwelle für Silben einhält. Wenn dies der Fall ist, werden die Silbe oder die Silben angezeigt. Wenn eine Silbe außerhalb der Annahmeschwelle für Silben liegt, werden der Laut oder die Laute angezeigt, welche die Silbe bilden. Beispielsweise nehme man an, dass das erkannte Wort „embodiment" war, aber dass das erkannte Wort eine geringe Glaubwürdigkeit hatte, welche außerhalb der Annahmeschwelle für Wörter liegt. Wenn angenommen wird, dass die Silben „em", „bod", „i" und „ment" sind, wird jede Glaubwürdigkeit dieser Silben mit der Annahmeschwelle für Silben verglichen. Wenn die Glaubwürdigkeiten von „bod" und „i" hoch sind, werden diese Silben angezeigt. Die Silben „em" und „ment" werden in Laute zerlegt und als solche angezeigt. Die abschließende Anzeige wird daher gleich „e m ,bod' ,i' m (e) n t" sein.
  • Ein Vorteil der bevorzugten Ausführungsformen der vorliegenden Erfindung liegt darin, dass eine Person, deren Sprache gerade erkannt wird, in der Lage ist mitzuteilen, dass es für einen Abschnitt der Sprache eine höhere Fehlerwahrscheinlichkeit gibt, wenn dieser Sprachabschnitt durch Silben oder Laute ersetzt wird und keine Wörter auftreten. Da es wahrscheinlich ist, dass einige Silben oder Laute richtig sind, auch wenn das Wort unrichtig sein könnte, sollte der Benutzer zusätzlich in der Lage sein, das richtige Wort oder die richtigen Wörter besser zu ermitteln, das den Silben oder Lauten entspricht.
  • Die meisten derzeitigen Spracherkennungssysteme (ASR) sind entwickelt worden, um Sprache in Text umzuwandeln. Daher ermitteln diese Systeme für Wörter Maßzahlen für die Wahrscheinlichkeit und Glaubwürdigkeit. Es gibt einige ASR-Systeme, die Sprache in Silben umwandeln. Bei diesen Systemen beruhen die Maßzahlen für die Wahrscheinlichkeit und Glaubwürdigkeit auf Silben und nicht auf Wörter. Obwohl diese Maßzahlen für Wahrscheinlichkeit und Glaubwürdigkeit mit den Ausführungsformen der vorliegenden Erfindung benutzt werden können, können sie auch für eine gemischte Sprachumschreibung eine Glaubwürdigkeit ermitteln. Diese Ermittlung kann dafür benutzt werden zu berechnen, ob ein Wort, seine Silbenbestandteile oder seine Lautbestandteile die zuverlässigste Umschreibung eines Sprachteiles sind.
  • Unter Bezugnahme auf 1 zeigt diese Figur nun ein Blockschaltbild eines beispielhaften Systems zur hierarchischen Umschreibung und Anzeige 100 gemäß einer Ausführungsform der vorliegenden Erfindung. Das System 100 umfasst ein ASR-Modul 130, ein Trennmodul 140, ein Anzeigensteuereinheit-Modul 150 und eine Anzeige 160. Eine Person (nicht dargestellt) spricht Laute 110 in ein Mikrofon 120, und das resultierende elektrische Signal wird durch das ASR-Modul 130 weiter verarbeitet. Das ASR-Modul 130 wandelt die Sprache in eine ASR-Ausgabe 135 um. Die ASR-Ausgabe 135 kann Ketten von Wörtern oder Wörter oder Silben zusammen mit Anfangs- und Endzeiten und hypothetische Punktzahlen für die Ketten umfassen. ASR-Modul 130 wird ausführlicher unter Bezugnahme auf 2 dargelegt.
  • Das Trennmodul 140 empfängt die ASR-Ausgabe 135 und unterteilt die Ausgabe in Wörter und Silben und wahlweise in Laute. Das Trennmodul 140 wird ausführlicher unter Bezugnahme auf 3 beschrieben. Die Trennausgabe 145 kann damit Wörter und Silben, Wort- und Silbenglaubwürdigkeiten und Beginn- und Endzeiten für Wörter und Silben umfassen. Wahlweise können auch Laute, Glaubwürdigkeiten von Lauten und Beginn- und Endzeiten von Lauten der Trennausgabe 145 hinzugefügt werden.
  • Das Anzeigensteuereinheit-Modul 150 empfängt die Ausgabe 145 der Trenneinrichtung und zeigt diese Ausgabe in hierarchischer Form auf Anzeige 160 an. Das Anzeigensteuereinheit-Modul 150 kann auch wahlweise unterschiedliche programmierbare Aspekte des Systems 100 steuern. Seine Programmierbarkeit und das Anzeigensteuereinheit-Modul 150 selbst werden ausführlicher unter Bezugnahme auf 4 erklärt. Unterschiedliche hierarchische Anzeigeschemata werden unter Bezugnahme auf 5 bis 7 dargelegt.
  • Im Allgemeinen arbeitet das System 100 auf folgende Weise. Eine Person spricht und erzeugt einen Laut 110, der im Mikrofon 120 in elektrische Signale umgewandelt wird. Diese elektrischen Signale werden durch das ASR-Modul 130 in einen Datenstrom (Teil der ASR-Ausgabe 135) umgewandelt, der ein Wort oder Wörter und Silben enthält. Das Trennmodul 140 trennt den empfangenen Datenstrom in Wörter und Silben und wahlweise in Laute. Das Trennmodul 140 führt auch eine Ermittlung hinsichtlich der Glaubwürdigkeit oder Wahrscheinlichkeit der Silben oder Laute und der Verfahrensweise durch, wie die Sprachteile hierarchisch umschrieben werden sollten. Die Anzeigesteuereinheit 150 benutzt diese Informationen, um zu ermitteln, welcher Sprachteil am wahrscheinlichsten richtig ist und modifiziert die Anzeige 160, um eine hierarchische Anzeige der Sprache darzustellen. Die hierarchische Anzeige kann das Anzeigen eines gemischten Wortes, einer Silbe und eines Lautes umfassen.
  • Unter Bezugnahme auf 2 zeigt diese Figur nun eine Übersichtsdarstellung eines ASR-Moduls 130 gemäß einer Ausführungsform der vorliegenden Erfindung. Das ASR-Modul 130 umfasst ein Signalverarbeitungsmodul 210, ein Wörterbuch 220, ein allgemeines Sprachmodell 230, ein themengebundenes Sprachmodell 240, ein Modul für akustische Prototypen 250, einen schnellen Übereinstimmungs-Decodierer 260, einen ausführlichen Übereinstimmungs-Decodierer 270 und decodierte Daten 280.
  • Tondaten werden durch das Signalverarbeitungsmodul 210 verarbeitet. wie es dem Fachmann bekannt ist, kann das Signalverarbeitungsmodul 210 Schritte wie das Abtasten des Tonsignals und das zerlegen des Signals in sich überdeckende Rahmen vornehmen, so dass jeder Rahmen durch den Rest des Systems diskret verarbeitet wird. Die Rahmen können einem Merkmal-Extrahierer bereitgestellt werden, der in regelmäßigen Intervallen spektrale Merkmale aus dem Signal extrahieren kann, beispielsweise alle 10 Millisekunden. Die spektralen Merkmale befinden sich gewöhnlich in der Form von Merkmalsvektoren, die dann durch den schnellen Übereinstimmungs-Decodierer 260 und den ausführlichen Übereinstimmungs-Decodierer 270 weiterverarbeitet werden. Das Signalverarbeitungsmodul 210 führt allgemein bekannte Funktionen aus.
  • Das Wörterbuch 220 ist ebenfalls ein allgemein bekanntes Modul. In einer Ausführungsform der vorliegenden Erfindung umfasst das Wörterbuch 220 Wörter und Silben. Beispielsweise kann das Wörterbuch 220 zwanzigtausend der häufigsten englischen Wörter und fünftausend Silben enthalten, die alle möglichen Klassen von englischer Aussprache von Teilen von Wörtern abdecken. Diese Verfahrensweise gestattet es, dass Wörter angezeigt werden, die sich nicht im anfänglichen Wörterbuch befinden. Die Wörter selbst werden jedoch im Allgemeinen nicht angezeigt, sondern stattdessen werden die Silben angezeigt, aus denen die Wörter zusammengesetzt sind. Ebenfalls in dieser Ausführungsform kann das allgemeine Sprachmodell 230 (ebenfalls eine wohlbekannte Einheit) Wort-/Silbenketten Punktzahlen im Sprachmodell zuordnen. Diese Art von Sprachmodell, mit einem gemischten Wort-/Silben-Wörterbuch wird in der US-Patentschrift 6 073 091 von Kavensky et al., „Apparatus and method for forming a filtered inflected language model for automatic speech recognition", erteilt am 6. Juni 2000, dargelegt.
  • In einer weiteren Ausführungsform der vorliegenden Erfindung umfasst das Wörterbuch 220 nur Wörter, und Silben werden in nachgeordneten Decodierschritten erzeugt (wie etwa durch das Trennmodul 140). Das allgemeine Sprachmodell 230 würde dann Wortketten Punktzahlen im Sprachmodell zuordnen. Welche Ausführungsform verwendet werden sollte, hängt davon ab, wie Punktzahlen für die Glaubwürdigkeit angehängt sind. Wenn die Maßzahl für die Glaubwürdigkeit nur für Wörter definiert ist, ist es besser, das Wörterbuch 220 nur mit Wörtern zu benutzen, und Wörter in Silben abzubilden, wenn die Wörter geringe Punktzahlen haben. Wenn gewünscht wird, dass gesprochene Wörter decodiert werden, die sich nicht im Wörterbuch 220 befinden, kann eine Mischung von Wörtern/Silben im Wörterbuch 220 nützlich sein. Bei der letzteren Verfahrensweise ist es günstig, eine komplexere Maßzahl für die Glaubwürdigkeit zu benutzen, die auf Wörter und Silben angewandt werden kann. Eine derartige Maßzahl wird hier unter Bezugnahme auf 9 beschrieben.
  • Das themengebundene Sprachmodell 240 ist eine Option. Dieses Modell enthält Statistiken und Wörterbücher, die auf einige Themen beschränkt sind. Dieses Sprachmodell kann beispielsweise in Klassenräumen für Schulstunden über bestimmte Themen benutzt werden, wie etwa Geschichte, Mathematik oder Biologie. Das Modul der akustischen Prototypen 250 wird benutzt, um akustische Punktzahlen für gesprochene Äußerungen zu berechnen. Es kann mehrere Realisierungen für das Modul der akustischen Prototypen 250 geben. Das Modul der akustischen Prototypen 250 kann aus verborgenen Markov-Modellen bestehen, die durch akustische Trainingsdaten trainiert werden. Verborgene Markov-Modelle können auch für Silben erstellt werden, wie es durch die US-Patentanmeldung mit der Seriennummer 09/663 812, eingereicht am 15. September 2000, mit dem Titel „Syllabe and Morheme-Based Automatic Indexing and Searching Method and Apparatus for Textual Archive Systems" dargelegt wird.
  • Der schnelle Übereinstimmungs-Decodierer 260 erzeugt eine Liste von Kandidatenwörtern oder Wörtern/Silben, die mit der gesprochenen akustischen Äußerung übereinstimmen. Eine Quelle, die einen geeigneten schnellen Übereinstimmungs-Decodierer beschreibt, ist Gopalakrishnan et al., „Fast Match Techniques", Automatic Speech Recognition, S. 413 bis 428, 1996, bei Kluwer Academic (Herausgeber). Der schnelle Übereinstimmungs-Decodierer 260 erzeugt ein Wort- oder eine Wort/Silben- oder sogar genau eine Silbenausgabe 273. Die Silbendecodierung kann sogar für schnelles Übereinstimmungs-Decodieren ausreichend genau sein. Diese decodierten Daten 280 können dann an ein Trennmodul 140 geschickt werden, wie es in 1 gezeigt wird. Wahlweise kann die Ausgabe 273 vom schnellen Übereinstimmungs-Decodierer direkt an das Anzeigensteuereinheit-Modul 150 (in 1 gezeigt) gelenkt werden. Dies kann in Situationen nützlich sein, bei denen es zwei Anzeigen von Umschreibungen gibt, eine, die schnell ermittelt wurde, mit möglicherweise mehr Fehlern, und eine, die durch einen weniger zu Fehlern neigenden Vorgang umschrieben worden ist. Dies gestattet eine unmittelbare Rückkopplung, sorgt aber auch für eine bessere Umschreibung, wenn es die Zeit zulässt.
  • Der ausführliche Übereinstimmungs-Decodierer 270 erzeugt eine Ausgabe 277, welche die Decodiergenauigkeit im Vergleich zur Ausgabe 273 verbessert haben sollte, die durch den schnellen Übereinstimmungs-Decodierer 260 erzeugt wurde. Diese Ausgabe 277 kann eine Kette von Wörtern oder von Wörtern und Silben enthalten. Eine Quelle, die ausführliche Übereinstimmung darlegt, ist Jelineck, „Statistical Methods for Speech Recognition", 1998, MIT Press. Die decodierten Daten 280 können dann an das Trennmodul 140 (siehe 1 oder 3) geschickt werden.
  • Unter Bezugnahme auf 3 zeigt diese Figur nun eine Übersichtsdarstellung eines Trennmoduls für Wörter/Silben/Laute 140 gemäß einer Ausführungsform der vorliegenden Erfindung. Das Trennmodul 140 umfasst einen Mechanismus für Punktzahlen für die Glaubwürdigkeit 310, eine Konsensberechnung 320, einen Vergleich der Studentenhistorie 330 und hierarchische Daten 340. Die Anzeigesteuereinheit 150 kann wahlweise Aspekte dieser Module steuern, wie es in 3 durch die Verbindung von der Anzeigesteuereinheit 150 zu den Modulen gezeigt wird.
  • Schnelle Übereinstimmungsdaten 273, die Wörter oder Wörter und Silben enthalten, und ausführliche Übereinstimmungsdaten 277, die ebenfalls Wörter oder Wörter und Silben umfassen, sind Eingaben in die Module 310, 320 und 330. Es ist anzumerken, dass alle drei Module 310 bis 330 in einem System nicht notwendigerweise gleichzeitig genutzt werden; 3 ist nur repräsentativ für die Module, die in einem Sprachverarbeitungssystem benutzt werden könnten. Dies wird nachstehend ausführlicher erläutert. Das Berechnungsmodul für Punktzahlen für die Glaubwürdigkeit 310 wird ausführlicher unter Bezugnahme auf 9 beschrieben, aber im Allgemeinen versucht es, Glaubwürdigkeit pro Zeiteinheit zu ermitteln. Dies gestattet es, dass die Glaubwürdigkeit für Laute ermittelt wird.
  • Eine Konsensberechnung 320 kann ebenfalls ausgeführt werden. Konsensberechnungen werden ausführlicher bei Mangu et al. „Finding Consensus in Speech Recognition: Word Error Minimization and Other Applications of Confusion Networks", Computer Speech and Language Bd. 14, 2000, S. 373 bis 400 beschrieben. Grundsätzlich versucht eine Konsensberechnung, die Folge von Wörtern herauszufinden, welche die geringste Anzahl von Fehlern enthält, und zwar nicht wie bei traditionellen Erkennern, welche die am meisten wahrscheinliche Folge von Wörtern ausgeben, d.h. diejenige, bei der es eher wahrscheinlicher ist, dass sie als Ganzes richtig ist. Dies erfolgt dadurch, dass für jede Wortposition eine unabhängige Entscheidung vorgenommen wird, indem in die N-Bestenliste der Erkennerhypothesen für die Wörter geschaut wird, die auf dieser bestimmten Position am meisten wahrscheinlich sind (oder einfach am häufigsten in der N-Bestenliste auftauchen). Im Allgemeinen wird entweder die Berechnung der Punktzahlen für die Glaubwürdigkeit 310 benutzt, oder die Konsensberechnung 320 wird benutzt. Es ist auch möglich, beide Berechnungen zu gebrauchen, wie etwa durch Einfügen der Konsensberechnung vor der Glaubwürdigkeitsberechnung, wenn es für eine gegebene Anwendung nützlich ist. Der Vergleich der Studentenhistorie 330 kann sowohl mit dem Modul 310 als auch mit dem Modul 320 kombiniert werden, oder kann auch das einzige Modul im Trennmodul 140 sein. Der Vergleich der Studentenhistorie 330 ist für solche Situationen nützlich, bei denen Wörter schon erlernt worden sind, wie etwa, wenn ein Student ein Lesepaket nutzt.
  • Jedes dieser Module 310 bis 330 erzeugt eine hierarchische Datenausgabe 340, die beispielsweise Wörter, Silben oder Laute und für jedes Punktzahlen, Glaubwürdigkeiten oder Wahrscheinlichkeiten umfasst. Diese hierarchischen Daten 340 können durch die Anzeigesteuereinheit 150 verwendet werden, um zu ermitteln, was angezeigt werden sollte.
  • Welches Modul oder welche Gruppe von Modulen gewählt wird, hängt von der Art der Anwendung und anderen Faktoren ab, die durch die Anzeigesteuereinheit 150 gesteuert werden. Wenn das System als Lesetutor benutzt wird, könnte beispielsweise der Vergleich der Studentenhistorie 330 verwendet werden. In diesem Falle enthält der Vergleich der Studentenhistorie 330 die Informationen darüber, welche Wörter von den Studenten schon erlernt worden sind. In Abhängigkeit von diesen Informationen werden entweder Wörter oder Silben angezeigt. Beispielsweise werden Wörter angezeigt, wenn sie schon erlernt worden waren, oder andernfalls Silben. Der Vergleich der Studentenhistorie kann auch zum Unterrichten des Lippenlesens benutzt werden, weil der Student schon bestimmte Wörter kennt.
  • Der Vergleich der Studentenhistorie 330 arbeitet wie folgt, wenn er in Verbindung mit einem Lesetutor benutzt wird. Ein Student liest einen Text laut vor. Der Text stammt von einer Anzeige, und deshalb kann ein ASR-System, das die vorliegende Erfindung nutzt, ermitteln, was der Student liest. Das ASR-System decodiert, was der Student gesagt hat, und speichert in einem Zwischenspeicher Wörter und Laute für jede akustische Äußerung. Es vergleicht eine Lautkette (d.h., wie das System die vom Studenten erfolgte Sprachäußerung decodierte) mit einer richtigen Lautkette für das Wort, das in seiner Datenbank gespeichert ist. Wenn es keine Übereinstimmung gibt zwischen dem, wie der Student ein Wort ausgesprochen hat und wie das Wort ausgesprochen werden sollte, kann das System eine Kette von richtigen Lauten (oberhalb des Wortes) anzeigen und den Laut oder die Laute hervorheben, die nicht richtig gesprochen worden sind.
  • Beispielsweise könnte der Student das Wort CAT lesen und dieses gleiche Wort wie „k a p" aussprechen. Das System weiß aus seiner Datenbank, dass das Wort CAT eine Lautkette mit „k a t" haben sollte. Es kann „k a T" anzeigen, um hervorzuheben, dass „t" gelesen werden sollte und nicht „p". Es kann auf einer Anzeige die Lautkette „k a T" oberhalb des Wortes CAT anzeigen.
  • Das System kann die Studentenhistorie wie folgt berücksichtigen. Das System kann feststellen, ob ein Student gelernt hat, einige Wörter gut zu lesen. Beispielsweise hat der Student, nachdem er korrigiert worden ist, in mehreren Prüfzeiträumen damit begonnen, CAT als „k a t" zu lesen. Das System kann diese Information nutzen, um seine Decodierung zu verbessern. Es gibt eine gewisse Wahrscheinlichkeit, dass das ASR-System den Decodierfehler macht, was bedeutet, dass der Student keinen Fehler macht, wenn er ein Wort ausspricht. Beispielsweise könnte ein Student das Wort „CAT" lesen und es richtig als „k a t" aussprechen, aber das ASR-System könnte einen Fehler machen und entscheiden, dass der Student „k a p" gesprochen hat. Wie vorstehend erläutert, könnte das System wissen, dass der Student schon gelernt hat, das Wort CAT richtig zu lesen. Das System könnte auch die Punktzahlen für die Glaubwürdigkeit für die decodierte Äußerung „k a p" messen und herausfinden, dass diese Punktzahl für die Glaubwürdigkeit relativ gering ist. Dann kann das System entscheiden, dass es das ASR-System war, das einen Fehler gemacht hat und nicht der Student, und daher wird es keine Korrektur „k a T" für den Studenten ausgeben.
  • Damit kann unter Verwendung der Historie, wie wahrscheinlich es ist, dass ein Student einen Lesefehler machen kann, eine Punktzahl für die Glaubwürdigkeit verbessert werden. Ein ASR-System, das den Vergleich der Studentenhistorie 330 benutzt, könnte deshalb das, was ein Student gesprochen hat (als decodierte Lautäußerung), mit der richtigen phonetischen Aussprache des Wortes vergleichen, eine gesprochene decodierte phonetische Äußerung auf Übereinstimung mit der richtigen phonetischen Aussprache prüfen und den nichtpassenden Laut kennzeichnen. Das System könnte dann eine richtige phonetische Äußerung mit einem hervorgehobenen Laut ausgeben, der nicht übereingestimmt hat. Zusätzlich würde dann, wenn die Punktzahl für die Glaubwürdigkeit für die vom Studenten gesprochene phonetische Äußerung unterhalb einer gewissen Schwelle ist und es einen historischen Beweis gibt, dass der Student gelernt hat, dass Wort zu sprechen, das System keine korrigierte phonetische Äußerung ausgeben.
  • Unter Bezugnahme auf 4 wird nun eine Übersichtsdarstellung einer Anzeigesteuereinheit 150 nach einer Ausführungsform der vorliegenden Erfindung gezeigt. Die Anzeigensteuereinheit 150 umfasst eine Steuertabelle 405, ein Steuermodul oder -module 450, hierarchische Daten 340 und ein Modul zur Platzierung einer Anzeige 460. Die Steuertabelle 405 gestattet es einem Benutzer, Kriterien für die Steuereinheit festzulegen. Zu derartigen Kriterien gehören eine Anwendung 410, eine Verzögerung 420, eine annehmbare Genauigkeit 430 und zusätzliche Kriterien 441 bis 445, die Module aktivieren oder deaktivieren. Die zusätzlichen Kriterien sind die folgenden, wobei jedes von ihnen sein entsprechendes Modul deaktiviert oder aktiviert: Kriterium 441 entspricht dem schnellen Übereinstimmungs-Decodierer 260; Kriterium 442 entspricht dem ausführlichen Übereinstimmungs-Decodierer 270; Kriterium 443 entspricht der Berechnung der Punktzahl für die Glaubwürdigkeit 310; Kriterium 444 entspricht der Konsensberechnung 320; und Kriterium 445 entspricht dem Vergleich der Studentenhistorie 330. Die Steuertabelle 405 ist in diesem Beispiel für die Anwendungen des Lippenlesens 411, der Kommunikation 412 und des Lesetutors 413 konfiguriert.
  • Die Verzögerung 420 gibt den Betrag der annehmbaren Verzögerung zwischen dem Zeitpunkt an, zu dem ein Wort gesprochen wird, und dem Zeitpunkt, wenn das Wort auf der Anzeige 160 erscheinen sollte. Üblicherweise liegen die Verzögerungen in der Größenordnung einer halben Sekunde oder weniger. Die annehmbare Genauigkeit zeigt an, wie genau die Umschreibung für Wörter sein muss, ehe das System auf Silben oder Laute übergeht. Wie vorstehend erläutert, ist es von Nutzen, zuerst zu ermitteln, ob ein Wort eine geringe Glaubwürdigkeit hat, die außerhalb einer vorgegebener Annahmeschwelle liegt, ehe Silben oder Laute angezeigt werden.
  • Wenn eine Anwendung zum Lippenlesen 411 läuft, hat ein System eine Verzögerung 421 von t1, eine annehmbare Genauigkeit 431 von 41 Prozent, und die Module für den schnellen Übereinstimmungs-Decodierer 260 und die Konsensberechnung 320 sind aktiviert (wie es durch Kriterien 441 beziehungsweise 444 angezeigt wird). Wenn eine Kommunikationsanwendung 412 abläuft, hat ein System eine Verzögerung 422 von t2, eine annehmbare Genauigkeit 432 von 50 Prozent, und die Module für den schnellen Übereinstimmungs-Decodierer 260, den ausführlichen Übereinstimmungs-Decodierer 270 und für die Berechnung der Punktzahl für die Glaubwürdigkeit 310 sind aktiviert (wie durch Kriterien 441, 442 beziehungsweise 443 angezeigt). Wenn eine Anwendung als Lese-Tutor 413 läuft, hat ein System eine Verzögerung 423 von t3, eine annehmbare Genauigkeit 433 von 60 Prozent, und die Module für den ausführlichen Übereinstimmungs-Decodierer 270, für die Berechnung der Punktzahl für die Glaubwürdigkeit 310, für den Vergleich der Studentenhistorie 330 sind aktiviert (wie es durch Kriterien 442, 443 beziehungsweise 445 angezeigt wird).
  • Im Allgemeinen arbeiten der schnelle Übereinstimmungs-Decodierer 260 und andere Decodierblöcke, wie etwa der ausführliche Übereinstimmungs-Decodierer 270, immer. Der schnelle Übereinstimmungs-Decodierer 260 sollte nicht vollständig entfernt werden, aber er kann stattdessen auf eine solche Weise verändert werden, dass er eine kürzere Liste von Kandidatenwörtern ausgibt. Die insgesamt annehmbare Verzögerung sollte nicht kleiner als die gesamte Decodierzeit sein (einschließlich der Verzögerung der schnellen Übereinstimmung). Aber die schnelle Übereinstimmung und andere Decodierblöcke können so eingestellt werden, dass sie schneller laufen (z.B. dadurch, dass eine Liste von Wörtern mit schneller Übereinstimmung verkürzt wird). Damit steuern die Kriterien 441 und 442, ob die Ausgabe vom schnellen Übereinstimmungs-Decodierer 260 beziehungsweise vom ausführlichen Übereinstimmungs-Decodierer 270 angezeigt wird.
  • Die Daten in Steuertabelle 405 werden durch das Steuermodul oder die Steuermodule 450 benutzt, die die ASR-Module 130, den schnellen Übereinstimmungs-Decodierer 260, den ausführlichen Übereinstimmungs-Decodierer 270, die Berechnung der Punktzahl für die Glaubwürdigkeit 310, die Konsensberechnung 320, den Vergleich der Studentenhistorie 330 und das Anzeigeplatzierungsmodul 460 konfigurieren. Das Steuermodul oder die Steuermodule 450 können auch jegliche andere notwendige Konfigurierung durchführen. Das Modul zur Anzeigeplatzierung 460 kann durch das/die Steuermodul/e 450 so konfiguriert werden, dass es senkrecht ablaufenden Text, sich seitlich verschiebenden Text oder eine Kombination davon anzeigt. Mögliche Anzeigen werden nachstehend unter Bezugnahme auf 5 bis 7 erörtert.
  • Unter Bezugnahme auf 5 wird nun eine mögliche Anzeige 500 gezeigt. In der Anzeige 500 gibt es zwei Teilbereiche. In Teilbereich 510 wird eine genauere Übersetzung gezeigt. Diese Übersetzung enthält im Allgemeinen Wörter hoher Genauigkeit, und Silben, wenn die Genauigkeit geringer ist. In Teilbereich 520 wird eine weniger genaue Übersetzung gezeigt. Diese Übersetzung könnte ebenfalls Wörter enthalten, obgleich in diesem Beispiel der Teilbereich 520 nur Silben enthält. Eine derartige Anzeige 500 könnte beim Lippenlesen benutzt werden, wo eine schnelle Decodierung erforderlich ist. Im Beispiel von 5 bilden die Silben eins und zwei Wort eins, während die Silben drei bis fünf Wort zwei bilden. In dieser Version laufen die Übersetzungen von links nach rechts ab.
  • 6 zeigt eine weitere mögliche Anzeige. In dieser Anzeige verläuft die Übersetzung von links nach rechts, bis eine Zeile voll ist, und dann von unten nach oben. Dies ist die Art, wie in einem Film die Danksagungen im Abspann gezeigt werden. Hier gibt es eine Mischung von Wörtern, Silben und Lauten. Die Laute 610 sind Laute mit geringer Wahrscheinlichkeit, die als solche mit bestimmten Anzeigetechniken angezeigt werden, wie etwa das Setzen der Laute mit geringer Wahrscheinlichkeit in Klammern. Eine andere Art, dies zu bewerkstelligen, wäre es etwa, Elemente mit hoher Wahrscheinlichkeit hervorzuheben oder in einer unterschiedlichen Schriftart anzuzeigen (fett, unterstrichen) und die Elemente mit geringer Wahrscheinlichkeit weniger hervortreten zu lassen (beispielsweise in kursiver Schrift oder in grau). In 6 sind die Laute geringer Wahrscheinlichkeit kursiv dargestellt.
  • 7 zeigt eine andere Anzeigemöglichkeit. In dieser Anzeige sind die möglichen Laute an jedem passenden Standort aufgelistet. Im Allgemeinen würden diese so angeordnet, dass sich die Laute höchster Glaubwürdigkeit oben und die Laute geringerer Glaubwürdigkeit unten befinden. Es ist anzumerken, dass diese Art von Anzeige mit Wörtern, Silben und Lauten vorkommen kann. Wenn ein Wort eine geringe Glaubwürdigkeit hat, welche außerhalb der Annahmeschwelle liegt, werden beispielsweise die zwei Silben während der gleichen Zeitspanne wie für das Wort als die Silbenannahmeschwelle erfüllend ausgewählt und so angezeigt, wie es in 7 dargestellt wird. Dies könnte es dem Benutzer gestatten, eine Entscheidung hinsichtlich der richtigen Übersetzung zu treffen, da er zwischen dem Wort oder den Silben wählen könnte.
  • Die Glaubwürdigkeitsschwelle, die auf jeder Ebene (Wort, Silbe oder Laut) benutzt wird, um zu entscheiden, ob die Elemente so angezeigt werden sollen, wie sie sind, oder ob sie in zwei Elemente der niedrigeren Ebene aufgeteilt werden sollen, wird gewählt, indem der Nutzen der Anzeige in der Darstellung der höheren Ebene und die möglichen Kosten der Anzeige eines unrichtigen Gegenstandes auf dieser Ebene gegeneinander abgewogen werden.
  • Unter Bezugnahme auf 8 wird nun ein Verfahren 800 für Wort-/Silbenverarbeitung gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das Verfahren 800 wird immer dann ausgeführt, wenn es wünschenswert ist, dass genauere Silben angezeigt werden, wenn dem Symbol entsprechende Wörter außerhalb einer bestimmten Genauigkeitsschwelle liegen. Es ist anzumerken, dass ein Wort umschrieben werden kann, das nicht den Silben entspricht, die für den gleichen Zeitraum umschrieben worden sind. Mit anderen Wörtern, die Silben, die für einen Zeitraum als die wahrscheinlichsten Silben betrachtet werden, müssen nicht tatsächlich dem Wort entsprechen, das für diesen Zeitraum als das wahrscheinlichste betrachtet wird.
  • Das Verfahren 800 beginnt in Schritt 805, wenn ermittelt wird, ob die Anwendung für Lippenlesen läuft. Wie vorstehend erläutert, können über Anzeigensteuereinheit 150 die Einstellungen der Anwendung konfiguriert werden. Wenn die Anwendung für Lippenlesen läuft (Schritt 805 = JA), wird ermittelt, ob die Verzögerung zwischen dem Ausgeben decodierter Daten von der Liste der ausführlichen Übereinstimmungen geringer ist als eine vorgegebene Schwelle (Schritt 825). Wenn die Verzögerung nicht geringer als eine vorgegebene Schwellenverzögerung ist (Schritt 825 = NEIN), wird an der Anzeige eine Silbe aus dem schnellen Übereinstimmungs-Decodierer ausgegeben. Die Verzögerungsschwelle, wie sie unter Bezugnahme auf 4 erläutert worden ist, kann durch einen Benutzer konfiguriert werden. Wenn die Verzögerung geringer als eine vorgegebene Schwellenverzögerung ist (Schritt 825 = JA), wird ermittelt, ob die Punktzahl für die Glaubwürdigkeit größer als eine vorgegebene Glaubwürdigkeit ist (Schritt 835). Wenn dies der Fall ist (Schritt 835 = JA), wird das Wort auf der Anzeige ausgegeben (Schritt 840). Wenn die Punktzahl für die Glaubwürdigkeit geringer als eine vorgegebene Glaubwürdigkeit ist (Schritt 835 = NEIN), wird das Wort in eine Silbe (Schritt 845) umgewandelt, und die Silbe wird an der Anzeige (Schritt 850) ausgegeben.
  • Wenn sich die Anwendung nicht mit Lippenlesen befasst (Schritt 805 = NEIN), wird als Nächstes ermittelt, ob es sich um eine Anwendung für einen Lesetutor (Schritt 810) handelt. Wenn die Anwendung einem Lesetutor dient, werden die Anweisungen ausgeführt (Schritt 815), wie sie durch Steuertabelle 405 von Anzeigensteuereinheit 150 (siehe 4) angegeben werden. Diese Reihe von Schritten ist denen sehr ähnlich, die für das Lippenlesen beschrieben worden sind, wie etwa Schritte 825 bis 850. Bei einer Anwendung als Lesetutor kann der schnelle Übereinstimmungs-Decodierer nicht genutzt werden, was bedeutet, dass Schritt 825 nicht benutzt würde. Es würden jedoch Wörter oder Silben zur Anzeige ausgewählt, die auf Glaubwürdigkeitsebenen für diese Sprachteile beruhen. Wenn die Anwendung gerade nicht als Lesetutor genutzt wird (Schritt 810 = NEIN), wird geprüft, ob das System für eine andere Anwendung benutzt wird, wie sie durch die Steuertabelle 405 der Anzeigensteuereinheit 150 (gezeigt in 4) definiert ist. Die anderen Kriterien (wie sie durch Steuertabelle 405 ermittelt werden) für die bestimmte Anwendung würden festgelegt und ausgeführt.
  • Es ist anzumerken, dass Verfahren 800 modifiziert werden kann, um das Anzeigen von Lauten mit einzubeziehen, wenn das Decodieren von Silben eine vorgegebene Genauigkeitsebene nicht erreicht.
  • Unter Bezugnahme auf 9, werden nun eine Übersichtsdarstellung eines Verfahrens 900 und verschiedene Inhalte von N-Bestenlisten, die während des Verfahrens 900 auftreten, gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das Verfahren 900 wird benutzt, um die Glaubwürdigkeit als Funktion der Zeit zu ermitteln, was dann dafür benutzt werden kann zu ermitteln, welcher Teil der Sprache (Wörter oder Silben und wahlweise Laute) die wahrscheinlichste Übersetzung ist. Das Verfahren 900 wird angewandt, wenn die Ausgabe von ASR eine gemischte Ausgabe von Wörtern und Silben (und möglicherweise Lauten) ist. In 9 entsprechen gerade Zahlen den Inhalten einer N-Bestenliste, und die ungeraden Zahlen entsprechen Verfahrensschritten, die an der N-Bestenliste ausgeführt werden. Es ist anzumerken, dass die N-Bestenlisten zusätzliche Informationen zu denjenigen enthalten können, die hier gezeigt werden.
  • In der N-Bestenlisten 910 umfasst diese Liste Wörter und Silben, Start- und Endzeiten und hypothetische Punktzahlen für die Wörter und Symbole. Dies ist die N-Bestenliste, die sich ergeben sollte, nachdem die ASR 130 ausgeführt worden ist. Es ist anzumerken, dass das System auch nur in diesem Augenblick Wörter enthalten kann. In Schritt 915 werden die Wörter und Silben in eine entsprechende Folge von Lauten umgewandelt. Der erste Laut jedes Tokens in der ursprünglichen Hypothese erbt die Startzeit dieses Tokens. Der letzte Laut jedes Tokens in der ursprünglichen Hypothese erbt die Endzeit dieses Tokens. An diesem Punkt enthält eine temporäre N-Bestenliste 920 Laute, einige Start- und Endzeiten und Punktzahlen für die Hypothese. In Schritt 925 werden durch Interpolieren der vorhandenen Zeiten die fehlenden Start- und Endzeiten für die besten hypothetischen Laute eingetragen, so dass allen Lauten, die ihren Ursprung im gleichen Token in der ursprünglichen Hypothese haben, die gleiche Dauer zugemessen wird. Die fehlenden Start- und Endzeiten für die Laute der restlichen N-1 Hypothesen werden wie folgt eingetragen. Jede dieser N-1 Folgen von Lauten wird zu obersten ausgerichtet, indem der Bearbeitungs-(oder Levehnstein-) Abstand zwischen den beiden minimiert wird. Jeder Laut in der Folge wird als Übereinstimmung gekennzeichnet, in Bezug auf die beste Hypothese eingefügt oder ersetzt. Für übereinstimmende Laute werden von der besten Hypothese die Start- und Endzeiten in die in Frage kommende Hypothese hineinkopiert. Für Folgen von eingefügten oder ersetzten Lauten werden die Start- und Endzeiten so gesetzt, dass sie zwischen den Zeiten, die schon ermittelt worden sind, gleichmäßig verteilt sind.
  • Nach Schritt 925 enthält die temporäre N-Bestenliste Laute, Start- und Endzeiten und hypothetische Punktzahlen (dies ist die N-Bestenliste 930). In Schritt 935 werden die hypothetischen Punktzahlen jeder Hypothese, multipliziert mit einem Skalierfaktor, und ein Exponentialwert genommen. Dies sind Standardschritte bei der Sprachanalyse. Andere nichtlineare, monoton ansteigende Funktionen können ebenfalls benutzt werden. Die umgewandelten Punktzahlen werden dann normiert, indem jede von ihnen durch ihre Summe geteilt wird. Diese Zahlen werden als die Wahrscheinlichkeiten der Hypothesen bezeichnet. An diesem Punkt enthält die N-Bestenliste Laute und Start-/Endzeiten und Wahrscheinlichkeiten für jede vollständige Hypothese (wie durch die N-Bestenliste 940 angezeigt). Was die Wahrscheinlichkeiten anbetrifft, werden, wenn es eine 10- Bestenliste gibt, 10 Wahrscheinlichkeiten vorkommen, die sich zu eins summieren.
  • In Schritt 945 werden die Rahmenglaubwürdigkeiten berechnet. Für jeden Zeitrahmen t wird eine Rahmenglaubwürdigkeit berechnet, indem die Wahrscheinlichkeiten aller der Hypothesen (einschließlich der besten Hypothese) addiert werden, für die der Laut, der zum Zeitpunkt t hypothetisiert wird, mit dem Laut übereinstimmt, der zum Zeitpunkt t als beste Hypothese hypothetisiert wurde. An diesem Punkt enthält die N-Bestenliste die Glaubwürdigkeit als Funktion der Zeit (wie von der N-Bestenliste 950 angezeigt). Es ist anzumerken, dass die N-Bestenliste alle vorher erwähnten Elemente wie etwa Laute, Start- und Endzeiten und Wahrscheinlichkeiten enthalten kann.
  • In Schritt 955, werden die beiden N-Bestenlisten 910 und 950 in Glaubwürdigkeiten von Silben und Wörtern (und wahlweise Lauten) kombiniert, woraus die N-Bestenliste 960 resultiert. Grundsätzlich wird jede Rahmenglaubwürdigkeit über einen Sprachteil gemittelt, um die Glaubwürdigkeit für diesen Sprachteil zu ermitteln. Wenn ein Laut drei Rahmen umfasst, ist beispielsweise die dem Laut zugeordnete Glaubwürdigkeit der Durchschnittswert der Glaubwürdigkeiten für die drei Rahmen. Wenn ein Wort zehn Rahmen umspannt, ist gleichermaßen die dem Wort zugeordnete Glaubwürdigkeit der Durchschnittswert der Glaubwürdigkeiten jedes der zehn Rahmen. Die Benutzung der Durchschnittswerte der Glaubwürdigkeiten der umspannten Rahmen ist ein Verfahren, die Glaubwürdigkeit für einen Sprachteil zu ermitteln. Andere Verfahren können jedoch benutzt werden. Beispielsweise kann ein geometrisches Mittel oder das Minimum oder Maximum der Rahmenglaubwürdigkeit über die Dauer des Sprachteiles benutzt werden.
  • Falls es im Verfahren 900 gewünscht wird, können allen Lauten aller N Hypothesen Punktzahlen für die Glaubwürdigkeit zugeordnet werden. Die Rahmenglaubwürdigkeit von Hypothese Nummer i wird dadurch berechnet, dass die Wahrscheinlichkeiten aller der Hypothesen (einschließlich der Hypothese Nummer i) addiert werden, für die der zum Zeitpunkt t hypothetisierte Laut mit dem Laut übereinstimmt, der zum Zeitpunkt t in Hypothese Nummer I hypothetisiert wurde. Dann wird die Glaubwürdigkeit für alle Laute von Hypothese Nummer i berechnet, indem die Punktzahlen für die Rahmenglaubwürdigkeit kombiniert werden, wie es für die beste Hypothese beschrieben worden ist.
  • Durch das Ermitteln und Benutzen einer Maßzahl der Glaubwürdigkeit als Funktion der Zeit gestattet es das Verfahren 900, dass Glaubwürdigkeiten von Lauten, Silben und Wörtern mit einem Verfahren ermittelt werden. Es ist anzumerken, dass die Ergebnisse des Verfahrens 900 mit anderen Ergebnissen kombiniert werden können, um eine andere Ebene von Glaubwürdigkeitsmaßen bereitzustellen. Beispielsweise können die von der ASR 130 benutzte Punktzahl des Sprachmodells oder die Punktzahl des Akustikmodells mit einer Glaubwürdigkeit 900 kombiniert werden.
  • Unter Bezugnahme auf 10 wird nun ein beispielhaftes System gezeigt, das zum Ablaufen von Ausführungsformen der vorliegenden Erfindung geeignet ist. Das System 1000 umfasst ein Rechnersystem 1010 und eine CD 1050. Das Rechnersystem 1010 umfasst einen Prozessor 1020, einen Speicher 1030 und eine Anzeige 1040.
  • Wie nach dem Stand der Technik bekannt, können die hier erläuterten Verfahren und Vorrichtungen als Gegenstand einer Fertigung vertrieben werden, wobei dieser selbst ein rechnerlesbares Medium umfasst, das rechnerlesbare Codemittel hat, die darauf verkörpert sind. Das rechnerlesbare Programmcodemittel kann in Verbindung mit einem Rechnersystem betrieben werden, wie etwa dem Rechnersystem 1010, um alle oder einige der Schritte auszuführen, um die Verfahren ablaufen zu lassen oder die hierin erläuterten Vorrichtungen zu schaffen. Das rechnerlesbare Medium kann ein beschreibbares Medium (z.B. Disketten, Plattenspeicher, CDs oder Speicherkarten) sein, oder es kann ein Übertragungsmedium sein (z.B. ein Netzwerk, das Lichtwellenleiter umfasst, das Internet, Kabel oder ein drahtloser Kanal, der Zeitmultiplexing mit Mehrfachzugriff, Codemultiplexding mit Mehrfachzugriff oder andere Funkfrequenzkanäle benutzt). Alle bekannten oder entwickelten Medien, die Daten so speichern können, dass sie von einem Rechnersystem genutzt werden können, können verwendet werden. Das rechnerlesbare Codemittel ist ein beliebiger Mechanismus, das es einem Rechner gestattet, Anweisungen und Daten zu lesen, wie etwa magnetische Veränderungen auf einem Magnetmedium oder Höhenveränderungen auf der Oberfläche einer CD, wie etwa die CD 1050.
  • Der Speicher 1030 konfigurierte den Prozessor 1020, um die Verfahren, Schritte und Funktionen einzurichten, die hier dargelegt worden sind. Der Speicher 1030 könnte verteilt oder lokal sein, und der Prozessor 1020 könnte verteilt oder einzeln sein. Der Speicher 1030 könnte als elektrischer, magnetischer oder optischer Speicher oder eine beliebige Kombination von diesen oder anderen Arten von Speichervorrichtungen ausgeführt werden. Darüber hinaus könnte die Ausgabe „Speicher" weit genug gefasst werden, um alle Daten zu betreffen, die an einer Adresse in einem adressierbaren Raum gelesen oder dort aufgezeichnet werden können und auf die der Prozessor 1010 zugreifen kann. Mit dieser Definition befinden sich Daten in einem Netzwerk noch innerhalb des Speichers 1030, weil der Prozessor 1020 die Daten aus dem Netzwerk abrufen kann. Es ist anzumerken, dass jeder verteilte Prozessor, aus dem Prozessor 1030 gebildet wird, im Allgemeinen seinen eigenen adressierbaren Speicherraum enthält. Es ist ebenfalls anzumerken, dass Teile des gesamten Rechnersystems 1010 in eine anwendungsspezifische oder für den allgemeinen Gebrauch bestimmte integrierte Schaltung eingefügt werden können.
  • Die Anzeige 1040 kann jede beliebige Art von Anzeige sein, die dafür geeignet ist, die Arten von hierarchischen Informationen zu erzeugen, wie sie in 5 bis 7 gezeigt werden. Im Allgemeinen ist die Anzeige 1040 ein Rechnermonitor oder eine andere ähnliche Video-Anzeige.
  • Somit handelt es sich bei dem, was gezeigt worden ist, um Verfahren und Systeme, um Teile von Sprache auf hierarchische Weise anzuzeigen. Während der Spracherkennung kann ein System gemäß den bevorzugten Ausführungsformen der vorliegenden Erfindung den wahrscheinlichsten Sprachteil ermitteln und das passende Wort, die passende Silbe oder den passenden Laut anzeigen. Ebenfalls dargelegt wird ein einzigartiger Weg zum Ermitteln der Glaubwürdigkeit als Maß der Zeit, mit dem es ermöglicht wird, Glaubwürdigkeiten von beliebigen Sprachteilen (Wort, Silbe, Laut oder irgendeinen anderen Sprachfetzen) einfach zu ermitteln.
  • Es versteht sich, dass die Ausführungsformen und Varianten, die hier gezeigt und beschrieben worden sind, lediglich zur Veranschaulichung der Prinzipien dieser Erfindung dienen und dass vom Fachmann verschiedene Modifikationen ausgeführt werden können, ohne dass vom Umfang und Geist der Erfindung abgewichen wird. Beispielsweise kann das Trennmodul 140 zusätzliche oder unterschiedliche Module umfassen, um Wörter von Silben (und Silben von Lauten, wenn gewünscht) zu trennen.
  • Weiterhin ist hier ein Verfahren dargelegt, das die folgenden Schritte umfasst: Bereitstellen eines erkannten Satzteiles, der Wörter und Silben umfasst; Umwandeln einer Vielzahl von Punktzahlen für Hypothesen des erkannten Satzteiles auf Lautebene; Ermitteln der Glaubwürdigkeit des erkannten Satzteiles als Funktion der Zeit unter Verwendung der umgewandelten Hypothesepunktzahlen; und Verwenden der Glaubwürdigkeit als Funktion der Zeit, um Glaubwürdigkeiten für Sprachteile in dem erkannten Satzteil zu ermitteln.
  • Noch weiterhin ist hier das vorstehende Verfahren dargelegt, dass außerdem die folgenden Schritte aufweist: durch die Verwendung der Glaubwürdigkeit als Funktion der Zeit Ermitteln einer Reihe von Lauten in dem erkannten Satzteil, wobei jeder Laut in der Reihe als der am meisten wahrscheinliche Laut ausgewählt wird; Ermitteln einer richtigen phonetischen Aussprache eines Wortes; Ermitteln, ob Laute in der Reihe, die dem Wort entsprechen, mit der richtigen phonetischen Aussprache des Wortes übereinstimmen; und wenn einer oder mehrere der Laute nicht richtig sind, Anzeigen der richtigen phonetischen Aussprache des Wortes und Betonen der Laute, die nicht richtig sind.
  • Noch weiterhin ist hier das vorstehende Verfahren dargelegt, bei dem der Schritt des Umwandelns einer Vielzahl von Hypothesenpunktzahlen des erkannten Satzteiles auf Lautebene weiterhin die folgenden Schritte umfasst: Ermitteln einer Vielzahl von Hypothesen für einen erkannten Satzteil; Umwandeln der Vielzahl von Hypothesen in eine Folge von Lauten; Ermitteln einer Wahrscheinlichkeit aus jeder Hypothesenpunktzahl; und Ermitteln der Start- und Endzeiten für jeden Laut, wodurch jedem Laut die Wahrscheinlichkeiten zugeordnet werden und damit die Hypothesenpunktzahlen auf die Lautebene umgewandelt werden; und in welcher der Schritt des Ermittelns der Glaubwürdigkeit als Funktion der Zeit die folgenden Schritte umfasst: Zuweisen einer Anzahl von Hypothesen, zugeordneten Wahrscheinlichkeiten und Lauten zu jedem aus einer Vielzahl von Rahmen; und Berechnen einer Rahmenglaubwürdigkeit für jeden Rahmen, indem die Wahrscheinlichkeiten aller Hypothesen addiert werden, für die ein zum Zeitpunkt t hypothetisierter Laut mit einem Laut übereinstimmt, der in einer besten Hypothese zum Zeitpunkt t hypothetisiert wurde.
  • Noch weiter wird hier das vorstehende Verfahren dargelegt, in dem der Schritt des Verwendens der Glaubwürdigkeit als Funktion der Zeit zur Ermittlung der Glaubwürdigkeiten von Teilen von Sprache in dem erkannten Satzteil, für jeden interessierenden Sprachteil die folgenden Schritte umfasst: Auswählen eines Sprachteiles, der eine Zeitspanne umfasst; Ermitteln einer durchschnittlichen Glaubwürdigkeit über diese Zeitspanne; und Gleichsetzen der durchschnittlichen Glaubwürdigkeit über dieser Zeitspanne mit der Glaubwürdigkeit des Sprachteiles.
  • Weiterhin ist hier ein Verfahren zur hierarchischen Umschreibung und Anzeige von Spracheingabe dargelegt, wobei das Verfahren die folgenden Schritte umfasst: für einen Sprachteil Ermitteln, welcher aus einer Vielzahl von Sprachteilen vorher festgelegte Kriterien für diesen Sprachteil einhält; und Anzeigen des Sprachteiles, der die vorher festgelegten Kriterien für diesen Sprachteil einhält.
  • Noch weiter wird hier das vorstehende Verfahren dargelegt, bei dem: der Schritt des Ermittelns für einen Sprachteil, welcher aus einer Vielzahl von Sprachteilen vorher festgelegte Kriterien für diesen Sprachteil einhält, noch weiter die folgenden Schritte umfasst: Ermitteln einer Glaubwürdigkeit für den Sprachteil als Funktion der Zeit; Ermitteln der Glaubwürdigkeit für ein Wort, indem eine durchschnittliche Glaubwürdigkeit eines Zeitraumes ermittelt wird, den das Wort umspannt; und Ermitteln, ob die Glaubwürdigkeit des Wortes eine vorgegebene Wort-Glaubwürdigkeit einhält; und der Schritt des Anzeigens des Sprachteiles, der die vorgegebenen Kriterien für diesen Sprachteil einhält, umfasst die folgenden Schritte: Anzeigen des Wortes, wenn die Glaubwürdigkeit des Wortes die vorgegebene Wort-Glaubwürdigkeit erreicht; und Anzeigen mindestens einer Silbe, die dem Wort entspricht, wenn die Glaubwürdigkeit des Wortes die vorgegebene Wort-Glaubwürdigkeit nicht erreicht.
  • Noch weiterhin wird hier das vorstehende Verfahren dargelegt, wobei: der Schritt des Ermittelns für einen Sprachteil, welcher aus der Vielzahl der Sprachteile vorher festgelegte Kriterien für diesen Sprachteil einhält, weiterhin die folgenden Schritte umfasst: Ermitteln einer Glaubwürdigkeit für jede der wenigstens einen Silben, die dem Wort entsprechen, indem für jede Silbe eine durchschnittliche Glaubwürdigkeit ermittelt wird, wobei jede Silbe einen Zeitraum umspannt, der gleich oder geringer ist als der Zeitraum, der von dem Wort umspannt wird; und Ermitteln, ob die Glaubwürdigkeit für jede Silbe eine vorher festgelegte Silben-Glaubwürdigkeit einhält; und der Schritt des Anzeigens des Sprachteiles, der die vorher festgelegten Kriterien für diesen Sprachteil einhält, umfasst weiterhin die folgenden Schritte: für jede Silbe Anzeigen einer Silbe, wenn die Silben-Glaubwürdigkeit die vorher festgelegte Silben-Glaubwürdigkeit einhält; und für jede Silbe Anzeigen mindestens eines der Silbe entsprechenden Lautes, wenn die Silben-Glaubwürdigkeit die vorher festgelegte Silben-Glaubwürdigkeit nicht einhält.

Claims (5)

  1. Verfahren zur Umschreibung und zum Anzeigen von Spracheingabe, wobei das Verfahren die folgenden Schritte umfasst: Umwandeln eines Sprachteiles in ein Wort; Ermitteln einer Glaubwürdigkeit des Wortes; dadurch gekennzeichnet, dass das Verfahren weiterhin die folgenden Schritte enthält: Anzeigen des Wortes, wenn die Glaubwürdigkeit des Wortes eine bestimmte Glaubwürdigkeitsschwelle erreicht; und Anzeigen mindestens einer dem Wort entsprechenden Silbe, falls die Glaubwürdigkeit des Wortes die Glaubwürdigkeitsschwelle nicht erreicht.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Anzeigens mindestens einer Silbe die folgenden Schritte umfasst: Ermitteln einer Glaubwürdigkeit der mindestens einen Silbe; und Anzeigen mindestens eines Lautes, der mit der mindestens einen Silbe übereinstimmt, falls die Glaubwürdigkeit der mindestens einen Silbe eine Glaubwürdigkeitsschwelle nicht erreicht.
  3. Rechnerprogramm, das einen Programmcode hat, der geeignet ist, die Verfahrensschritte jedes der vorhergehenden Verfahrensansprüche auszuführen, wenn das Programm in einem Rechnersystem betrieben wird.
  4. System zur Umschreibung und Anzeige von Spracheingabe, das Folgendes umfasst: Mittel zur Umwandlung eines Sprachteiles in ein Wort; Mittel zum Feststellen einer Glaubwürdigkeit des Wortes; dadurch gekennzeichnet, dass das System weiterhin Folgendes enthält: Mittel zum Anzeigen des Wortes, wenn die Glaubwürdigkeit des Wortes eine Glaubwürdigkeitsschwelle erreicht; und Mittel zum Anzeigen mindestens einer dem Wort entsprechenden Silbe, wenn die Glaubwürdigkeit des Wortes die Glaubwürdigkeitsschwelle nicht erreicht.
  5. System nach Anspruch 4, wobei das Mittel zum Anzeigen mindestens einer Silbe Folgendes umfasst: Mittel zum Feststellen einer Glaubwürdigkeit der mindestens einen Silbe; und Mittel zum Anzeigen mindestens eines Lautes, der mit der mindestens einen Silbe übereinstimmt, wenn die Glaubwürdigkeit der mindestens einen Silbe eine Glaubwürdigkeitsschwelle nicht erreicht.
DE60203705T 2001-03-16 2002-01-28 Umschreibung und anzeige eines eingegebenen sprachsignals Expired - Lifetime DE60203705T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US811053 1997-03-04
US09/811,053 US6785650B2 (en) 2001-03-16 2001-03-16 Hierarchical transcription and display of input speech
PCT/GB2002/000359 WO2002075723A1 (en) 2001-03-16 2002-01-28 Transcription and display of input speech

Publications (2)

Publication Number Publication Date
DE60203705D1 DE60203705D1 (de) 2005-05-19
DE60203705T2 true DE60203705T2 (de) 2006-03-02

Family

ID=25205414

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60203705T Expired - Lifetime DE60203705T2 (de) 2001-03-16 2002-01-28 Umschreibung und anzeige eines eingegebenen sprachsignals

Country Status (7)

Country Link
US (1) US6785650B2 (de)
EP (1) EP1368808B1 (de)
JP (1) JP3935844B2 (de)
CN (1) CN1206620C (de)
AT (1) ATE293274T1 (de)
DE (1) DE60203705T2 (de)
WO (1) WO2002075723A1 (de)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US6915258B2 (en) * 2001-04-02 2005-07-05 Thanassis Vasilios Kontonassios Method and apparatus for displaying and manipulating account information using the human voice
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US8793127B2 (en) * 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
EP1524650A1 (de) * 2003-10-06 2005-04-20 Sony International (Europe) GmbH Zuverlässigkeitsmass in einem Spracherkennungssystem
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
WO2006070373A2 (en) * 2004-12-29 2006-07-06 Avraham Shpigel A system and a method for representing unrecognized words in speech to text conversions as syllables
KR100631786B1 (ko) * 2005-02-18 2006-10-12 삼성전자주식회사 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
JP4757599B2 (ja) * 2005-10-13 2011-08-24 日本電気株式会社 音声認識システムと音声認識方法およびプログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US8756058B2 (en) * 2006-02-23 2014-06-17 Nec Corporation Speech recognition system, speech recognition result output method, and speech recognition result output program
US8204748B2 (en) * 2006-05-02 2012-06-19 Xerox Corporation System and method for providing a textual representation of an audio message to a mobile device
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US8321197B2 (en) * 2006-10-18 2012-11-27 Teresa Ruth Gaudet Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
WO2008084476A2 (en) * 2007-01-09 2008-07-17 Avraham Shpigel Vowel recognition system and method in speech to text applications
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
US8271281B2 (en) * 2007-12-28 2012-09-18 Nuance Communications, Inc. Method for assessing pronunciation abilities
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
JP5451982B2 (ja) * 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法
JP5447382B2 (ja) * 2008-08-27 2014-03-19 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
US8805686B2 (en) * 2008-10-31 2014-08-12 Soundbound, Inc. Melodis crystal decoder method and device for searching an utterance by accessing a dictionary divided among multiple parallel processors
TWI377560B (en) * 2008-12-12 2012-11-21 Inst Information Industry Adjustable hierarchical scoring method and system
KR101634247B1 (ko) * 2009-12-04 2016-07-08 삼성전자주식회사 피사체 인식을 알리는 디지털 촬영 장치, 상기 디지털 촬영 장치의 제어 방법
US9070360B2 (en) * 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
KR20130005160A (ko) * 2011-07-05 2013-01-15 한국전자통신연구원 음성인식기능을 이용한 메세지 서비스 방법
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
US9020803B2 (en) * 2012-09-20 2015-04-28 International Business Machines Corporation Confidence-rated transcription and translation
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
GB2511078A (en) * 2013-02-22 2014-08-27 Cereproc Ltd System for recording speech prompts
CN103106900B (zh) * 2013-02-28 2016-05-04 用友网络科技股份有限公司 语音识别装置和语音识别方法
KR20150092996A (ko) * 2014-02-06 2015-08-17 삼성전자주식회사 디스플레이 장치 및 이를 이용한 전자 장치의 제어 방법
CA2887291A1 (en) * 2014-04-02 2015-10-02 Speakread A/S Systems and methods for supporting hearing impaired users
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US20190221213A1 (en) * 2018-01-18 2019-07-18 Ezdi Inc. Method for reducing turn around time in transcription
CN108615526B (zh) * 2018-05-08 2020-07-07 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
US11138334B1 (en) 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
TW323364B (de) * 1993-11-24 1997-12-21 At & T Corp
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US6006183A (en) 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
DE19821422A1 (de) 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
US6502073B1 (en) * 1999-03-25 2002-12-31 Kent Ridge Digital Labs Low data transmission rate and intelligible speech communication
JP2002540477A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアント−サーバ音声認識
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines

Also Published As

Publication number Publication date
DE60203705D1 (de) 2005-05-19
WO2002075723A1 (en) 2002-09-26
CN1206620C (zh) 2005-06-15
JP3935844B2 (ja) 2007-06-27
EP1368808B1 (de) 2005-04-13
JP2004526197A (ja) 2004-08-26
EP1368808A1 (de) 2003-12-10
CN1509467A (zh) 2004-06-30
US6785650B2 (en) 2004-08-31
ATE293274T1 (de) 2005-04-15
US20020133340A1 (en) 2002-09-19

Similar Documents

Publication Publication Date Title
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
EP1282112B1 (de) Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
Scharenborg et al. The effect of background noise on the word activation process in nonnative spoken-word recognition.
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE19654549A1 (de) Verfahren und System zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN