-
Die
vorliegende Erfindung bezieht sich auf automatische Spracherkennung
und insbesondere auf die Umschreibung und Anzeige von Spracheingabe.
-
Das
Umschreiben von Wörtern
auf der Grundlage automatischer Spracherkennung (ASR) ist ein allgemein
bekanntes Verfahren, das dabei hilft, die Kommunikationsfähigkeit
von Hörgeschädigten zu
verbessern. Bei dieser Verfahrensweise besteht ein Problem darin,
dass dann, wenn die Fehlerkennungsrate relativ hoch ist, die Umschreibung
für hörgeschädigte Kinder
nicht wirkungsvoll genug ist, die noch beim Erlernen einer Sprache
sind, da diese Kinder durch die falsch decodierten Wörter leicht
verwirrt werden können.
Eine Verfahrensweise, die dieses Problem anspricht, ist das Anzeigen
einer phonetischen Ausgabe anstelle von Wörtern. Diese Verfahrensweise
ist jedoch nicht optimal, weil das Lesen richtig erkannter Wörter leichter
ist und besser funktioniert als das Lesen phonetischer Ausgaben.
-
Die
Verwendung von ASR zum Leseunterricht hörgeschädigter Menschen ist ebenfalls
ein allgemein bekanntes Verfahren. Bei dieser Verfahrensweise wird
einem Benutzer ein Bezugstext angezeigt, und die ASR decodiert die
Sprache des Benutzers, während
er den Text laut liest, und vergleicht die decodierte Ausgabe mit
dem Bezugstext. Eine Quelle, die diesen Gebrauch der ASR für diesen
Zweck erklärt
ist „Reading
Tutor Using an Automatic Speech",
Technical Disclosure Bulletin, Bd. 36, Nr. 8, 08-93, S. 287 bis
290. Ein Problem bei dieser Vorgehensweise besteht darin, dass jegliche
Fehler bei der Spracherkennung den Benutzer denken lassen, dass er
ein Wort falsch gesprochen hat, während der Fehler in Wirklichkeit
ein Fehler des Programms ist.
-
Ein
weiteres Problem mit der ASR tritt in geräuschvollen Umgebungen auf,
wie es sich etwa bei einem schwierigen Kanal, wie etwa dem Telefon,
ergibt, oder wenn Sprache mit Stockungen behaftet ist. In diesen
Situationen ist es wahrscheinlich, dass eine beträchtliche
Anzahl von Fehlern auftritt. Obwohl Fehler manchmal vom Benutzer
aufgrund des Zusammenhangs erkannt werden, können die sich ergebende Verwirrung
und die wachsende Erschwernis bei der Auslegung die Vorzüge einer
auf Worten beruhenden Anzeige vermindern. Dies trifft insbesondere
zu, wenn der Benutzer ein Kind ist, das noch dabei ist, die Sprache
zu erlernen. In diesem Falle sollten praktisch keine Fehler erlaubt
sein.
-
Obwohl
dieses Problem für
Kinder, die lernen, richtig zu sprechen, besonders hinderlich ist, sind
hohe Fehlerraten von ASR auch ein allgemeines Problem. Wenn eine
Person einem ASR-System
diktiert, nimmt das System Umschreibungsentscheidungen vor, die
auf Wahrscheinlichkeiten beruhen, und die Entscheidungen können auf
geringen Wahrscheinlichkeiten beruhen. Wenn der Benutzer eine unrichtige
Umschreibung nicht sofort mitbekommt, wird die richtige Umschreibung
kaum zu ermitteln sein, selbst dann nicht, wenn der Zusammenhang bekannt
ist.
-
Damit
besteht ein Bedarf nach einem Weg, die Probleme einzugrenzen oder
zu lösen,
die mit einer hohen Fehlerkennungsrate verbunden sind, wenn ASR
dafür benutzt
wird, die Kommunikationsfähigkeit
oder die Lesefertigkeiten von hörgeschädigten Menschen
oder beides zu verbessern, oder wenn die ASR zu anderen Spracherkennungszwecken
genutzt wird.
-
Die
vorliegende Erfindung stellt ein Verfahren bereit, wie es in Anspruch
1 beansprucht wird, ein System, wie es in Anspruch 4 beansprucht
wird, und ein Rechnerprogramm, wie es in Anspruch 3 beansprucht
wird.
-
Im
Allgemeinen bieten die bevorzugten Ausführungsformen der vorliegenden
Erfindung die Fähigkeit,
einem Benutzer eine gemischte Anzeige einer Umschreibung vorzulegen.
Die gemischte Anzeige ist vorzugsweise in hierarchischer Form organisiert.
Vorzugsweise können
Wörter,
Silben und Laute auf der gleichen Anzeige untergebracht werden,
und die passende Symbolumschreibung kann auf der Grundlage von Sprachteilen
ausgewählt
werden, die Mindestwerte an Glaubwürdigkeit aufweisen. Wörter werden
angezeigt, wenn sie einen Mindestwert an Glaubwürdigkeit einhalten, oder andernfalls
werden Silben angezeigt, die das Wort bilden. Wenn eine Silbe eine
vorgegebene Glaubwürdigkeit
nicht erreicht, können
zusätzlich
Laute, aus denen die Silbe besteht, angezeigt werden. In einer Ausführungsform der
vorliegenden Erfindung kann eine Umschreibung auch als hierarchische
Umschreibung dargelegt werden, weil eine eindeutige Glaubwürdigkeit
abgeleitet wird, die Daten eines gemischten Wortes / einer Silbe /
eines Lautes berücksichtigt.
-
Ein
vollständigeres
Verständnis
der bevorzugten Ausführungsformen
der vorliegenden Erfindung und auch weitere Merkmale und Vorzüge der vorliegenden
Erfindung werden durch die Bezugnahme auf die folgende ausführliche
Beschreibung und die Zeichnungen erlangt.
-
1 ist
ein Blockschaltbild eines beispielhaften hierarchischen Umschreibungs-
und Anzeigesystems nach einer Ausführungsform der vorliegenden
Erfindung;
-
2 ist
eine Übersichtsdarstellung
eines Moduls zur automatischen Spracherkennung (ASR) nach einer
Ausführungsform
der vorliegenden Erfindung;
-
3 ist
eine Übersichtsdarstellung
einer Trenneinrichtung für
Wörter/Silben/Laute
nach einer Ausführungsform
der vorliegenden Erfindung;
-
4 ist
eine Übersichtsdarstellung
einer Anzeigesteuereinheit nach einer Ausführungsform der vorliegenden
Erfindung;
-
5, 6 und 7 sind
Beispiele von Anzeigen nach den Ausführungsformen der vorliegenden
Erfindung;
-
8 ist
ein Flussbild eines Verfahrens für Wort/Silben-Verarbeitung nach
einer Ausführungsform
der vorliegenden Erfindung;
-
9 ist
eine Übersichtsdarstellung
eines Verfahrens und verschiedener Inhalte von N-Bestenlisten, die
während
des Verfahrens nach einer Ausführungsform
der vorliegenden Erfindung vorkommen; und
-
10 ist
ein Blockschaltbild eines beispielhaften Systems, das zum Ablauf
von Ausführungsformen
der vorliegenden Erfindung geeignet ist.
-
Die
bevorzugten Ausführungsformen
der vorliegenden Erfindung, wie sie durch Ansprüche 1 und 4 definiert wird,
lösen oder
vermindern die Probleme des Standes der Technik, indem sie eine
hierarchische Anzeige und Umschreibung von Sprache bereitstellen,
bei denen eine Ermittlung des am ehesten wahrscheinlichen Teiles
der Sprache erfolgt und dieser Teil angezeigt wird. In einer Ausführungsform hat
jeder Sprachteil einen Mindestwert einer Glaubwürdigkeitsebene oder eine Annahmeschwelle.
Damit gibt es Annahmeschwellen für
Wörter,
Silben und Laute. Wenn ein Wort seine Annahmeschwelle einhält, wird
es angezeigt. Wenn es außerhalb
der Annahmeschwelle liegt, wird jede Silbe geprüft, um zu ermitteln, ob sie
eine Annahmeschwelle für
Silben einhält.
Wenn dies der Fall ist, werden die Silbe oder die Silben angezeigt.
Wenn eine Silbe außerhalb
der Annahmeschwelle für
Silben liegt, werden der Laut oder die Laute angezeigt, welche die
Silbe bilden. Beispielsweise nehme man an, dass das erkannte Wort „embodiment" war, aber dass das
erkannte Wort eine geringe Glaubwürdigkeit hatte, welche außerhalb
der Annahmeschwelle für
Wörter
liegt. Wenn angenommen wird, dass die Silben „em", „bod", „i" und „ment" sind, wird jede
Glaubwürdigkeit
dieser Silben mit der Annahmeschwelle für Silben verglichen. Wenn die
Glaubwürdigkeiten
von „bod" und „i" hoch sind, werden
diese Silben angezeigt. Die Silben „em" und „ment" werden in Laute zerlegt und als solche angezeigt.
Die abschließende
Anzeige wird daher gleich „e
m ,bod' ,i' m (e) n t" sein.
-
Ein
Vorteil der bevorzugten Ausführungsformen
der vorliegenden Erfindung liegt darin, dass eine Person, deren
Sprache gerade erkannt wird, in der Lage ist mitzuteilen, dass es
für einen
Abschnitt der Sprache eine höhere
Fehlerwahrscheinlichkeit gibt, wenn dieser Sprachabschnitt durch
Silben oder Laute ersetzt wird und keine Wörter auftreten. Da es wahrscheinlich
ist, dass einige Silben oder Laute richtig sind, auch wenn das Wort
unrichtig sein könnte,
sollte der Benutzer zusätzlich
in der Lage sein, das richtige Wort oder die richtigen Wörter besser
zu ermitteln, das den Silben oder Lauten entspricht.
-
Die
meisten derzeitigen Spracherkennungssysteme (ASR) sind entwickelt
worden, um Sprache in Text umzuwandeln. Daher ermitteln diese Systeme für Wörter Maßzahlen
für die
Wahrscheinlichkeit und Glaubwürdigkeit.
Es gibt einige ASR-Systeme,
die Sprache in Silben umwandeln. Bei diesen Systemen beruhen die
Maßzahlen
für die
Wahrscheinlichkeit und Glaubwürdigkeit
auf Silben und nicht auf Wörter. Obwohl
diese Maßzahlen
für Wahrscheinlichkeit
und Glaubwürdigkeit
mit den Ausführungsformen
der vorliegenden Erfindung benutzt werden können, können sie auch für eine gemischte
Sprachumschreibung eine Glaubwürdigkeit
ermitteln. Diese Ermittlung kann dafür benutzt werden zu berechnen,
ob ein Wort, seine Silbenbestandteile oder seine Lautbestandteile
die zuverlässigste
Umschreibung eines Sprachteiles sind.
-
Unter
Bezugnahme auf 1 zeigt diese Figur nun ein
Blockschaltbild eines beispielhaften Systems zur hierarchischen
Umschreibung und Anzeige 100 gemäß einer Ausführungsform
der vorliegenden Erfindung. Das System 100 umfasst ein
ASR-Modul 130, ein Trennmodul 140, ein Anzeigensteuereinheit-Modul 150 und
eine Anzeige 160. Eine Person (nicht dargestellt) spricht
Laute 110 in ein Mikrofon 120, und das resultierende
elektrische Signal wird durch das ASR-Modul 130 weiter
verarbeitet. Das ASR-Modul 130 wandelt die Sprache in eine ASR-Ausgabe 135 um.
Die ASR-Ausgabe 135 kann Ketten von Wörtern oder Wörter oder
Silben zusammen mit Anfangs- und Endzeiten und hypothetische Punktzahlen
für die
Ketten umfassen. ASR-Modul 130 wird ausführlicher
unter Bezugnahme auf 2 dargelegt.
-
Das
Trennmodul 140 empfängt
die ASR-Ausgabe 135 und unterteilt die Ausgabe in Wörter und
Silben und wahlweise in Laute. Das Trennmodul 140 wird
ausführlicher
unter Bezugnahme auf 3 beschrieben. Die Trennausgabe 145 kann
damit Wörter
und Silben, Wort- und Silbenglaubwürdigkeiten und Beginn- und
Endzeiten für
Wörter
und Silben umfassen. Wahlweise können
auch Laute, Glaubwürdigkeiten
von Lauten und Beginn- und Endzeiten von Lauten der Trennausgabe 145 hinzugefügt werden.
-
Das
Anzeigensteuereinheit-Modul 150 empfängt die Ausgabe 145 der
Trenneinrichtung und zeigt diese Ausgabe in hierarchischer Form
auf Anzeige 160 an. Das Anzeigensteuereinheit-Modul 150 kann
auch wahlweise unterschiedliche programmierbare Aspekte des Systems 100 steuern.
Seine Programmierbarkeit und das Anzeigensteuereinheit-Modul 150 selbst
werden ausführlicher
unter Bezugnahme auf 4 erklärt. Unterschiedliche hierarchische Anzeigeschemata
werden unter Bezugnahme auf 5 bis 7 dargelegt.
-
Im
Allgemeinen arbeitet das System 100 auf folgende Weise.
Eine Person spricht und erzeugt einen Laut 110, der im
Mikrofon 120 in elektrische Signale umgewandelt wird. Diese
elektrischen Signale werden durch das ASR-Modul 130 in
einen Datenstrom (Teil der ASR-Ausgabe 135) umgewandelt,
der ein Wort oder Wörter
und Silben enthält.
Das Trennmodul 140 trennt den empfangenen Datenstrom in Wörter und
Silben und wahlweise in Laute. Das Trennmodul 140 führt auch
eine Ermittlung hinsichtlich der Glaubwürdigkeit oder Wahrscheinlichkeit
der Silben oder Laute und der Verfahrensweise durch, wie die Sprachteile
hierarchisch umschrieben werden sollten. Die Anzeigesteuereinheit 150 benutzt diese
Informationen, um zu ermitteln, welcher Sprachteil am wahrscheinlichsten
richtig ist und modifiziert die Anzeige 160, um eine hierarchische
Anzeige der Sprache darzustellen. Die hierarchische Anzeige kann
das Anzeigen eines gemischten Wortes, einer Silbe und eines Lautes
umfassen.
-
Unter
Bezugnahme auf 2 zeigt diese Figur nun eine Übersichtsdarstellung
eines ASR-Moduls 130 gemäß einer Ausführungsform
der vorliegenden Erfindung. Das ASR-Modul 130 umfasst ein Signalverarbeitungsmodul 210,
ein Wörterbuch 220, ein
allgemeines Sprachmodell 230, ein themengebundenes Sprachmodell 240,
ein Modul für
akustische Prototypen 250, einen schnellen Übereinstimmungs-Decodierer 260,
einen ausführlichen Übereinstimmungs-Decodierer 270 und
decodierte Daten 280.
-
Tondaten
werden durch das Signalverarbeitungsmodul 210 verarbeitet.
wie es dem Fachmann bekannt ist, kann das Signalverarbeitungsmodul 210 Schritte
wie das Abtasten des Tonsignals und das zerlegen des Signals in
sich überdeckende
Rahmen vornehmen, so dass jeder Rahmen durch den Rest des Systems
diskret verarbeitet wird. Die Rahmen können einem Merkmal-Extrahierer
bereitgestellt werden, der in regelmäßigen Intervallen spektrale Merkmale
aus dem Signal extrahieren kann, beispielsweise alle 10 Millisekunden.
Die spektralen Merkmale befinden sich gewöhnlich in der Form von Merkmalsvektoren,
die dann durch den schnellen Übereinstimmungs-Decodierer 260 und
den ausführlichen Übereinstimmungs-Decodierer 270 weiterverarbeitet
werden. Das Signalverarbeitungsmodul 210 führt allgemein
bekannte Funktionen aus.
-
Das
Wörterbuch 220 ist
ebenfalls ein allgemein bekanntes Modul. In einer Ausführungsform
der vorliegenden Erfindung umfasst das Wörterbuch 220 Wörter und
Silben. Beispielsweise kann das Wörterbuch 220 zwanzigtausend
der häufigsten
englischen Wörter
und fünftausend
Silben enthalten, die alle möglichen
Klassen von englischer Aussprache von Teilen von Wörtern abdecken.
Diese Verfahrensweise gestattet es, dass Wörter angezeigt werden, die sich
nicht im anfänglichen
Wörterbuch
befinden. Die Wörter
selbst werden jedoch im Allgemeinen nicht angezeigt, sondern stattdessen
werden die Silben angezeigt, aus denen die Wörter zusammengesetzt sind.
Ebenfalls in dieser Ausführungsform
kann das allgemeine Sprachmodell 230 (ebenfalls eine wohlbekannte
Einheit) Wort-/Silbenketten
Punktzahlen im Sprachmodell zuordnen. Diese Art von Sprachmodell,
mit einem gemischten Wort-/Silben-Wörterbuch wird in der US-Patentschrift
6 073 091 von Kavensky et al., „Apparatus and method for
forming a filtered inflected language model for automatic speech
recognition", erteilt
am 6. Juni 2000, dargelegt.
-
In
einer weiteren Ausführungsform
der vorliegenden Erfindung umfasst das Wörterbuch 220 nur Wörter, und
Silben werden in nachgeordneten Decodierschritten erzeugt (wie etwa
durch das Trennmodul 140). Das allgemeine Sprachmodell 230 würde dann Wortketten
Punktzahlen im Sprachmodell zuordnen. Welche Ausführungsform
verwendet werden sollte, hängt
davon ab, wie Punktzahlen für die
Glaubwürdigkeit
angehängt
sind. Wenn die Maßzahl
für die
Glaubwürdigkeit
nur für
Wörter
definiert ist, ist es besser, das Wörterbuch 220 nur mit
Wörtern zu
benutzen, und Wörter
in Silben abzubilden, wenn die Wörter
geringe Punktzahlen haben. Wenn gewünscht wird, dass gesprochene
Wörter
decodiert werden, die sich nicht im Wörterbuch 220 befinden, kann
eine Mischung von Wörtern/Silben
im Wörterbuch 220 nützlich sein.
Bei der letzteren Verfahrensweise ist es günstig, eine komplexere Maßzahl für die Glaubwürdigkeit
zu benutzen, die auf Wörter
und Silben angewandt werden kann. Eine derartige Maßzahl wird
hier unter Bezugnahme auf 9 beschrieben.
-
Das
themengebundene Sprachmodell 240 ist eine Option. Dieses
Modell enthält
Statistiken und Wörterbücher, die
auf einige Themen beschränkt sind.
Dieses Sprachmodell kann beispielsweise in Klassenräumen für Schulstunden über bestimmte Themen
benutzt werden, wie etwa Geschichte, Mathematik oder Biologie. Das
Modul der akustischen Prototypen 250 wird benutzt, um akustische
Punktzahlen für
gesprochene Äußerungen
zu berechnen. Es kann mehrere Realisierungen für das Modul der akustischen
Prototypen 250 geben. Das Modul der akustischen Prototypen 250 kann
aus verborgenen Markov-Modellen
bestehen, die durch akustische Trainingsdaten trainiert werden.
Verborgene Markov-Modelle können
auch für
Silben erstellt werden, wie es durch die US-Patentanmeldung mit
der Seriennummer 09/663 812, eingereicht am 15. September 2000,
mit dem Titel „Syllabe
and Morheme-Based Automatic Indexing and Searching Method and Apparatus
for Textual Archive Systems" dargelegt
wird.
-
Der
schnelle Übereinstimmungs-Decodierer 260 erzeugt
eine Liste von Kandidatenwörtern
oder Wörtern/Silben,
die mit der gesprochenen akustischen Äußerung übereinstimmen. Eine Quelle,
die einen geeigneten schnellen Übereinstimmungs-Decodierer
beschreibt, ist Gopalakrishnan et al., „Fast Match Techniques", Automatic Speech
Recognition, S. 413 bis 428, 1996, bei Kluwer Academic (Herausgeber).
Der schnelle Übereinstimmungs-Decodierer 260 erzeugt
ein Wort- oder eine Wort/Silben- oder sogar genau eine Silbenausgabe 273.
Die Silbendecodierung kann sogar für schnelles Übereinstimmungs-Decodieren ausreichend
genau sein. Diese decodierten Daten 280 können dann
an ein Trennmodul 140 geschickt werden, wie es in 1 gezeigt wird.
Wahlweise kann die Ausgabe 273 vom schnellen Übereinstimmungs-Decodierer
direkt an das Anzeigensteuereinheit-Modul 150 (in 1 gezeigt)
gelenkt werden. Dies kann in Situationen nützlich sein, bei denen es zwei
Anzeigen von Umschreibungen gibt, eine, die schnell ermittelt wurde,
mit möglicherweise
mehr Fehlern, und eine, die durch einen weniger zu Fehlern neigenden
Vorgang umschrieben worden ist. Dies gestattet eine unmittelbare
Rückkopplung,
sorgt aber auch für
eine bessere Umschreibung, wenn es die Zeit zulässt.
-
Der
ausführliche Übereinstimmungs-Decodierer 270 erzeugt
eine Ausgabe 277, welche die Decodiergenauigkeit im Vergleich
zur Ausgabe 273 verbessert haben sollte, die durch den
schnellen Übereinstimmungs-Decodierer 260 erzeugt
wurde. Diese Ausgabe 277 kann eine Kette von Wörtern oder
von Wörtern
und Silben enthalten. Eine Quelle, die ausführliche Übereinstimmung darlegt, ist
Jelineck, „Statistical
Methods for Speech Recognition",
1998, MIT Press. Die decodierten Daten 280 können dann
an das Trennmodul 140 (siehe 1 oder 3)
geschickt werden.
-
Unter
Bezugnahme auf 3 zeigt diese Figur nun eine Übersichtsdarstellung
eines Trennmoduls für
Wörter/Silben/Laute 140 gemäß einer
Ausführungsform
der vorliegenden Erfindung. Das Trennmodul 140 umfasst
einen Mechanismus für Punktzahlen
für die
Glaubwürdigkeit 310,
eine Konsensberechnung 320, einen Vergleich der Studentenhistorie 330 und
hierarchische Daten 340. Die Anzeigesteuereinheit 150 kann
wahlweise Aspekte dieser Module steuern, wie es in 3 durch
die Verbindung von der Anzeigesteuereinheit 150 zu den
Modulen gezeigt wird.
-
Schnelle Übereinstimmungsdaten 273,
die Wörter
oder Wörter
und Silben enthalten, und ausführliche Übereinstimmungsdaten 277,
die ebenfalls Wörter
oder Wörter
und Silben umfassen, sind Eingaben in die Module 310, 320 und 330.
Es ist anzumerken, dass alle drei Module 310 bis 330 in
einem System nicht notwendigerweise gleichzeitig genutzt werden; 3 ist
nur repräsentativ
für die
Module, die in einem Sprachverarbeitungssystem benutzt werden könnten. Dies
wird nachstehend ausführlicher
erläutert.
Das Berechnungsmodul für
Punktzahlen für
die Glaubwürdigkeit 310 wird
ausführlicher
unter Bezugnahme auf 9 beschrieben, aber im Allgemeinen versucht
es, Glaubwürdigkeit
pro Zeiteinheit zu ermitteln. Dies gestattet es, dass die Glaubwürdigkeit
für Laute
ermittelt wird.
-
Eine
Konsensberechnung 320 kann ebenfalls ausgeführt werden.
Konsensberechnungen werden ausführlicher
bei Mangu et al. „Finding
Consensus in Speech Recognition: Word Error Minimization and Other
Applications of Confusion Networks", Computer Speech and Language Bd. 14,
2000, S. 373 bis 400 beschrieben. Grundsätzlich versucht eine Konsensberechnung,
die Folge von Wörtern
herauszufinden, welche die geringste Anzahl von Fehlern enthält, und
zwar nicht wie bei traditionellen Erkennern, welche die am meisten
wahrscheinliche Folge von Wörtern
ausgeben, d.h. diejenige, bei der es eher wahrscheinlicher ist,
dass sie als Ganzes richtig ist. Dies erfolgt dadurch, dass für jede Wortposition
eine unabhängige
Entscheidung vorgenommen wird, indem in die N-Bestenliste der Erkennerhypothesen
für die
Wörter
geschaut wird, die auf dieser bestimmten Position am meisten wahrscheinlich
sind (oder einfach am häufigsten
in der N-Bestenliste
auftauchen). Im Allgemeinen wird entweder die Berechnung der Punktzahlen
für die
Glaubwürdigkeit 310 benutzt,
oder die Konsensberechnung 320 wird benutzt. Es ist auch
möglich,
beide Berechnungen zu gebrauchen, wie etwa durch Einfügen der
Konsensberechnung vor der Glaubwürdigkeitsberechnung, wenn
es für
eine gegebene Anwendung nützlich
ist. Der Vergleich der Studentenhistorie 330 kann sowohl mit
dem Modul 310 als auch mit dem Modul 320 kombiniert
werden, oder kann auch das einzige Modul im Trennmodul 140 sein.
Der Vergleich der Studentenhistorie 330 ist für solche
Situationen nützlich,
bei denen Wörter
schon erlernt worden sind, wie etwa, wenn ein Student ein Lesepaket
nutzt.
-
Jedes
dieser Module 310 bis 330 erzeugt eine hierarchische
Datenausgabe 340, die beispielsweise Wörter, Silben oder Laute und
für jedes
Punktzahlen, Glaubwürdigkeiten
oder Wahrscheinlichkeiten umfasst. Diese hierarchischen Daten 340 können durch
die Anzeigesteuereinheit 150 verwendet werden, um zu ermitteln,
was angezeigt werden sollte.
-
Welches
Modul oder welche Gruppe von Modulen gewählt wird, hängt von der Art der Anwendung und
anderen Faktoren ab, die durch die Anzeigesteuereinheit 150 gesteuert
werden. Wenn das System als Lesetutor benutzt wird, könnte beispielsweise
der Vergleich der Studentenhistorie 330 verwendet werden.
In diesem Falle enthält
der Vergleich der Studentenhistorie 330 die Informationen
darüber,
welche Wörter
von den Studenten schon erlernt worden sind. In Abhängigkeit
von diesen Informationen werden entweder Wörter oder Silben angezeigt.
Beispielsweise werden Wörter
angezeigt, wenn sie schon erlernt worden waren, oder andernfalls
Silben. Der Vergleich der Studentenhistorie kann auch zum Unterrichten
des Lippenlesens benutzt werden, weil der Student schon bestimmte
Wörter
kennt.
-
Der
Vergleich der Studentenhistorie 330 arbeitet wie folgt,
wenn er in Verbindung mit einem Lesetutor benutzt wird. Ein Student
liest einen Text laut vor. Der Text stammt von einer Anzeige, und
deshalb kann ein ASR-System, das die vorliegende Erfindung nutzt,
ermitteln, was der Student liest. Das ASR-System decodiert, was der Student gesagt
hat, und speichert in einem Zwischenspeicher Wörter und Laute für jede akustische Äußerung.
Es vergleicht eine Lautkette (d.h., wie das System die vom Studenten erfolgte
Sprachäußerung decodierte)
mit einer richtigen Lautkette für
das Wort, das in seiner Datenbank gespeichert ist. Wenn es keine Übereinstimmung
gibt zwischen dem, wie der Student ein Wort ausgesprochen hat und
wie das Wort ausgesprochen werden sollte, kann das System eine Kette
von richtigen Lauten (oberhalb des Wortes) anzeigen und den Laut oder
die Laute hervorheben, die nicht richtig gesprochen worden sind.
-
Beispielsweise
könnte
der Student das Wort CAT lesen und dieses gleiche Wort wie „k a p" aussprechen. Das
System weiß aus
seiner Datenbank, dass das Wort CAT eine Lautkette mit „k a t" haben sollte. Es
kann „k
a T" anzeigen, um
hervorzuheben, dass „t" gelesen werden sollte
und nicht „p". Es kann auf einer
Anzeige die Lautkette „k
a T" oberhalb des Wortes
CAT anzeigen.
-
Das
System kann die Studentenhistorie wie folgt berücksichtigen. Das System kann
feststellen, ob ein Student gelernt hat, einige Wörter gut
zu lesen. Beispielsweise hat der Student, nachdem er korrigiert
worden ist, in mehreren Prüfzeiträumen damit begonnen,
CAT als „k
a t" zu lesen. Das
System kann diese Information nutzen, um seine Decodierung zu verbessern.
Es gibt eine gewisse Wahrscheinlichkeit, dass das ASR-System den
Decodierfehler macht, was bedeutet, dass der Student keinen Fehler
macht, wenn er ein Wort ausspricht. Beispielsweise könnte ein
Student das Wort „CAT" lesen und es richtig
als „k a
t" aussprechen,
aber das ASR-System könnte
einen Fehler machen und entscheiden, dass der Student „k a p" gesprochen hat.
Wie vorstehend erläutert,
könnte
das System wissen, dass der Student schon gelernt hat, das Wort
CAT richtig zu lesen. Das System könnte auch die Punktzahlen für die Glaubwürdigkeit
für die
decodierte Äußerung „k a p" messen und herausfinden,
dass diese Punktzahl für
die Glaubwürdigkeit
relativ gering ist. Dann kann das System entscheiden, dass es das
ASR-System war, das einen Fehler gemacht hat und nicht der Student, und
daher wird es keine Korrektur „k
a T" für den Studenten
ausgeben.
-
Damit
kann unter Verwendung der Historie, wie wahrscheinlich es ist, dass
ein Student einen Lesefehler machen kann, eine Punktzahl für die Glaubwürdigkeit
verbessert werden. Ein ASR-System,
das den Vergleich der Studentenhistorie 330 benutzt, könnte deshalb
das, was ein Student gesprochen hat (als decodierte Lautäußerung),
mit der richtigen phonetischen Aussprache des Wortes vergleichen,
eine gesprochene decodierte phonetische Äußerung auf Übereinstimung mit der richtigen
phonetischen Aussprache prüfen
und den nichtpassenden Laut kennzeichnen. Das System könnte dann
eine richtige phonetische Äußerung mit
einem hervorgehobenen Laut ausgeben, der nicht übereingestimmt hat. Zusätzlich würde dann,
wenn die Punktzahl für
die Glaubwürdigkeit
für die
vom Studenten gesprochene phonetische Äußerung unterhalb einer gewissen
Schwelle ist und es einen historischen Beweis gibt, dass der Student gelernt
hat, dass Wort zu sprechen, das System keine korrigierte phonetische Äußerung ausgeben.
-
Unter
Bezugnahme auf 4 wird nun eine Übersichtsdarstellung
einer Anzeigesteuereinheit 150 nach einer Ausführungsform
der vorliegenden Erfindung gezeigt. Die Anzeigensteuereinheit 150 umfasst
eine Steuertabelle 405, ein Steuermodul oder -module 450,
hierarchische Daten 340 und ein Modul zur Platzierung einer
Anzeige 460. Die Steuertabelle 405 gestattet es
einem Benutzer, Kriterien für die
Steuereinheit festzulegen. Zu derartigen Kriterien gehören eine
Anwendung 410, eine Verzögerung 420, eine annehmbare
Genauigkeit 430 und zusätzliche
Kriterien 441 bis 445, die Module aktivieren oder deaktivieren.
Die zusätzlichen
Kriterien sind die folgenden, wobei jedes von ihnen sein entsprechendes Modul
deaktiviert oder aktiviert: Kriterium 441 entspricht dem
schnellen Übereinstimmungs-Decodierer 260;
Kriterium 442 entspricht dem ausführlichen Übereinstimmungs-Decodierer 270;
Kriterium 443 entspricht der Berechnung der Punktzahl für die Glaubwürdigkeit 310;
Kriterium 444 entspricht der Konsensberechnung 320;
und Kriterium 445 entspricht dem Vergleich der Studentenhistorie 330.
Die Steuertabelle 405 ist in diesem Beispiel für die Anwendungen
des Lippenlesens 411, der Kommunikation 412 und
des Lesetutors 413 konfiguriert.
-
Die
Verzögerung 420 gibt
den Betrag der annehmbaren Verzögerung
zwischen dem Zeitpunkt an, zu dem ein Wort gesprochen wird, und
dem Zeitpunkt, wenn das Wort auf der Anzeige 160 erscheinen
sollte. Üblicherweise
liegen die Verzögerungen in
der Größenordnung
einer halben Sekunde oder weniger. Die annehmbare Genauigkeit zeigt
an, wie genau die Umschreibung für
Wörter
sein muss, ehe das System auf Silben oder Laute übergeht. Wie vorstehend erläutert, ist
es von Nutzen, zuerst zu ermitteln, ob ein Wort eine geringe Glaubwürdigkeit
hat, die außerhalb
einer vorgegebener Annahmeschwelle liegt, ehe Silben oder Laute
angezeigt werden.
-
Wenn
eine Anwendung zum Lippenlesen 411 läuft, hat ein System eine Verzögerung 421 von t1, eine annehmbare Genauigkeit 431 von
41 Prozent, und die Module für
den schnellen Übereinstimmungs-Decodierer 260 und
die Konsensberechnung 320 sind aktiviert (wie es durch
Kriterien 441 beziehungsweise 444 angezeigt wird).
Wenn eine Kommunikationsanwendung 412 abläuft, hat
ein System eine Verzögerung 422 von
t2, eine annehmbare Genauigkeit 432 von
50 Prozent, und die Module für
den schnellen Übereinstimmungs-Decodierer 260,
den ausführlichen Übereinstimmungs-Decodierer 270 und
für die
Berechnung der Punktzahl für
die Glaubwürdigkeit 310 sind aktiviert
(wie durch Kriterien 441, 442 beziehungsweise 443 angezeigt).
Wenn eine Anwendung als Lese-Tutor 413 läuft, hat
ein System eine Verzögerung 423 von
t3, eine annehmbare Genauigkeit 433 von
60 Prozent, und die Module für
den ausführlichen Übereinstimmungs-Decodierer 270,
für die
Berechnung der Punktzahl für
die Glaubwürdigkeit 310,
für den
Vergleich der Studentenhistorie 330 sind aktiviert (wie
es durch Kriterien 442, 443 beziehungsweise 445 angezeigt
wird).
-
Im
Allgemeinen arbeiten der schnelle Übereinstimmungs-Decodierer 260 und
andere Decodierblöcke,
wie etwa der ausführliche Übereinstimmungs-Decodierer 270,
immer. Der schnelle Übereinstimmungs-Decodierer 260 sollte
nicht vollständig entfernt
werden, aber er kann stattdessen auf eine solche Weise verändert werden,
dass er eine kürzere Liste
von Kandidatenwörtern
ausgibt. Die insgesamt annehmbare Verzögerung sollte nicht kleiner
als die gesamte Decodierzeit sein (einschließlich der Verzögerung der
schnellen Übereinstimmung).
Aber die schnelle Übereinstimmung
und andere Decodierblöcke
können
so eingestellt werden, dass sie schneller laufen (z.B. dadurch,
dass eine Liste von Wörtern
mit schneller Übereinstimmung
verkürzt
wird). Damit steuern die Kriterien 441 und 442,
ob die Ausgabe vom schnellen Übereinstimmungs-Decodierer 260 beziehungsweise
vom ausführlichen Übereinstimmungs-Decodierer 270 angezeigt
wird.
-
Die
Daten in Steuertabelle 405 werden durch das Steuermodul
oder die Steuermodule 450 benutzt, die die ASR-Module 130,
den schnellen Übereinstimmungs-Decodierer 260,
den ausführlichen Übereinstimmungs-Decodierer 270,
die Berechnung der Punktzahl für
die Glaubwürdigkeit 310,
die Konsensberechnung 320, den Vergleich der Studentenhistorie 330 und
das Anzeigeplatzierungsmodul 460 konfigurieren. Das Steuermodul
oder die Steuermodule 450 können auch jegliche andere notwendige Konfigurierung
durchführen.
Das Modul zur Anzeigeplatzierung 460 kann durch das/die
Steuermodul/e 450 so konfiguriert werden, dass es senkrecht
ablaufenden Text, sich seitlich verschiebenden Text oder eine Kombination
davon anzeigt. Mögliche
Anzeigen werden nachstehend unter Bezugnahme auf 5 bis 7 erörtert.
-
Unter
Bezugnahme auf 5 wird nun eine mögliche Anzeige 500 gezeigt.
In der Anzeige 500 gibt es zwei Teilbereiche. In Teilbereich 510 wird
eine genauere Übersetzung
gezeigt. Diese Übersetzung enthält im Allgemeinen
Wörter
hoher Genauigkeit, und Silben, wenn die Genauigkeit geringer ist.
In Teilbereich 520 wird eine weniger genaue Übersetzung gezeigt.
Diese Übersetzung
könnte
ebenfalls Wörter enthalten,
obgleich in diesem Beispiel der Teilbereich 520 nur Silben
enthält.
Eine derartige Anzeige 500 könnte beim Lippenlesen benutzt
werden, wo eine schnelle Decodierung erforderlich ist. Im Beispiel
von 5 bilden die Silben eins und zwei Wort eins, während die
Silben drei bis fünf
Wort zwei bilden. In dieser Version laufen die Übersetzungen von links nach rechts
ab.
-
6 zeigt
eine weitere mögliche
Anzeige. In dieser Anzeige verläuft
die Übersetzung
von links nach rechts, bis eine Zeile voll ist, und dann von unten
nach oben. Dies ist die Art, wie in einem Film die Danksagungen
im Abspann gezeigt werden. Hier gibt es eine Mischung von Wörtern, Silben
und Lauten. Die Laute 610 sind Laute mit geringer Wahrscheinlichkeit,
die als solche mit bestimmten Anzeigetechniken angezeigt werden,
wie etwa das Setzen der Laute mit geringer Wahrscheinlichkeit in
Klammern. Eine andere Art, dies zu bewerkstelligen, wäre es etwa, Elemente
mit hoher Wahrscheinlichkeit hervorzuheben oder in einer unterschiedlichen
Schriftart anzuzeigen (fett, unterstrichen) und die Elemente mit
geringer Wahrscheinlichkeit weniger hervortreten zu lassen (beispielsweise
in kursiver Schrift oder in grau). In 6 sind die
Laute geringer Wahrscheinlichkeit kursiv dargestellt.
-
7 zeigt
eine andere Anzeigemöglichkeit. In
dieser Anzeige sind die möglichen
Laute an jedem passenden Standort aufgelistet. Im Allgemeinen würden diese
so angeordnet, dass sich die Laute höchster Glaubwürdigkeit
oben und die Laute geringerer Glaubwürdigkeit unten befinden. Es
ist anzumerken, dass diese Art von Anzeige mit Wörtern, Silben und Lauten vorkommen
kann. Wenn ein Wort eine geringe Glaubwürdigkeit hat, welche außerhalb
der Annahmeschwelle liegt, werden beispielsweise die zwei Silben
während
der gleichen Zeitspanne wie für
das Wort als die Silbenannahmeschwelle erfüllend ausgewählt und
so angezeigt, wie es in 7 dargestellt wird. Dies könnte es
dem Benutzer gestatten, eine Entscheidung hinsichtlich der richtigen Übersetzung zu
treffen, da er zwischen dem Wort oder den Silben wählen könnte.
-
Die
Glaubwürdigkeitsschwelle,
die auf jeder Ebene (Wort, Silbe oder Laut) benutzt wird, um zu entscheiden,
ob die Elemente so angezeigt werden sollen, wie sie sind, oder ob
sie in zwei Elemente der niedrigeren Ebene aufgeteilt werden sollen,
wird gewählt,
indem der Nutzen der Anzeige in der Darstellung der höheren Ebene
und die möglichen
Kosten der Anzeige eines unrichtigen Gegenstandes auf dieser Ebene
gegeneinander abgewogen werden.
-
Unter
Bezugnahme auf 8 wird nun ein Verfahren 800 für Wort-/Silbenverarbeitung
gemäß einer
Ausführungsform
der vorliegenden Erfindung gezeigt. Das Verfahren 800 wird
immer dann ausgeführt,
wenn es wünschenswert
ist, dass genauere Silben angezeigt werden, wenn dem Symbol entsprechende
Wörter
außerhalb
einer bestimmten Genauigkeitsschwelle liegen. Es ist anzumerken,
dass ein Wort umschrieben werden kann, das nicht den Silben entspricht,
die für
den gleichen Zeitraum umschrieben worden sind. Mit anderen Wörtern, die
Silben, die für
einen Zeitraum als die wahrscheinlichsten Silben betrachtet werden,
müssen
nicht tatsächlich
dem Wort entsprechen, das für
diesen Zeitraum als das wahrscheinlichste betrachtet wird.
-
Das
Verfahren 800 beginnt in Schritt 805, wenn ermittelt
wird, ob die Anwendung für
Lippenlesen läuft.
Wie vorstehend erläutert,
können über Anzeigensteuereinheit 150 die
Einstellungen der Anwendung konfiguriert werden. Wenn die Anwendung für Lippenlesen
läuft (Schritt 805 =
JA), wird ermittelt, ob die Verzögerung
zwischen dem Ausgeben decodierter Daten von der Liste der ausführlichen Übereinstimmungen
geringer ist als eine vorgegebene Schwelle (Schritt 825).
Wenn die Verzögerung
nicht geringer als eine vorgegebene Schwellenverzögerung ist
(Schritt 825 = NEIN), wird an der Anzeige eine Silbe aus
dem schnellen Übereinstimmungs-Decodierer
ausgegeben. Die Verzögerungsschwelle, wie
sie unter Bezugnahme auf 4 erläutert worden ist, kann durch
einen Benutzer konfiguriert werden. Wenn die Verzögerung geringer
als eine vorgegebene Schwellenverzögerung ist (Schritt 825 =
JA), wird ermittelt, ob die Punktzahl für die Glaubwürdigkeit
größer als
eine vorgegebene Glaubwürdigkeit
ist (Schritt 835). Wenn dies der Fall ist (Schritt 835 =
JA), wird das Wort auf der Anzeige ausgegeben (Schritt 840).
Wenn die Punktzahl für
die Glaubwürdigkeit
geringer als eine vorgegebene Glaubwürdigkeit ist (Schritt 835 =
NEIN), wird das Wort in eine Silbe (Schritt 845) umgewandelt,
und die Silbe wird an der Anzeige (Schritt 850) ausgegeben.
-
Wenn
sich die Anwendung nicht mit Lippenlesen befasst (Schritt 805 =
NEIN), wird als Nächstes ermittelt,
ob es sich um eine Anwendung für
einen Lesetutor (Schritt 810) handelt. Wenn die Anwendung
einem Lesetutor dient, werden die Anweisungen ausgeführt (Schritt 815),
wie sie durch Steuertabelle 405 von Anzeigensteuereinheit 150 (siehe 4)
angegeben werden. Diese Reihe von Schritten ist denen sehr ähnlich,
die für
das Lippenlesen beschrieben worden sind, wie etwa Schritte 825 bis 850.
Bei einer Anwendung als Lesetutor kann der schnelle Übereinstimmungs-Decodierer
nicht genutzt werden, was bedeutet, dass Schritt 825 nicht
benutzt würde.
Es würden
jedoch Wörter
oder Silben zur Anzeige ausgewählt,
die auf Glaubwürdigkeitsebenen für diese
Sprachteile beruhen. Wenn die Anwendung gerade nicht als Lesetutor
genutzt wird (Schritt 810 = NEIN), wird geprüft, ob das
System für
eine andere Anwendung benutzt wird, wie sie durch die Steuertabelle 405 der
Anzeigensteuereinheit 150 (gezeigt in 4)
definiert ist. Die anderen Kriterien (wie sie durch Steuertabelle 405 ermittelt
werden) für
die bestimmte Anwendung würden
festgelegt und ausgeführt.
-
Es
ist anzumerken, dass Verfahren 800 modifiziert werden kann,
um das Anzeigen von Lauten mit einzubeziehen, wenn das Decodieren
von Silben eine vorgegebene Genauigkeitsebene nicht erreicht.
-
Unter
Bezugnahme auf 9, werden nun eine Übersichtsdarstellung
eines Verfahrens 900 und verschiedene Inhalte von N-Bestenlisten,
die während
des Verfahrens 900 auftreten, gemäß einer Ausführungsform
der vorliegenden Erfindung gezeigt. Das Verfahren 900 wird
benutzt, um die Glaubwürdigkeit
als Funktion der Zeit zu ermitteln, was dann dafür benutzt werden kann zu ermitteln,
welcher Teil der Sprache (Wörter
oder Silben und wahlweise Laute) die wahrscheinlichste Übersetzung
ist. Das Verfahren 900 wird angewandt, wenn die Ausgabe
von ASR eine gemischte Ausgabe von Wörtern und Silben (und möglicherweise
Lauten) ist. In 9 entsprechen gerade Zahlen
den Inhalten einer N-Bestenliste, und die ungeraden Zahlen entsprechen
Verfahrensschritten, die an der N-Bestenliste ausgeführt werden.
Es ist anzumerken, dass die N-Bestenlisten zusätzliche Informationen zu denjenigen
enthalten können,
die hier gezeigt werden.
-
In
der N-Bestenlisten 910 umfasst diese Liste Wörter und
Silben, Start- und Endzeiten und hypothetische Punktzahlen für die Wörter und
Symbole. Dies ist die N-Bestenliste, die sich ergeben sollte, nachdem
die ASR 130 ausgeführt
worden ist. Es ist anzumerken, dass das System auch nur in diesem Augenblick
Wörter
enthalten kann. In Schritt 915 werden die Wörter und
Silben in eine entsprechende Folge von Lauten umgewandelt. Der erste
Laut jedes Tokens in der ursprünglichen
Hypothese erbt die Startzeit dieses Tokens. Der letzte Laut jedes
Tokens in der ursprünglichen
Hypothese erbt die Endzeit dieses Tokens. An diesem Punkt enthält eine
temporäre N-Bestenliste 920 Laute,
einige Start- und Endzeiten und Punktzahlen für die Hypothese. In Schritt 925 werden
durch Interpolieren der vorhandenen Zeiten die fehlenden Start-
und Endzeiten für
die besten hypothetischen Laute eingetragen, so dass allen Lauten,
die ihren Ursprung im gleichen Token in der ursprünglichen
Hypothese haben, die gleiche Dauer zugemessen wird. Die fehlenden
Start- und Endzeiten für
die Laute der restlichen N-1
Hypothesen werden wie folgt eingetragen. Jede dieser N-1 Folgen von
Lauten wird zu obersten ausgerichtet, indem der Bearbeitungs-(oder
Levehnstein-) Abstand zwischen den beiden minimiert wird. Jeder
Laut in der Folge wird als Übereinstimmung
gekennzeichnet, in Bezug auf die beste Hypothese eingefügt oder
ersetzt. Für übereinstimmende
Laute werden von der besten Hypothese die Start- und Endzeiten in
die in Frage kommende Hypothese hineinkopiert. Für Folgen von eingefügten oder
ersetzten Lauten werden die Start- und Endzeiten so gesetzt, dass
sie zwischen den Zeiten, die schon ermittelt worden sind, gleichmäßig verteilt sind.
-
Nach
Schritt 925 enthält
die temporäre N-Bestenliste
Laute, Start- und Endzeiten und hypothetische Punktzahlen (dies
ist die N-Bestenliste 930). In Schritt 935 werden
die hypothetischen Punktzahlen jeder Hypothese, multipliziert mit
einem Skalierfaktor, und ein Exponentialwert genommen. Dies sind
Standardschritte bei der Sprachanalyse. Andere nichtlineare, monoton
ansteigende Funktionen können
ebenfalls benutzt werden. Die umgewandelten Punktzahlen werden dann
normiert, indem jede von ihnen durch ihre Summe geteilt wird. Diese Zahlen
werden als die Wahrscheinlichkeiten der Hypothesen bezeichnet. An
diesem Punkt enthält
die N-Bestenliste
Laute und Start-/Endzeiten und Wahrscheinlichkeiten für jede vollständige Hypothese
(wie durch die N-Bestenliste 940 angezeigt). Was die Wahrscheinlichkeiten
anbetrifft, werden, wenn es eine 10- Bestenliste gibt, 10 Wahrscheinlichkeiten vorkommen,
die sich zu eins summieren.
-
In
Schritt 945 werden die Rahmenglaubwürdigkeiten berechnet. Für jeden
Zeitrahmen t wird eine Rahmenglaubwürdigkeit berechnet, indem die
Wahrscheinlichkeiten aller der Hypothesen (einschließlich der
besten Hypothese) addiert werden, für die der Laut, der zum Zeitpunkt
t hypothetisiert wird, mit dem Laut übereinstimmt, der zum Zeitpunkt
t als beste Hypothese hypothetisiert wurde. An diesem Punkt enthält die N-Bestenliste die Glaubwürdigkeit
als Funktion der Zeit (wie von der N-Bestenliste 950 angezeigt).
Es ist anzumerken, dass die N-Bestenliste alle vorher erwähnten Elemente
wie etwa Laute, Start- und Endzeiten und Wahrscheinlichkeiten enthalten kann.
-
In
Schritt 955, werden die beiden N-Bestenlisten 910 und 950 in
Glaubwürdigkeiten
von Silben und Wörtern
(und wahlweise Lauten) kombiniert, woraus die N-Bestenliste 960 resultiert.
Grundsätzlich wird
jede Rahmenglaubwürdigkeit über einen Sprachteil
gemittelt, um die Glaubwürdigkeit
für diesen
Sprachteil zu ermitteln. Wenn ein Laut drei Rahmen umfasst, ist
beispielsweise die dem Laut zugeordnete Glaubwürdigkeit der Durchschnittswert
der Glaubwürdigkeiten
für die
drei Rahmen. Wenn ein Wort zehn Rahmen umspannt, ist gleichermaßen die dem
Wort zugeordnete Glaubwürdigkeit
der Durchschnittswert der Glaubwürdigkeiten
jedes der zehn Rahmen. Die Benutzung der Durchschnittswerte der Glaubwürdigkeiten
der umspannten Rahmen ist ein Verfahren, die Glaubwürdigkeit
für einen
Sprachteil zu ermitteln. Andere Verfahren können jedoch benutzt werden.
Beispielsweise kann ein geometrisches Mittel oder das Minimum oder
Maximum der Rahmenglaubwürdigkeit über die
Dauer des Sprachteiles benutzt werden.
-
Falls
es im Verfahren 900 gewünscht
wird, können
allen Lauten aller N Hypothesen Punktzahlen für die Glaubwürdigkeit
zugeordnet werden. Die Rahmenglaubwürdigkeit von Hypothese Nummer
i wird dadurch berechnet, dass die Wahrscheinlichkeiten aller der
Hypothesen (einschließlich
der Hypothese Nummer i) addiert werden, für die der zum Zeitpunkt t hypothetisierte
Laut mit dem Laut übereinstimmt, der
zum Zeitpunkt t in Hypothese Nummer I hypothetisiert wurde. Dann
wird die Glaubwürdigkeit
für alle Laute
von Hypothese Nummer i berechnet, indem die Punktzahlen für die Rahmenglaubwürdigkeit
kombiniert werden, wie es für
die beste Hypothese beschrieben worden ist.
-
Durch
das Ermitteln und Benutzen einer Maßzahl der Glaubwürdigkeit
als Funktion der Zeit gestattet es das Verfahren 900, dass
Glaubwürdigkeiten
von Lauten, Silben und Wörtern
mit einem Verfahren ermittelt werden. Es ist anzumerken, dass die Ergebnisse
des Verfahrens 900 mit anderen Ergebnissen kombiniert werden
können,
um eine andere Ebene von Glaubwürdigkeitsmaßen bereitzustellen. Beispielsweise
können
die von der ASR 130 benutzte Punktzahl des Sprachmodells
oder die Punktzahl des Akustikmodells mit einer Glaubwürdigkeit 900 kombiniert
werden.
-
Unter
Bezugnahme auf 10 wird nun ein beispielhaftes
System gezeigt, das zum Ablaufen von Ausführungsformen der vorliegenden
Erfindung geeignet ist. Das System 1000 umfasst ein Rechnersystem 1010 und
eine CD 1050. Das Rechnersystem 1010 umfasst einen
Prozessor 1020, einen Speicher 1030 und eine Anzeige 1040.
-
Wie
nach dem Stand der Technik bekannt, können die hier erläuterten
Verfahren und Vorrichtungen als Gegenstand einer Fertigung vertrieben
werden, wobei dieser selbst ein rechnerlesbares Medium umfasst,
das rechnerlesbare Codemittel hat, die darauf verkörpert sind.
Das rechnerlesbare Programmcodemittel kann in Verbindung mit einem
Rechnersystem betrieben werden, wie etwa dem Rechnersystem 1010,
um alle oder einige der Schritte auszuführen, um die Verfahren ablaufen
zu lassen oder die hierin erläuterten
Vorrichtungen zu schaffen. Das rechnerlesbare Medium kann ein beschreibbares Medium
(z.B. Disketten, Plattenspeicher, CDs oder Speicherkarten) sein,
oder es kann ein Übertragungsmedium
sein (z.B. ein Netzwerk, das Lichtwellenleiter umfasst, das Internet,
Kabel oder ein drahtloser Kanal, der Zeitmultiplexing mit Mehrfachzugriff, Codemultiplexding
mit Mehrfachzugriff oder andere Funkfrequenzkanäle benutzt). Alle bekannten
oder entwickelten Medien, die Daten so speichern können, dass
sie von einem Rechnersystem genutzt werden können, können verwendet werden. Das rechnerlesbare
Codemittel ist ein beliebiger Mechanismus, das es einem Rechner
gestattet, Anweisungen und Daten zu lesen, wie etwa magnetische
Veränderungen
auf einem Magnetmedium oder Höhenveränderungen
auf der Oberfläche
einer CD, wie etwa die CD 1050.
-
Der
Speicher 1030 konfigurierte den Prozessor 1020,
um die Verfahren, Schritte und Funktionen einzurichten, die hier
dargelegt worden sind. Der Speicher 1030 könnte verteilt
oder lokal sein, und der Prozessor 1020 könnte verteilt
oder einzeln sein. Der Speicher 1030 könnte als elektrischer, magnetischer oder
optischer Speicher oder eine beliebige Kombination von diesen oder
anderen Arten von Speichervorrichtungen ausgeführt werden. Darüber hinaus könnte die
Ausgabe „Speicher" weit genug gefasst werden,
um alle Daten zu betreffen, die an einer Adresse in einem adressierbaren
Raum gelesen oder dort aufgezeichnet werden können und auf die der Prozessor 1010 zugreifen
kann. Mit dieser Definition befinden sich Daten in einem Netzwerk
noch innerhalb des Speichers 1030, weil der Prozessor 1020 die
Daten aus dem Netzwerk abrufen kann. Es ist anzumerken, dass jeder
verteilte Prozessor, aus dem Prozessor 1030 gebildet wird,
im Allgemeinen seinen eigenen adressierbaren Speicherraum enthält. Es ist ebenfalls
anzumerken, dass Teile des gesamten Rechnersystems 1010 in
eine anwendungsspezifische oder für den allgemeinen Gebrauch
bestimmte integrierte Schaltung eingefügt werden können.
-
Die
Anzeige 1040 kann jede beliebige Art von Anzeige sein,
die dafür
geeignet ist, die Arten von hierarchischen Informationen zu erzeugen,
wie sie in 5 bis 7 gezeigt
werden. Im Allgemeinen ist die Anzeige 1040 ein Rechnermonitor
oder eine andere ähnliche
Video-Anzeige.
-
Somit
handelt es sich bei dem, was gezeigt worden ist, um Verfahren und
Systeme, um Teile von Sprache auf hierarchische Weise anzuzeigen.
Während
der Spracherkennung kann ein System gemäß den bevorzugten Ausführungsformen
der vorliegenden Erfindung den wahrscheinlichsten Sprachteil ermitteln
und das passende Wort, die passende Silbe oder den passenden Laut
anzeigen. Ebenfalls dargelegt wird ein einzigartiger Weg zum Ermitteln
der Glaubwürdigkeit
als Maß der
Zeit, mit dem es ermöglicht
wird, Glaubwürdigkeiten
von beliebigen Sprachteilen (Wort, Silbe, Laut oder irgendeinen
anderen Sprachfetzen) einfach zu ermitteln.
-
Es
versteht sich, dass die Ausführungsformen
und Varianten, die hier gezeigt und beschrieben worden sind, lediglich
zur Veranschaulichung der Prinzipien dieser Erfindung dienen und
dass vom Fachmann verschiedene Modifikationen ausgeführt werden
können,
ohne dass vom Umfang und Geist der Erfindung abgewichen wird. Beispielsweise
kann das Trennmodul 140 zusätzliche oder unterschiedliche
Module umfassen, um Wörter
von Silben (und Silben von Lauten, wenn gewünscht) zu trennen.
-
Weiterhin
ist hier ein Verfahren dargelegt, das die folgenden Schritte umfasst:
Bereitstellen eines erkannten Satzteiles, der Wörter und Silben umfasst; Umwandeln
einer Vielzahl von Punktzahlen für Hypothesen
des erkannten Satzteiles auf Lautebene; Ermitteln der Glaubwürdigkeit
des erkannten Satzteiles als Funktion der Zeit unter Verwendung
der umgewandelten Hypothesepunktzahlen; und Verwenden der Glaubwürdigkeit
als Funktion der Zeit, um Glaubwürdigkeiten
für Sprachteile
in dem erkannten Satzteil zu ermitteln.
-
Noch
weiterhin ist hier das vorstehende Verfahren dargelegt, dass außerdem die
folgenden Schritte aufweist: durch die Verwendung der Glaubwürdigkeit
als Funktion der Zeit Ermitteln einer Reihe von Lauten in dem erkannten
Satzteil, wobei jeder Laut in der Reihe als der am meisten wahrscheinliche Laut
ausgewählt
wird; Ermitteln einer richtigen phonetischen Aussprache eines Wortes;
Ermitteln, ob Laute in der Reihe, die dem Wort entsprechen, mit der
richtigen phonetischen Aussprache des Wortes übereinstimmen; und wenn einer
oder mehrere der Laute nicht richtig sind, Anzeigen der richtigen
phonetischen Aussprache des Wortes und Betonen der Laute, die nicht
richtig sind.
-
Noch
weiterhin ist hier das vorstehende Verfahren dargelegt, bei dem
der Schritt des Umwandelns einer Vielzahl von Hypothesenpunktzahlen
des erkannten Satzteiles auf Lautebene weiterhin die folgenden Schritte
umfasst: Ermitteln einer Vielzahl von Hypothesen für einen
erkannten Satzteil; Umwandeln der Vielzahl von Hypothesen in eine
Folge von Lauten; Ermitteln einer Wahrscheinlichkeit aus jeder Hypothesenpunktzahl;
und Ermitteln der Start- und Endzeiten für jeden Laut, wodurch jedem
Laut die Wahrscheinlichkeiten zugeordnet werden und damit die Hypothesenpunktzahlen
auf die Lautebene umgewandelt werden; und in welcher der Schritt
des Ermittelns der Glaubwürdigkeit
als Funktion der Zeit die folgenden Schritte umfasst: Zuweisen einer
Anzahl von Hypothesen, zugeordneten Wahrscheinlichkeiten und Lauten
zu jedem aus einer Vielzahl von Rahmen; und Berechnen einer Rahmenglaubwürdigkeit für jeden
Rahmen, indem die Wahrscheinlichkeiten aller Hypothesen addiert
werden, für
die ein zum Zeitpunkt t hypothetisierter Laut mit einem Laut übereinstimmt,
der in einer besten Hypothese zum Zeitpunkt t hypothetisiert wurde.
-
Noch
weiter wird hier das vorstehende Verfahren dargelegt, in dem der
Schritt des Verwendens der Glaubwürdigkeit als Funktion der Zeit
zur Ermittlung der Glaubwürdigkeiten
von Teilen von Sprache in dem erkannten Satzteil, für jeden
interessierenden Sprachteil die folgenden Schritte umfasst: Auswählen eines
Sprachteiles, der eine Zeitspanne umfasst; Ermitteln einer durchschnittlichen
Glaubwürdigkeit über diese
Zeitspanne; und Gleichsetzen der durchschnittlichen Glaubwürdigkeit über dieser
Zeitspanne mit der Glaubwürdigkeit
des Sprachteiles.
-
Weiterhin
ist hier ein Verfahren zur hierarchischen Umschreibung und Anzeige
von Spracheingabe dargelegt, wobei das Verfahren die folgenden Schritte
umfasst: für
einen Sprachteil Ermitteln, welcher aus einer Vielzahl von Sprachteilen
vorher festgelegte Kriterien für
diesen Sprachteil einhält;
und Anzeigen des Sprachteiles, der die vorher festgelegten Kriterien
für diesen
Sprachteil einhält.
-
Noch
weiter wird hier das vorstehende Verfahren dargelegt, bei dem: der
Schritt des Ermittelns für
einen Sprachteil, welcher aus einer Vielzahl von Sprachteilen vorher
festgelegte Kriterien für
diesen Sprachteil einhält,
noch weiter die folgenden Schritte umfasst: Ermitteln einer Glaubwürdigkeit
für den Sprachteil
als Funktion der Zeit; Ermitteln der Glaubwürdigkeit für ein Wort, indem eine durchschnittliche Glaubwürdigkeit
eines Zeitraumes ermittelt wird, den das Wort umspannt; und Ermitteln,
ob die Glaubwürdigkeit
des Wortes eine vorgegebene Wort-Glaubwürdigkeit einhält; und
der Schritt des Anzeigens des Sprachteiles, der die vorgegebenen
Kriterien für
diesen Sprachteil einhält,
umfasst die folgenden Schritte: Anzeigen des Wortes, wenn die Glaubwürdigkeit des
Wortes die vorgegebene Wort-Glaubwürdigkeit erreicht; und Anzeigen
mindestens einer Silbe, die dem Wort entspricht, wenn die Glaubwürdigkeit
des Wortes die vorgegebene Wort-Glaubwürdigkeit
nicht erreicht.
-
Noch
weiterhin wird hier das vorstehende Verfahren dargelegt, wobei:
der Schritt des Ermittelns für
einen Sprachteil, welcher aus der Vielzahl der Sprachteile vorher
festgelegte Kriterien für
diesen Sprachteil einhält,
weiterhin die folgenden Schritte umfasst: Ermitteln einer Glaubwürdigkeit für jede der
wenigstens einen Silben, die dem Wort entsprechen, indem für jede Silbe
eine durchschnittliche Glaubwürdigkeit
ermittelt wird, wobei jede Silbe einen Zeitraum umspannt, der gleich
oder geringer ist als der Zeitraum, der von dem Wort umspannt wird; und
Ermitteln, ob die Glaubwürdigkeit
für jede
Silbe eine vorher festgelegte Silben-Glaubwürdigkeit einhält; und
der Schritt des Anzeigens des Sprachteiles, der die vorher festgelegten
Kriterien für
diesen Sprachteil einhält,
umfasst weiterhin die folgenden Schritte: für jede Silbe Anzeigen einer
Silbe, wenn die Silben-Glaubwürdigkeit
die vorher festgelegte Silben-Glaubwürdigkeit
einhält;
und für
jede Silbe Anzeigen mindestens eines der Silbe entsprechenden Lautes,
wenn die Silben-Glaubwürdigkeit
die vorher festgelegte Silben-Glaubwürdigkeit
nicht einhält.