-
Die
Erfindung bezieht sich auf die Verwendung eines Spracherkennungsverfahrens,
das mehrere Sprachmodelle zur Gewinnung einer besseren Erkennung
enthält.
Die Erfindung betrifft auch eine Vorrichtung diese Verfahren anzuwenden.
-
Die
Informationssysteme oder Kontrollsysteme verwenden zunehmend eine
Sprachschnittstelle, um die Interaktion mit dem Benutzer schnell
und intuitiv zu gestalten. Diese Systeme werden immer komplexer,
die unterstützten
Dialogarten sind immer umfangreicher und man kommt in den Bereich
der kontinuierlichen Spracherkennung mit sehr umfangreichem Vokabular.
-
Die
Spracherkennung mit grossem Vokabular basiert auf den Hidden-Markov-Modellen,
sowohl für
den akustischen Teil als auch auf für den Sprachmodellteil.
-
Die
Erkennung eines Satzes läuft
darauf hinaus, die wahrscheinlichste Wortfolge zu finden unter Kenntnis
der über
das Mikrofon aufgenommenen akustischen Daten.
-
Der
Algorithmus von Viterbi wird allgemein zu diesem Zweck verwendet.
-
Für die praktischen
Probleme jedoch, das heisst zum Beispiel für Vokabulare, die aus mehreren Tausend
Worten bestehen und selbst für
Modelle mit einer einfachen Sprache vom Typ bigram, beinhaltet das
zu analysierende Markovsche Netz zu viele Zustände, damit der Algorithmus
von Viterbi in diesem Zustand angewendet werden könnte.
-
Vereinfachungen
sind notwendig.
-
Eine
bekannte Vereinfachung ist das „beam-search" genannte Verfahren
(„Lichtstrahlsuchen"). Die Idee auf der
es basiert ist einfach: im Verlauf des Viterbi-Algorithmus werden
einige Zustände des
Gitters entfernt, wenn das Ergebnis, das sie erzielen, niedriger
als eine bestimmter Schwellenwert ist (wobei das Gitter eine zeitliche
Darstellung der Zustände
und Übergänge im Markovschen
Netz ist). Diese Ausdünnung
reduziert erheblich die Zahl der Zustände, die im Laufe der Suche
nach der wahrscheinlichsten Wortfolge in den Vergleich einbezogen
werden. Eine klassische Variante ist das Verfahren „N-beast
search" (Suche den
n-besten Lösungen),
die am Ausgang die n-Wortfolgen liefert, die das beste Ergebnis
erzielen.
-
Die
im Verlauf des „N-best
search" – Verfahrens
benutzte Ausdünnung,
die auf den gemittelten Ergebnissen in der links rechts Satzanalyse
basiert, ist manchmal nicht zur Suche der besten Wortfolge geeignet:
Zwei grundlegende Probleme bestehen:
Auf der einen Seite, wenn
dieses Verfahren auf die Sprachmodelle des Typs n-gram angepasst
wird, in denen die ganze Sprachmodellinformation über die wahrscheinlichste
Wortfolge begrenzt ist auf n aufeinander folgenden, gerade analysierten
Worten, ist es für
die Sprachmodelle des Grammatikentyps, die ein Modell mit den Einflüssen der
Abstände
zwischen Wortgruppen schaffen, weniger wirkungsvoll. Es kann also
passieren, dass die n besten berücksichtigten
Wortfolgen in einem bestimmten Stadium der Dekodierung, nicht mehr
die möglichen
Kandidaten in der Schlussphase der Satzanalyse sind, da der Rest des
Satzes ihre Kandidatur beschädigt,
vor Sätzen mit
einem schwächeren
Ergebnis als zu Beginn, stimmt jedoch besser mit dem Sprachmodell überein, wie
es durch die bekannten Grammatiken dargestellt wird.
Auf der
anderen Seite geschieht es oft, dass eine Anwendung modulweise oder
in mehreren Schritten, wobei jedes Modul mit genauen Funktionalitäten der Schnittstelle
versehen ist, mit zunächst
unterschiedlichen Sprachmodellen, entwickelt wird. Im n-best – Verfahren
werden diese verschiedenen Sprachmodelle vermischt und es ergibt
sich daraus, wenn eine Untergruppe der Anwendung befriedigende Erkennungswerte
geliefert hat, es nicht garantiert ist, dass diese Werte, wenn man
neue Module hinzufügt,
auch erhalten bleiben, selbst wenn ihr Anwendungsgebiet unterschiedlich
ist: die beiden Modelle werden sich gegenseitig stören.
-
Dazu
zeigt die 1 ein Schaubild eines auf Grammatiken
basierenden Sprachmodells. Die schwarzen Kreise stellen die Entscheidungsschritte dar,
die Striche zwischen den kreisen stellen die Übergänge dar, auf die das Sprachmodell
die Erzeugungswahrscheinlichkeit ausübt und die weissen Kreise stellen
die Worte des Vokabulars dar, die mit Markovschen Netzen verbunden
sind, die dank der phonetischen Kenntniss ihrer möglichen
Aussprachen aufgebaut wurden.
-
Wenn
in der Anwendung mehrere Grammatiken aktiv sind, werden die Sprachmodelle
jeder einzelnen Grammatik zusammengelegt, um nur ein Netz zu bilden.
Die anfängliche
Wahrscheinlichkeit, jede der Grammatiken zu aktivieren, geschieht
normalerweise zwischen den Grammatiken zu gleichen Teilen, wie das
auch in der 2 beschrieben ist, wo man unterstellt,
dass die beiden Übergänge, die
vom Ursprungsknoten ausgehen, die gleiche Wahrscheinlichkeit haben.
-
Man
kommt also zum Ursprungsproblem nur eines Sprachmodells zurück und das „bean search"-Verfahren erlaubt
durch eine Ausdünnung der
Suchwege, die als die am wenigsten wahrscheinlichen betrachtet werden,
den Satz zu finden, der den höchsten
Wert darstellt (oder die n Sätze
im Fall des n-best search).
-
Die
Erfindung zielt auf ein Spracherkennungsverfahren ab, das eine Stufe
der Erkennung eines akustischen Signals beinhaltet, sowie ein Stufe der
akusto-phonetischen Entschlüsselung
und eine Stufe der sprachlichen Dekodierung, die dadurch gekennzeichnet
ist, dass die Stufe der Sprachdekodierung folgende Stufen beinhaltet:
- – eine
von der Vielzahl der Sprachmodelle getrennte Anwendungsstufe zur
Analyse einer Audiosequenz, um eine Vielzahl von Wortfolgekandidaten
zu bestimmen;
- – eine
Bestimmungsstufe mit einem Suchmotor für die wahrscheinlichste Wortfolge
unter den Wortfolgekandidaten.
-
Gemäß einem
besonderen Ausführungsbeispiel
ist die Bestimmung durch den Suchmotor eine Funktion der während der
Anwendung der Sprachmodelle nicht in Betracht gezogenen Parameter.
-
Gemäß einem
besonderen Ausführungsbeispiel
sind die Sprachmodelle auf Grammatiken aufgebaut.
-
Das
Ziel der Erfindung ist auch eine Vorrichtung zur Spracherkennung
und beinhaltet einen Audioprozessor zur Audiosignalerkennung und
einen Sprachdekodierer zur Festlegung einer Wortfolge, die dem Audiosignal
entspricht, dadurch gekennzeichnet, dass der Sprachdekodierer:
- – eine
Vielzahl von Sprachmodellen für
eine getrennte Anwendung zur Analyse eines gleichen Satzes beinhaltet,
um eine Vielzahl von Wortfolgekandidaten fest zu legen.
- – einen
Suchmotor zur Festlegung der am meisten wahrscheinlichen Wortfolgekandidaten,
unter der Vielzahl von Wortfolgekandidaten, beinhaltet.
-
Andere
Besonderheiten und Vorteile der Erfindung werden bei der Beschreibung
eines Ausführungsbeispieles
auftreten, das aber keine einschränkende Wirkung hat und durch
die anhängenden
Abbildungen erklärt
wird, darunter zeigt die:
-
1 ein
Diagramm in Baumstruktur mit schematischer Darstellung eines Sprachmodells
auf der Grundlage von Grammatiken;
-
2 ein
Diagramm in Baumstruktur mit schematischer Umsetzung eines Suchalgorithmus auf
der Basis von zwei Sprachmodellen des Typs aus der 1 und
in einem Modell vereint.
-
3 ein
Diagramm in Baumstruktur nach einem erfindungsgemäßem Ausführungsbeispiel,
angewendet auf zwei Sprachmodelle.
-
4 ein
Diagramm in Blockform in Übereinstimmung
mit dem Ausführungsbeispiel,
unter Einsatz unterschiedlicher Sprachmodelle durch unterschiedliche
Instanzen des Suchalgorithmus;
-
5 ein
Diagramm in Blockform einer Worterkennungsvorrichtung unter Einsatz
des gleichen Verfahrens wie das Ausführungsbeispiel.
-
Die
vorgeschlagene Lösung
beruht auf einer Ausdünnung
der Wortbedeutungen während
des Algorithmus des Beam search: die Anwendung ist in zwei unabhängige Module
geteilt, wobei beide mit einem besonderen Sprachmodell verbunden
sind.
-
Für jedes
dieser Module wird eine Suche n-best search gestartet, ohne dass
sich ein Modul über
die Werte des anderen Moduls sorgen müsste. Diese Analysen beziehen
sich auf unterschiedliche Informationen und sind demnach unabhängig und können parallel
gestartet werden und sich der Architektur der Multiprozessortechnik
bedienen.
-
Wir
werden die Erfindung für
den Fall wo das Sprachmodell auf der Benutzung von Grammatiken basiert,
beschreiben, dabei kann aber auch ein Model vom Typ n-gram Vorteile
aus der Erfindung ziehen.
-
Zur
Beschreibung des vorliegenden Ausführungsbeispiels versetze man
sich in den Bereich der Anwendungen in der Unterhaltungselektronik,
genauer: eine Benutzerschnittstelle eines Fernsehgerätes, die
ein Spracherkennungsmodell in Gang setzt. Das Mikrofon befindet
sich in der Fernbedienung, während
die aufgenommenen Audiodaten zum Fernsehgerät gesendet werden, genauer
gesagt zur Sprachanalyse geschickt werden. Der Empfänger beinhaltet
dazu eine Worterkennungsvorrichtung.
-
Die 5 ist
ein beispielhaftes Blockdiagramm der Vorrichtung 1 zur
Worterkennung. Für
die Klarheit der Darstellung wurde die Gesamtheit der notwendigen
Mittel zur Worterkennung in der Vorrichtung 1 untergebracht,
selbst wenn im Rahmen der beabsichtigten Anwendung gewisse Elemente,
am Anfang der Kette, in der Fernbedienung des Empfängers gezeigt
werden.
-
Diese
Vorrichtung beinhaltet einen Prozessor 2 für das Audiosignal
und sorgt für
die Digitalisierung des vom Mikrofon 3 kommenden Audiosignals über den
Signalerkennungsschaltkreis 4. Der Prozessor übersetzt
auch die digitalen Abtastmuster in akustische Symbole, die in einem
vorbestimmten Alphabet ausgewählt
wurden. Zu diesem Zweck beinhaltet er einen akusto-phonetischen
Dekodierer 5. Ein Sprachdekodierer 6 bearbeitet
diese Symbole mit dem Ziel, für
eine Symbolfolge A, die Folge W der am meisten wahrscheinlichen
Worte zu bestimmen, wobei die Folge A gegeben ist.
-
Der
Sprachdekodierer benutzt ein akustische Modell 7 und ein
Sprachmodell 8, die durch einen Suchalgorithmus durch Hypothese 9 in
Gang gesetzt werden. Das akustische Modell ist beispielsweise ein
Modell „Hidden
Markov model oder HMM) genannt. Es wird zur Errechnung von Akustikwerten
für Wortsequenzen
(Wahrscheinlichkeiten) benutzt, die im Laufe der Entschlüsselung
in Frage kommen. Das im vorliegenden Ausführungsbeispiel eingesetzte Sprachmodell
basiert auf einer Grammatik, die unter Zuhilfenahme der Syntaxregeln
der Backus Naur-Form beschrieben wurden. Das Sprachmodell wird benötigt, um
die Analyse des Audio-Datenstroms
zu führen
und um die Sprachwerte zu kalkulieren. Der Erkennungsalgorithmus,
der genau gesagt der Erkennungsmotor ist, ist für das vorliegende Beispiel
ein Algorithmus, der auf dem Algorithmus des Typs Viterbi beruht
und n-best genannt wird. Der Algorithmus des Typs n-best bestimmt bei
jedem Schritt einer Satzanalyse die n Sequenzen der wahrscheinlichsten
Worte, wobei die gesammelten Audiodaten gegeben sind. Am Satzende
wird die wahrscheinlichste Lösung
unter den n Kandidaten ausgewählt.
-
Die
Begriffe des obigen Abschnitts sind für unter Fachleuten bekannt,
jedoch werden zusätzliche
Informationen in Bezug auf den besonderen Algorithmus n-best in
der folgenden Veröffentlichung ausgeführt:
„Statistical
methods for speech recognition" von
F. Jelinek, MIT Press 1999 ISBN o-262-10066-5 pp 79–84. Andere
Algorithmen können
auch eingesetzt werden. Insbesondere andere Algorithmen des Typs "Beam Search" wovon "n-best" eine Variante ist.
-
Der
akusto-phonetische Dekodierer und der Sprachdekodierer können durch
Einsatz eines geeigneten Programms mit einem Mikroprozessor, der
Zugang zu einem Speichers mit dem Algorithmus des Erkennungsmotors
und den Akustik- und Sprachmodellen hat, realisiert werden.
-
Gemäß dem vorliegenden
Ausführungsbeispiel,
setzt die Vorrichtung mehrere Sprachmodelle in Gang. Die beabsichtigte
Anwendung ist eine Benutzerschnittstelle mit Sprachsteuerung zur
Steuerung eines elektronischen Programmführers, ein erstes Sprachmodell
ist zur Filterung der vorgeschlagenen Senderprogramme angepasst,
mit dem Ziel, zeitliche oder thematische Filter auf Basis von Daten
verfügbarer
Sender anzuwenden, während
ein zweites Sprachmodell für
einen Senderwechsel, ausserhalb des Programmführerkontextes, (zapping) angepasst ist.
Es stellt sich in der Praxis heraus, dass Sätze, die sich akustisch sehr ähnlich sind,
im Rahmen der Kontexte beider Modelle, sehr unterschiedliche Bedeutungen
haben können.
-
Die 3 ist
ein Schaubild, auf dem die Verzweigungen schematisch dargestellt
sind, entsprechend für
jedes der beiden Modelle. Wie in den 1 und 2 die
schwarzen Kreise die Entscheidungsstufen darstellen, so zeigen die
Striche die Übergänge, denen
das Sprachmodell die Zutreffswahrscheinlichkeit zuordnet, die weissen
Kreise stehen für
Wörter
aus dem Vokabular, dem die Markovschen Netze zugeordnet sind, die
aufgrund der phonetischen Kenntnis der möglichen Aussprache, erstellt
wurden.
-
Verschiedene
Instanzen des beam search-Verfahrens werden getrennt für jedes
Modell angewendet. Die Letzteren sind nicht zusammen geführt, sondern
bleiben getrennt und jede Verfahrensinstanz liefert den wahrscheinlichsten
Satz für
das zugeordnete Modell.
-
Gemäß einer
Variante des Ausführungsbeispiels
wendet man ein Verfahren des Typs n-best bei einem oder mehreren
oder allen Modellen an.
-
Sobald
die Analyse für
alle Module beendet ist, dient der beste Wert (oder die besten Werte,
je nach Variante) von jedem Modul zur Wahl, auf klassische Art,
des eventuell verstandenen Satzes.
-
Gemäß einer
Variante des Ausführungsbeispiels,
werden, nachdem die Analyse aller Module einmal stattgefunden hat,
die verschiedenen Kandidatensätze,
die aus dieser Analyse hervorgegangen sind, für eine zweite, feinere, Analyse
herangezogen, wobei man die nicht eingesetzten akustischen Parameter
der vorhergehenden Analysephase benutzt.
-
Die
vorgeschlagene Verarbeitung besteht darin, dass kein globales Sprachmodell
geformt wird, sondern dass man Teilsprachmodelle speichert. Jedes
wird auf eine unabhängige
Art mit einem beam-search Algorithmus behandelt und der Wert der
besten Sequenzen wird berechnet.
-
Die
Erfindung beruht also auf einer Gesamtheit von getrennten Modulen,
wobei jedes Modul von einem Teil der Systemressourcen profitiert,
die einen oder mehrere Prozessoren in einer bevorrechtigten Mehrfachzugriffsarchitektur
vorschlagen kann, so wie in der 4 dargestellt
ist.
-
Es
ist ein Vorteil, dass der Irrtum in jedem Sprachmodell an sich gering
ist und dass die Summe der Irrtümer
von n vorhandenen Sprachmodellen geringer als die Irrtümer die
aus ihrem Zusammenschluss entstehen würden. Die Verarbeitung der
Daten verlangt also weniger Rechenaufwand.
-
Andererseits
gibt schon die Kenntnis des Ursprungssprachenmodells des Satzes,
bei der Wahl des besten Satzes unter den Ergebnissen der verschiedenen
Suchverfahren, eine Information über seinen
Sinn und über
das Anwendungsgebiet, das ihm zugeordnet ist. Die zugehörigen Parser
können also
diesen Gebieten gewidmet werden und demzufolge einfacher und wirkungsvoller
sein.
-
In
unserer Erfindung stellt ein Modul den gleichen Erkennungswert dar,
oder genauer gesagt, liefert die gleiche Gesamtheit der n-besten
Sätze und denselben
Wert für
jeden Satz, ob er alleine oder mit anderen Modulen verwendet wird.
Es gibt keine Verminderung der Leistung aufgrund einer Vereinigung der
Module zu einem einzigen Modul.
-
Referenzen:
-
- Error bounds für
convolutional codes and an asysmetrically optimum decoding algorithm.
A.J. Viterbi IEEE Transactions or Information Theory, Band IT-13,
Seiten 260–67,
1967
- Statistical mehtods for speech recognition. F. Jelinek. MIT
Press ISBN 0-262-100066-5 Seiten 79–84
- Perceptual linear prediction (PLP) analysis of speech. Hynek
Hermansky Journal of the Acoustical Society of America, Band 87,
Nr. 4, 1990, 1738.1752