-
Die
vorliegende Erfindung betrifft ein Verfahren zur Erkennung von Sprache
gemäß dem Oberbegriff
des Anspruchs 1 und insbesondere ein Verfahren zur Erkennung von
Sprache, bei dem eine Überanpassung
an bestimmte Worte während
einer Online-Sprecheranpassung vermieden wird.
-
In
heutigen Verfahren und Geräten
bzw. Vorrichtungen zur automatischen Spracherkennung sind so genannte
Online-Sprecheranpassungsprozesse implementiert,
um die Verfahren und Geräte
hinsichtlich großer
Veränderungen
von möglichen
Sprecherverhalten der Sprecher flexibel zu machen.
-
Bei
herkömmlichen
Verfahren zur Spracherkennung wird ein aktuelles akustisches Modell
beim Erkennungsprozess verwendet, insbesondere für eine Menge von gegebenen
Sprachphrasen, die innerhalb eines ankommenden Sprachflusses erkannt werden
sollen. Das implementierte aktuelle akustische Modell enthält Informationen,
die für
den Erkennungsprozess als solchen relevant sind, insbesondere für alle potentiellen,
d. h. möglichen
Sprecher (sprecherunabhängige
Erkennung). Um die Erkennungsrate zu erhöhen, werden die akustischen
Modelle zur Spracherkennung während
des Erkennungsprozesses angepasst (adaptiert) in Abhängigkeit
von wenigstens einem bereits erhaltenen Erkennungsergebnis. Anpassung
bedeutet, bestimmte Informationen zu extrahieren, die nötig sind
zur Fokussierung auf bestimmte Sprachcharakteristiken des aktuellen
Sprechers. Der Prozess, das aktuelle akustische Modell anzupassen,
hängt daher
von der Auswertung bzw. Evaluierung von Sprachphrasenuntereinheiten
ab, die in einer Sprachphrase enthalten sind, die gerade verarbeitet
wird und/oder kürzlich
erkannt wurde. Es können
nicht nur beobachtete bzw, aufgetretene Einheiten angepasst werden,
sondern auch unbeobachtete Einheiten bzw. nicht aufgetretene Einheiten.
Das heißt,
die Sprachphraseuntereinheit wird ausgewertet mit Bezug zur akustischen Nachbarschaft,
die in der ausgewerteten Äußerung auftritt.
-
Bei
Anwendungen gewöhnlicher
Verfahren und Vorrichtungen zur Spracherkennung enthält die Spracheingabe
bestimmte Sprachphrasen, Wörter oder
Geräusche
in einem bestimmten Kontext sehr viel häufiger als die meisten anderen
Wörter,
wobei dies vom bestimmten Kontext bzw. der Umgebung in der die angewandten
Verfahren und Vorrichtungen arbeiten müssen, abhängt. Beispielsweise kommen bei
der Anwendung eines Verfahrens zur Spracherkennung für ein Verkehrsinformationssystem
Phrasen und Wörter,
die spezifisch für
bestimmte Orte sind, Reiserouten, Verkehrsmittel, bestimmte Kommandos
oder ähnliches,
sehr viel häufiger
vor als andere Orte im Vokabular.
-
Herkömmliche
Verfahren und Vorrichtungen zur Spracherkennung haben den großen Nachteil, dass
sie sich während
des Anpassungsprozesses des aktuellen akustischen Modells auf jede
empfangene Sprachphrase oder Wort gleichermaßen fokussieren. Somit beeinflussen
empfangene Sprachphrasen oder Wörter,
die häufig
auftreten, die Modifikation und Anpassung des aktuellen akustischen
Modells sehr viel mehr als Wörter
oder Phrasen, die nicht häufig
auftreten.
-
Das
Ergebnis nach der Anwendung von konventionellen Verfahren zur Anpassung
ist, dass häufig
auftretende Sprachphrasen oder Wörter
mit einer sehr kleinen Fehlerrate erkannt werden, die Erkennungsrate
für andere
Vokabeln jedoch schlechter ist.
-
Der
vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren
zur Spracherkennung bereitzustellen, bei dem der Einfluss von häufig auftretenden
Sprachphrasen oder Wörtern
innerhalb des empfangenen Sprachflusses auf den Anpassungsprozess
bezogen auf das aktuelle akustische Modell ausgewogen ist.
-
Die
Aufgabe wird bei einem Verfahren zur Spracherkennung gemäß dem Oberbegriff
des Anspruchs 1 mit den Merkmalen von Anspruch 1 gelöst. Bevorzugte
und vorteilhafte Ausführungsformen
des erfindungsgemäßen Verfahrens
zur Spracherkennung sind in den abhängigen Ansprüchen enthalten.
-
Das
erfindungsgemäße Verfahren
zur Spracherkennung ist dadurch gekennzeichnet, dass Anpassungszahlen
und/oder Auftrittszahlen bzw. Häufigkeitszahlen
für jede
der Sprachphrasen, Wörter, Untereinheiten
oder ähnliches
gezählt
werden, als Anzahl, dass eine bestimmte Sprachphrase als Basis zur
Anpassung des aktuellen akustischen Modells verwendet wird bzw.
als Anzahl von erkannten Auftritten bzw. Vorkommnissen der bestimmten
Sprachphrase in dem empfangenen Sprachfluss, und dass beim Prozess
der Anpassung des aktuellen akustischen Modells das Maß der Anpassung
basierend auf einer bestimmten Sprachphrase von wenigstens seiner
bestimmten Anpassungszahl und/oder Auftrittszahl abhängig gemacht
wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen im empfangenen
Sprachfluss auf den Anpassungsprozess abgeschwächt wird.
-
Die
Idee der vorliegenden Erfindung ist also, die auftretenden Sprachphrasen
innerhalb des ankommenden Sprachflusses durch ihre Auftrittshäufigkeiten
und/oder durch ihre Häufigkeit,
mit der sie als Basis zur Anpassung des aktu ellen akustischen Modells
verwendet werden, zu unterscheiden. Erfindungsgemäß werden
deshalb Auftrittszahlen und/oder Anpassungszahlen für jede der
möglichen zu
erkennenden Sprachphrasen gezählt.
-
Eine
weitere Idee der vorliegenden Erfindung ist, in jedem Anpassungsschritt
oder -prozess des aktuellen akustischen Modells, das in jedem Fall von
einem bereits erhaltenen Erkennungsergebnis abhängt, d. h. von einer auf getretenen
und erkannten Sprachphrase oder ähnlichem,
bestimmte Anpassungszahlen und/oder Auftrittszahlen der bestimmten
gerade behandelten Sprachphrase für den Anpassungsprozess oder
Prozess, der durchgeführt werden
soll, zu zählen.
Das Anpassungsmaß hinsichtlich
einer bestimmten Sprachphrase erfolgt in Abhängigkeit von wenigstens einer
bestimmten Anpassungszahl und/oder Auftrittszahl der bestimmten Sprachphrase.
Die Stärke
der Anpassung bzw. das Anpassungsmaß können als Gewicht oder Wichtungsfaktor
verstanden werden, die den Einfluss der analysierten Sprachphrasenuntereinheit
und der bestimmten Sprachphrase auf die aktuelle Parameterschätzung für den Anpassungsprozess
des aktuellen akustischen Modells steuern bzw, regeln.
-
Das
Anpassungsmaß und
ihre Abhängigkeit von
den Anpassungszahlen und/oder Auftrittszahlen werden so gewählt, dass
der Einfluss von häufig
auftretenden Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess
bzw. Adaptionsprozess hinsichtlich des aktuellen akustischen Modells
verringert wird.
-
Im
Gegensatz zu bekannten Verfahren und Vorrichtungen zur Spracherkennung,
wird beim erfindungsgemäßen Verfahren
zur Spracherkennung nicht jeder Auftritt bzw. jedes Vorkommnis einer
bestimmten Sprachphrase im ankommenden Sprachfluss in äquivalenter
Art und Weise ausgewertet, was mehr oder weniger zu einer Proportionalität führt zwischen
der Häu figkeit
aufgetretener Sprachphrasen und dem Einfluss auf den Anpassungsprozess,
sondern es wird die Stärke
der Anpassung für
eine bestimmte Sprachphrase häufigkeitsabhängig gemacht.
-
Bevorzugt
basiert das aktuelle akustische Modell auf einer Menge von Modellfunktions-Mixtures.
Der Anpassungsprozess wird dann durchgeführt, indem die Funktionen,
Modellfunktions-Mixtures und/oder die Modellfunktions-Mixturekomponenten
selbst transformiert werden und/oder durch zumindest teilweises
Verändern
von Beiträgen
der Modellfunktions-Mixturekomponenten der Modellfunktions-Mixtures. Die Anpassung
des aktuellen akustischen Modells kann daher einfach durchgeführt werden
durch Dämpfung
und/oder Erhöhung
des Einflusses der bestimmten Modellfunktions-Mixturekomponenten – d. h.
deren Amplituden oder Beiträge – auf den
gesamten Modellcharakter der jeweiligen Modellfunktions-Mixtures
in dem aktuellen akustischen Modell.
-
Der
ankommende Sprachfluss kann als eine Konkatenation, Aneinanderreihung,
Verkettung oder Kombination von vorbestimmten und klar definierten akustischen
Einheiten klassifiziert werden. Diese können beispielsweise Sprachphrasen
oder Sprachphrasenuntereinheiten genannt werden. Gemäß einer
bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung werden als Sprachphrasen und/oder als Sprachphrasenuntereinheiten
des aktuellen akustischen Modells Wörter, Wortuntereinheiten, Phone,
Phoneme, Silben, Buchstaben und/oder dergleichen und/oder Kombinationen
oder Konkatenationen dieser verwendet. Die Wahl einer Zustandsverfeinerung
des ankommenden Sprachflusses ist eine Frage der Bequemlichkeit
und Praktizierbarkeit. Im Allgemeinen kann der ankommende Sprachfluss
als eine Konkatenation von Wörtern
oder Wortuntereinheiten klassifiziert werden, wohingegen die Sprachphrasenunter einheiten
auf einer feineren Struktur basieren, z. B. auf der Basis von Phonemen,
Silben oder dergleichen. In jedem Fall sind die Sprachphrasen Kombinationen
und/oder Konkatenationen der Sprachphrasenuntereinheiten.
-
Gemäß einer
weiteren vorteilhaften Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung wird eine Anpassung des aktuellen akustischen
Modells wiederholt durchgeführt,
jeweils nach einer gegebenen Anzahl von durchgeführten Erkennungsschritten und/oder
erhaltenen Erkennungsergebnissen. Weiterhin kann eine Anpassung des
aktuellen akustischen Modells wiederholt durchgeführt werden,
jeweils nach einer gegebenen Anzahl von erhaltenen und/oder erkannten
Sprachphrasen. Diese Unterscheidung beschreibt Fälle, in denen die Anzahlen
der Erkennungsschritte und der Erkennungsergebnisse nicht übereinstimmen
und/oder Fälle,
in denen nicht alle erhaltenen Sprachphrasen erkannt werden.
-
In
einer weiteren bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung wird eine Anpassung des aktuellen akustischen
Modells wiederholt durchgeführt
nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten,
erhaltenen Erkennungsergebnissen und/oder empfangenen erkannten
Sprachphrasen, insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder
empfangenen/erkannten Sprachphrase.
-
Weiterhin
können
die Anzahlen der durchgeführten
Erkennungsschritte, der erhaltenen Erkennungsergebnisse und/oder
der empfangenen oder erkannten Sprachphrasen, nach denen eine Anpassung
des aktuellen akustischen Modells durchgeführt wird, während des Prozesses der Erkennung
oder Anpassung bestimmt werden.
-
Gemäß den oben
beschriebenen Maßnahmen
ist es nicht notwendig, dass eine Anpassung des aktuellen akustischen
Modells nach jedem Erkennungsschritt durchgeführt wird, sondern eine Anpassung
kann nach einer vorgegebenen Anzahl von Erkennungsschritten oder
erhaltenen Erkennungsergebnissen stattfinden. Die bestimmenden Anzahlen können in
einem Onlineprozess während
der Erkennung oder Anpassung bestimmt werden. Sie können aber
auch als vorbestimmte Werte vor einer Erkennungssitzung festgelegt
werden und können
in Abhängigkeit
der bestimmten Spracherkennungssitzung (Spracherkennungssession)
verändert
werden.
-
Ein
besonderer Punkt ist die Bestimmung der Anpassungszahlen und/oder
der Auftrittszahlen der bestimmten Sprachphrasen, die im ankommenden Sprachfluss
enthalten sein können.
Die einfachste Form des erfindungsgemäßen Verfahrens wird erreicht,
indem eine feste Grenzwertzahl bestimmt wird, mit der jeder Auftritt
und/oder jede Verwendung der Sprachphrase in einem Anpassungsprozess
verglichen werden, und dann davon abgesehen wird, eine gegebene
Sprachphrase für
einen anderen Anpassungsprozess zu verwenden, und zwar bei einer bestimmten
Anpassungszahl und/oder Auftrittszahl, die erreicht wird und/oder
die gegebene und feste Grenzwertzahl überschreitet.
-
Die
Grenzwertzahl kann für
jede der Sprachphrasen oder für
deren Klassen unabhängig
festgesetzt werden. Die Grenzwertzahlen können als feste und/oder vorbestimmte
Werte festgelegt werden, oder sie können auch während des Prozesses verändert und
berechnet werden.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
des Verfahrens zur Spracherkennung werden die gezählten Anpassungszahlen
und/oder Auftrittszahlen nicht nur vom Anfang der Erkennungssitzung
an gezählt,
sondern es wird zugelassen, diese während dem Fortschreiten der
aktuellen Erken nungssitzung zu verringern und/oder zu reduzieren. Insbesondere
können
jede bestimmte Anpassungszahl und/oder Auftrittszahl einer gegebenen
Sprachphrase reduziert, verringert, vermindert und/oder auf Null
zurückgesetzt
werden, und zwar nach vorgegebenen abgelaufenen Zeitabschnitten
einer vorgegebenen Gesamtanzahl von Erkennungsergebnissen oder -schritten,
einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder
einer vorgegebenen Gesamtanzahl von empfangenen und/oder erkannten
Sprachphrasen oder Äußerungen,
insbesondere seit der letzten Inkrementierung der eindeutigen Anpassungszahl
und/oder Auftrittszahl.
-
Gemäß den oben
beschriebenen Maßnahmen
ist es möglich,
das Anpassungsmaß zu
verändern,
d. h. den Einfluss einer gegebenen Sprachphrase auf den Anpassungsprozess,
sowohl in abschwächender
als auch in verstärkender
Art und Weise in Abhängigkeit
der Häufigkeit
ihres Auftritts. Wenn eine gegebene Sprachphrase beispielsweise in
einem ersten Erkennungsabschnitt (einem ersten Erkennungszeitabschnitt)
sehr häufig
auftritt, wird ihr Anpassungsmaß erfindungsgemäß verringert,
so dass eine Überanpassung
hinsichtlich dieser bestimmten Sprachphrase vermieden wird. Anschließend kann
ein zweiter Erkennungsabschnitt auftreten, indem diese bestimmte
Sprachphrase nicht enthalten ist und nicht empfangen wird. Falls
dann in einem dritten Erkennungsabschnitt die genannte bestimmte
Sprachphrase wieder auftritt, wird der Einfluss auf den Anpassungsprozess
in Übereinstimmung
mit einer solchen Sprachphrase auf einer höheren Ebene ausgewertet im
Vergleich zum ersten Abschnitt der Auftrittshäufigkeit der in Frage stehenden
Sprachphrase. Gemäß der oben
beschriebenen Ausführungsform
können
das Anpassungsmaß und damit
der Einfluss einer Sprachphrase auf den Anpassungsprozess wieder
aufgenommen werden in Zeitabschnitten des Anpassungsprozesses mit niedrigen
Häufigkeiten
oder keinen Auftritten der zu behandelnden Sprachphrase.
-
Gemäß einer
weiteren bevorzugten Ausführungsform
wird das Anpassungsmaß in
Bezug zu jeder Sprachphrase und/oder jeder Sprachphraseuntereinheit
während
des Anpassungsprozesses des aktuellen akustischen Modells herabgesetzt – insbesondere
streng – monoton
mit der Erhöhung
der Anpassungszahlen und/oder der Auftrittszahlen bei jedem Fall,
insbesondere umgekehrt proportional. Mit dem erfindungsgemäßen Verfahren
wird so erreicht, dass häufig
auftretende Sprachphrasen eine geringere Anpassungsstärke erhalten
und somit einen geringeren Einfluss auf den Anpassungsprozess des aktuellen
akustischen Modells haben.
-
Zusätzlich zu
der Abhängigkeit
von bestimmten Auftritten und Einbeziehung in den Anpassungsprozess
kann das Anpassungsmaß festgesetzt
werden in Abhängigkeit
einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen
und/oder erkannten Sprachphrasen, einer Gesamtanzahl von Anpassungen,
die am aktuellen akustischen Modell und/oder dergleichen durchgeführt wurden.
-
In
einer besonders geeigneten Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung werden Modellfunktions-Mixtures für das aktuelle
akustische Modell verwendet, welche zumindest Verteilungsfunktionen
oder dergleichen enthalten, und insbesondere Funktionen vom gaußschen Typ
oder dergleichen.
-
Die
grundlegenden Aspekte der vorliegenden Erfindung können auch
wie folgt zusammengefasst werden:
-
Sprecheranpassungsverfahren
für Spracherkennungssysteme
und -verfahren transformieren ein akustisches Modell, um besser
zu akustischen Eigenschaften und zum Sprachverhal ten eines gegebenen
und bestimmten Sprechers zu passen. Während eines Onlineadaptionsprozesses
wird keine Aufzeichnungsphase vor der Anwendung des Systems und
des Verfahrens benötigt.
Eine Anpassung des aktuellen akustischen Modells kann beispielsweise
nach dem Erhalt und/oder der Erkennung jeder einzelnen Sprachphrase
und/oder Äußerung oder nach
einer gegebenen Anzahl davon stattfinden, insbesondere während das
System und das Verfahren online und in Gebrauch sind.
-
Bei
der Anwendung eines solchen Systems oder Verfahrens kann es passieren,
dass ein bestimmter Anwender – insbesondere
zu Beginn einer Erkennungssitzung (recognizing session) – eine bestimmte
Sprachphrase, Wort, Äußerung oder
einige wenige davon, verglichen mit anderen, sehr häufig verwendet.
In einem solchen Fall würden
bekannte Anpassungsverfahren die betroffenen bestimmten akustischen
Modelle oder Phonemmodelle nicht nur an den Sprecher anpassen, sondern
auch an die bestimmten akustischen Eigenschaften in dem Kontext der
häufig
auftretenden Wörter,
Phrasen oder Äußerungen.
Das Ergebnis ist, dass nur diese wenigen Wörter, Phrasen oder Äußerungen
gut erkannt werden, andere Wörter,
Phrasen oder Äußerungen
jedoch schlechter erkannt werden als die häufig auftretenden Wörter, Phrasen
oder Äußerungen,
weil ihnen bei bekannten Anpassungsprozessen ein höherer Einfluss
zukommt. Bekannte Anpassungsverfahren und konventionelle Spracherkennungsverfahren
leiden also unter dem Problem einer Überanpassung durch häufig auftretende
Wörter.
-
In
einem Extremfall, bei welchem beispielsweise die verwendeten Modelle
saubere bzw. reine Modelle sind und das System in einer geräuschbelasteten
Umgebung (noisy environment) verwendet wird, würden die vorkommenden akustischen
Modelle nicht nur an den Sprecher angepasst werden, sondern auch
an die Umgebung bzw. die Umgebungsgeräusche.
-
Im
Ergebnis wären
diese Modelle in den meisten Fällen
geeignet (match), da sie besser zu den Umgebungsbedingungen, d.
h. zur Geräuschumgebung
passen. Somit würden
immer diese Wörter
erkannt werden, egal was gesagt wurde.
-
Spracherkenner
beinhalten in den akustischen Modellen statistische Modelle, insbesondere zur
Beschreibung von akustischen Eigenschaften der ankommenden Sprache.
Wortmodelle sind eine Konkatenation der entsprechenden verfeinerten
Modelle, beispielsweise von entsprechenden Phonemmodellen. Die rahmenweise
(frame-wise) akustischen Eigenschaften werden innerhalb des aktuellen
akustischen Modells durch die Auswertung der Modellfunktions-Mixtures
modelliert, insbesondere durch ein Mixture von gaußschen Verteilungsfunktionen,
die beispielsweise an Phonemmodelle angefügt werden, die Merkmalsvektoren
(feature vectors) entsprechen, die aus dem ankommenden Sprachsignal
extrahiert werden. Gewöhnlich
werden für
jedes Phonem unterschiedliche Modelle verwendet, die vom linken
und rechten phonemischen oder akustischen Kontext abhängen. Demgemäß existieren
mehrere Tausend oder Zehntausende von Modellen. Um die Rechenlast
zu reduzieren, werden ähnliche
Verteilungsfunktionen oder Gaußfunktionen
(Gaussians) von unterschiedlichen Phonmodellen zusammengefasst (merged)
und die sich ergebenden gaußschen
Funktionen oder Verteilungsfunktionen werden über gemeinsame Modelle hinweg
gemeinsam verwendet. Bei der Onlineanpassung können die veränderten
akustischen Modelle und insbesondere deren Parameter gewichtete
Summen der alten Parameter und der Schätzung der aktuellen Parameter
oder der aktuellen wenigen Äußerungen
oder Sprachphrasen sein. Falls ein Anwender eine bestimmte Phrase
oder ein bestimmtes Wort wiederholt spricht, transformiert die Sprecheranpassung
die bestimmte Verteilung oder Modellfunktions-Mixture, insbesondere
vom gaußschen
Typ so, dass diese optimal zu der bestimmten Phrase, Äußerung oder
zum Wort passt. Somit werden andere Wörter, die nicht häufig auftreten,
nach dieser bestimmten Anpassung des aktuellen akustischen Modells
unter Umständen
schlecht erkannt, da die Gaußfunktionen
(Gaussians) aufgrund ähnlicher akustischer
Eigenschaften des Grundsystems bzw. Baselinesystems gemeinsam verwendet
wurden.
-
In
einem ersten Beispiel einer Anpassung basierend auf Maximum-Likelihood-Linear-Regression
(MLLR) werden eine oder einige wenige Transformationsmatrizen auf
Basis der Sprache eines einzelnen Benutzers geschätzt, um
eine große
Menge von Gaußfunktionen
zu transformieren. Diese Prozedur wird jeweils für einige wenige Äußerungen
durchgeführt.
Falls die Matrizen nur mittels Äußerungen
des gleichen Worts geschätzt
werden, so ist die Transformation nicht repräsentativ für alle Gaußfunktionen (Gaussians), und
die meisten von ihnen werden falsch transformiert.
-
Gemäß einem
anderen Beispiel, bei dem die Anpassung auf einer Maximum-a-posteriori-Schätzung (MAP)
basiert, wird jede Gaußfunktion,
die im Sprachsignal einer Äußerung beobachtet
wird, individuell transformiert. Da Gaußfunktionen (Gaussians) über Phonemmodelle
hinweg gemeinsam verwendet werden, würde eine Anpassung an nur das
gleiche Wort eine Anpassung der Gaußfunktionen an einen bestimmten
Kontext bedeuten. Die anderen Kontexte würden nicht mehr berücksichtigt
bzw. repräsentiert.
-
Gemäß der Erfindung
und dem vorgeschlagenen Verfahren wird aufgezeichnet, in welchem Kontext
ein Modellfunktions-Mixture
und deren Komponenten, insbesondere eine Verteilungsfunktion oder
eine Gaußfunktion,
angepasst wurden. Mehrere explizite Lösungen können vorgeschlagen werden.
-
Bei
einer besonders einfachen Lösung
wird aufgezeichnet bzw. überwacht,
bei welchen Wörtern oder
Sprachphrasen oder dergleichen eine Anpassung durchgeführt wird
bzw. auftritt. Falls das gleiche Wort, die gleiche Sprachphrase
oder Äußerung innerhalb
der letzten m Äußerungen,
Sprachphrasen, Wörter
oder dergleichen im ankommenden Sprachfluss n mal auftreten, werden
diese Äußerung, Sprachphrase
oder dieses Wort nicht mehr zur Anpassung des aktuellen akustischen
Modells verwendet.
-
Bei
einer zweiten Lösung
ist die Stärke
der Anpassung, d. h. das Gewicht, das den Einfluss der Anpassung
auf die aktuelle Parameterschätzung kontrolliert,
beispielsweise umgekehrt proportional oder dergleichen zu der Auftrittshäufigkeit
der bestimmten Äußerung,
Sprachphrase oder des Wortes innerhalb des ankommenden Sprachflusses.
-
Falls
während
der vergangenen wenigen Äußerungen,
Sprachphrasen oder Wörter
vom gleichen, insbesondere kontextabhängigen Phonmodell eine bestimmte
Modellfunktions-Mixturekomponente,
insbesondere vom gaußschen
Typ angepasst werden soll und die Statistik für die Anpassung dieses gaußschen Typs
(Gaussian) wiederholt berechnet wurde, werden die oben beschriebenen
ersten oder zweiten Lösungen
verwendet.
-
Angenommen,
der Sprecher äußert beispielsweise
hintereinander "Goethestraße", "Stettener Straße", "Hauptstraße", so würde in der
letzten Äußerung die
Modellfunktions-Mixturekomponente, d.
h. die entsprechende Gaußfunktion,
die mit dem Phonmodell von /a/ zusammenhängt, nicht mehr angepasst werden,
da diese immer im gleichen Kontext "Straße" aufgetreten ist. Dagegen könnte das
Phonmodell für "t" noch angepasst werden, da es in unterschiedlichen
akustischen Kontexten "Goethe", "Stettener" und "Haupt" aufgetreten ist.
-
Im
Folgenden wird das Verfahren zur Spracherkennung gemäß der Erfindung
detaillierter mit Bezug zu einer schemati schen Darstellung auf Basis einer
bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung erläutert.
-
1 ist ein schematisches
Blockdiagramm, das die elementaren Schritte einer Ausführungsform des
erfindungsgemäßen Verfahrens
zur Spracherkennung zeigt.
-
2 ist ein schematisches
Blockdiagramm, das die Ausführungsform
von 1 detaillierter zeigt.
-
1 zeigt durch ein schematisches
Blockdiagramm elementare oder grundlegende Schritte einer Ausführungsform
des erfindungsgemäßen Verfahrens
zur Spracherkennung.
-
Im
ersten Schritt 11 des Erkennungs- und Anpassungsprozesses 10 von 1 wird der ankommende Sprachfluss,
der aus einer Konkatenation von möglichen Sprachphrasen ...,
SPj, ... aufgebaut ist, empfangen und vorverarbeitet bzw. umgewandelt in
eine Sequenz von entsprechenden Signalen ..., RSj, .... Dann wird
im Schritt 12 die Erkennung durchgeführt, bei der ein aktuelles
akustisches Modell CAM verwendet wird, das akustische Eigenschaften auf
Basis von Phonemmodellen, HMM-Modellen oder dergleichen beschreibt,
die in den Erkennungsprozess des Schritts 12 durch den
Schritt 16 eingefügt
werden und zum Erkennungsergebnis vom Schritt 13 führen.
-
Im
folgenden Schritt 14 werden die eintreffende Sprache vom
Schritt 11, das Erkennungsergebnis vom Schritt 13 und
weitere Informationen des Erkennungsprozesses vom Schritt 12 ausgewertet, um
Alignmentinformation, Abgleich- oder Anordnungsinformation zu erhalten
hinsichtlich des Alignments, des Abgleichs oder der Anordnung von
empfangenen und/oder erkannten Sprachphrasen ..., SPj, ..., Sprachphrasenuntereinheiten
..., SPSjk, ..., Phonemen oder dergleichen. Auf Basis dieser bestimmten
Alignmentinformation wird im Schritt 15 adaptionsstatistische
Information in Bezug zu der Anpassung und/oder Auftrittszahlen aj, oj extrahiert
und anschließend
in den Schritten 15a und 16a in eine Modifikation
des aktuellen akustischen Modells CAM eingefügt, falls die Grenzwerte tj und uj für aj bzw. oj nicht überschritten
werden, d. h., die Information wird nur für eine begrenzte Anzahl von
Anpassungen verwendet.
-
2 zeigt die Verarbeitung
innerhalb der Ausführungsform
von 1 detaillierter,
ebenfalls durch ein schematisches Blockdiagramm.
-
In
der Anfangs- oder Startphase der Ausführungsform des erfindungsgemäßen Verfahrens
zur Spracherkennung wird das Verfahren 20 initialisiert, indem
im Schritt 21 der Verarbeitung 20 in 2 alle Anpassungszahlen
für alle
Sprecher und für
alle Sprachphrasen oder Wörter
auf Null zurückgesetzt werden.
-
Im
Schritt 22 von 2 wird
der ankommende Sprachfluss empfangen und vorverarbeitet. Dann wird
im Schritt 23 der Erkennungsprozess durchgeführt, was
im Schritt 24 zu dem Erkennungsergebnis in Form einer erkannten
Sprachphrase, eines Wortes oder dergleichen führt.
-
Anhand
der im Schritt 15 in 1 gewonnenen
Adaptionsstatistiken wird bestimmt, ob das bestimmte aufgetretene
Wort und/oder erkannte Sprachphrase SPj, Wort oder dergleichen zur
Anpassung des aktuellen akustischen Modells CAM mehr als eine gegebene
Anzahl tj, uj mal
verwendet wurde (Schritt 25). Falls die Anzahl von Verwendungen
bzw. Anwendungen kleiner als ein fester Grenzwert tj,
uj ist, werden die bestimmte Sprachphrase
SPj, Wort oder derglei chen zur Anpassung des aktuellen akustischen
Modells CAM verwendet, insbesondere auf der Basis von Phonemmodellen
um das HMM-Modell im Schritt 26 zu modifizieren.
-
Schließlich wird
gemäß der Einbeziehung der
Sprachphrase SPj oder des in Frage stehenden Wortes die bestimmte
Anpassungszahl aj im Schritt 27 um
Eins erhöht
(inkrementiert), und anschließend wird
die Verarbeitung zum Schritt 22 zurückgeführt, um weiteren Sprachfluss
zu empfangen.
-
Für den Fall,
dass die bestimmte Sprachphrase SPj, das Wort oder die Äußerung in
Frage mehr als tj, uj mal
in den Anpassungsprozess für
das aktuelle akustische Modell CAM einbezogen wurden, geht die Verarbeitung
im Schritt 25 zum Schritt 28 über, bei dem die Verarbeitung
von einer Anpassung an die bestimmte aufgetretene und/oder erkannte Sprachphrase,
das Wort oder die Äußerung oder
dergleichen absieht. Das heißt,
die Verarbeitung geht in diesem Fall vom Schritt S25 zum Schritt
S28 über und
es findet keine Anpassung statt. Vom Schritt 28 geht die
Verarbeitung zum Schritt 32 zurück, wiederum um einen weiteren
ankommenden Sprachfluss zu empfangen.
-
Gemäß einer
weiteren Ausführungsform
ist es vorteilhaft, die Grenzwerte tj oder
uj (in 1, 2) von der gesamten oder
globalen Anzahl x von Anpassungsschritten in einer Erkennungssitzung
abhängig zu
machen. Zusätzlich
oder alternativ können
aj, oj auf Null
zurückgesetzt
werden, falls die Gesamtanpassungszahl x sehr groß ist, z.
B. größer als
ein gegebener Grenzwert Y, wie in Schritt 29 gezeigt wird. Dieses
Maß berücksichtigt
die Tatsache, dass nach einer großen Zahl x von Anpassungsschritten
der Beitrag eines bestimmten Worts oder Phonems im Verhältnis zu
einem Fall mit einer niedrigen Zahl x nicht wichtig ist.
-
In
jedem Fall muss x initialisiert und inkrementiert werden, wie dies
in den Schritten 21 bzw. 27 gezeigt wird.