DE60007637T2

DE60007637T2 - Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung

Info

Publication number: DE60007637T2
Application number: DE2000607637
Authority: DE
Inventors: Silke Hedelfinger Strasse 61 Goronzy; Ralf Hedelfinger Strasse 61 Kompe; Krzysztof Hedelfinger Strasse 61 Marasek
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2000-10-10
Filing date: 2000-10-10
Publication date: 2004-11-18
Anticipated expiration: 2020-10-11
Also published as: US20020072894A1; DE60007637D1; EP1197949B1; EP1197949A1; EP1197949A4; JP2002156994A; JP3990136B2; US6882972B2

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung von Sprache gemäß dem Oberbegriff des Anspruchs 1 und insbesondere ein Verfahren zur Erkennung von Sprache, bei dem eine Überanpassung an bestimmte Worte während einer Online-Sprecheranpassung vermieden wird.
In heutigen Verfahren und Geräten bzw. Vorrichtungen zur automatischen Spracherkennung sind so genannte Online-Sprecheranpassungsprozesse implementiert, um die Verfahren und Geräte hinsichtlich großer Veränderungen von möglichen Sprecherverhalten der Sprecher flexibel zu machen.
Bei herkömmlichen Verfahren zur Spracherkennung wird ein aktuelles akustisches Modell beim Erkennungsprozess verwendet, insbesondere für eine Menge von gegebenen Sprachphrasen, die innerhalb eines ankommenden Sprachflusses erkannt werden sollen. Das implementierte aktuelle akustische Modell enthält Informationen, die für den Erkennungsprozess als solchen relevant sind, insbesondere für alle potentiellen, d. h. möglichen Sprecher (sprecherunabhängige Erkennung). Um die Erkennungsrate zu erhöhen, werden die akustischen Modelle zur Spracherkennung während des Erkennungsprozesses angepasst (adaptiert) in Abhängigkeit von wenigstens einem bereits erhaltenen Erkennungsergebnis. Anpassung bedeutet, bestimmte Informationen zu extrahieren, die nötig sind zur Fokussierung auf bestimmte Sprachcharakteristiken des aktuellen Sprechers. Der Prozess, das aktuelle akustische Modell anzupassen, hängt daher von der Auswertung bzw. Evaluierung von Sprachphrasenuntereinheiten ab, die in einer Sprachphrase enthalten sind, die gerade verarbeitet wird und/oder kürzlich erkannt wurde. Es können nicht nur beobachtete bzw, aufgetretene Einheiten angepasst werden, sondern auch unbeobachtete Einheiten bzw. nicht aufgetretene Einheiten. Das heißt, die Sprachphraseuntereinheit wird ausgewertet mit Bezug zur akustischen Nachbarschaft, die in der ausgewerteten Äußerung auftritt.
Bei Anwendungen gewöhnlicher Verfahren und Vorrichtungen zur Spracherkennung enthält die Spracheingabe bestimmte Sprachphrasen, Wörter oder Geräusche in einem bestimmten Kontext sehr viel häufiger als die meisten anderen Wörter, wobei dies vom bestimmten Kontext bzw. der Umgebung in der die angewandten Verfahren und Vorrichtungen arbeiten müssen, abhängt. Beispielsweise kommen bei der Anwendung eines Verfahrens zur Spracherkennung für ein Verkehrsinformationssystem Phrasen und Wörter, die spezifisch für bestimmte Orte sind, Reiserouten, Verkehrsmittel, bestimmte Kommandos oder ähnliches, sehr viel häufiger vor als andere Orte im Vokabular.
Herkömmliche Verfahren und Vorrichtungen zur Spracherkennung haben den großen Nachteil, dass sie sich während des Anpassungsprozesses des aktuellen akustischen Modells auf jede empfangene Sprachphrase oder Wort gleichermaßen fokussieren. Somit beeinflussen empfangene Sprachphrasen oder Wörter, die häufig auftreten, die Modifikation und Anpassung des aktuellen akustischen Modells sehr viel mehr als Wörter oder Phrasen, die nicht häufig auftreten.
Das Ergebnis nach der Anwendung von konventionellen Verfahren zur Anpassung ist, dass häufig auftretende Sprachphrasen oder Wörter mit einer sehr kleinen Fehlerrate erkannt werden, die Erkennungsrate für andere Vokabeln jedoch schlechter ist.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Spracherkennung bereitzustellen, bei dem der Einfluss von häufig auftretenden Sprachphrasen oder Wörtern innerhalb des empfangenen Sprachflusses auf den Anpassungsprozess bezogen auf das aktuelle akustische Modell ausgewogen ist.
Die Aufgabe wird bei einem Verfahren zur Spracherkennung gemäß dem Oberbegriff des Anspruchs 1 mit den Merkmalen von Anspruch 1 gelöst. Bevorzugte und vorteilhafte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung sind in den abhängigen Ansprüchen enthalten.
Das erfindungsgemäße Verfahren zur Spracherkennung ist dadurch gekennzeichnet, dass Anpassungszahlen und/oder Auftrittszahlen bzw. Häufigkeitszahlen für jede der Sprachphrasen, Wörter, Untereinheiten oder ähnliches gezählt werden, als Anzahl, dass eine bestimmte Sprachphrase als Basis zur Anpassung des aktuellen akustischen Modells verwendet wird bzw. als Anzahl von erkannten Auftritten bzw. Vorkommnissen der bestimmten Sprachphrase in dem empfangenen Sprachfluss, und dass beim Prozess der Anpassung des aktuellen akustischen Modells das Maß der Anpassung basierend auf einer bestimmten Sprachphrase von wenigstens seiner bestimmten Anpassungszahl und/oder Auftrittszahl abhängig gemacht wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess abgeschwächt wird.
Die Idee der vorliegenden Erfindung ist also, die auftretenden Sprachphrasen innerhalb des ankommenden Sprachflusses durch ihre Auftrittshäufigkeiten und/oder durch ihre Häufigkeit, mit der sie als Basis zur Anpassung des aktu ellen akustischen Modells verwendet werden, zu unterscheiden. Erfindungsgemäß werden deshalb Auftrittszahlen und/oder Anpassungszahlen für jede der möglichen zu erkennenden Sprachphrasen gezählt.
Eine weitere Idee der vorliegenden Erfindung ist, in jedem Anpassungsschritt oder -prozess des aktuellen akustischen Modells, das in jedem Fall von einem bereits erhaltenen Erkennungsergebnis abhängt, d. h. von einer auf getretenen und erkannten Sprachphrase oder ähnlichem, bestimmte Anpassungszahlen und/oder Auftrittszahlen der bestimmten gerade behandelten Sprachphrase für den Anpassungsprozess oder Prozess, der durchgeführt werden soll, zu zählen. Das Anpassungsmaß hinsichtlich einer bestimmten Sprachphrase erfolgt in Abhängigkeit von wenigstens einer bestimmten Anpassungszahl und/oder Auftrittszahl der bestimmten Sprachphrase. Die Stärke der Anpassung bzw. das Anpassungsmaß können als Gewicht oder Wichtungsfaktor verstanden werden, die den Einfluss der analysierten Sprachphrasenuntereinheit und der bestimmten Sprachphrase auf die aktuelle Parameterschätzung für den Anpassungsprozess des aktuellen akustischen Modells steuern bzw, regeln.
Das Anpassungsmaß und ihre Abhängigkeit von den Anpassungszahlen und/oder Auftrittszahlen werden so gewählt, dass der Einfluss von häufig auftretenden Sprachphrasen im empfangenen Sprachfluss auf den Anpassungsprozess bzw. Adaptionsprozess hinsichtlich des aktuellen akustischen Modells verringert wird.
Im Gegensatz zu bekannten Verfahren und Vorrichtungen zur Spracherkennung, wird beim erfindungsgemäßen Verfahren zur Spracherkennung nicht jeder Auftritt bzw. jedes Vorkommnis einer bestimmten Sprachphrase im ankommenden Sprachfluss in äquivalenter Art und Weise ausgewertet, was mehr oder weniger zu einer Proportionalität führt zwischen der Häu figkeit aufgetretener Sprachphrasen und dem Einfluss auf den Anpassungsprozess, sondern es wird die Stärke der Anpassung für eine bestimmte Sprachphrase häufigkeitsabhängig gemacht.
Bevorzugt basiert das aktuelle akustische Modell auf einer Menge von Modellfunktions-Mixtures. Der Anpassungsprozess wird dann durchgeführt, indem die Funktionen, Modellfunktions-Mixtures und/oder die Modellfunktions-Mixturekomponenten selbst transformiert werden und/oder durch zumindest teilweises Verändern von Beiträgen der Modellfunktions-Mixturekomponenten der Modellfunktions-Mixtures. Die Anpassung des aktuellen akustischen Modells kann daher einfach durchgeführt werden durch Dämpfung und/oder Erhöhung des Einflusses der bestimmten Modellfunktions-Mixturekomponenten – d. h. deren Amplituden oder Beiträge – auf den gesamten Modellcharakter der jeweiligen Modellfunktions-Mixtures in dem aktuellen akustischen Modell.
Der ankommende Sprachfluss kann als eine Konkatenation, Aneinanderreihung, Verkettung oder Kombination von vorbestimmten und klar definierten akustischen Einheiten klassifiziert werden. Diese können beispielsweise Sprachphrasen oder Sprachphrasenuntereinheiten genannt werden. Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden als Sprachphrasen und/oder als Sprachphrasenuntereinheiten des aktuellen akustischen Modells Wörter, Wortuntereinheiten, Phone, Phoneme, Silben, Buchstaben und/oder dergleichen und/oder Kombinationen oder Konkatenationen dieser verwendet. Die Wahl einer Zustandsverfeinerung des ankommenden Sprachflusses ist eine Frage der Bequemlichkeit und Praktizierbarkeit. Im Allgemeinen kann der ankommende Sprachfluss als eine Konkatenation von Wörtern oder Wortuntereinheiten klassifiziert werden, wohingegen die Sprachphrasenunter einheiten auf einer feineren Struktur basieren, z. B. auf der Basis von Phonemen, Silben oder dergleichen. In jedem Fall sind die Sprachphrasen Kombinationen und/oder Konkatenationen der Sprachphrasenuntereinheiten.
Gemäß einer weiteren vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt, jeweils nach einer gegebenen Anzahl von durchgeführten Erkennungsschritten und/oder erhaltenen Erkennungsergebnissen. Weiterhin kann eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt werden, jeweils nach einer gegebenen Anzahl von erhaltenen und/oder erkannten Sprachphrasen. Diese Unterscheidung beschreibt Fälle, in denen die Anzahlen der Erkennungsschritte und der Erkennungsergebnisse nicht übereinstimmen und/oder Fälle, in denen nicht alle erhaltenen Sprachphrasen erkannt werden.
In einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird eine Anpassung des aktuellen akustischen Modells wiederholt durchgeführt nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Erkennungsergebnissen und/oder empfangenen erkannten Sprachphrasen, insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder empfangenen/erkannten Sprachphrase.
Weiterhin können die Anzahlen der durchgeführten Erkennungsschritte, der erhaltenen Erkennungsergebnisse und/oder der empfangenen oder erkannten Sprachphrasen, nach denen eine Anpassung des aktuellen akustischen Modells durchgeführt wird, während des Prozesses der Erkennung oder Anpassung bestimmt werden.
Gemäß den oben beschriebenen Maßnahmen ist es nicht notwendig, dass eine Anpassung des aktuellen akustischen Modells nach jedem Erkennungsschritt durchgeführt wird, sondern eine Anpassung kann nach einer vorgegebenen Anzahl von Erkennungsschritten oder erhaltenen Erkennungsergebnissen stattfinden. Die bestimmenden Anzahlen können in einem Onlineprozess während der Erkennung oder Anpassung bestimmt werden. Sie können aber auch als vorbestimmte Werte vor einer Erkennungssitzung festgelegt werden und können in Abhängigkeit der bestimmten Spracherkennungssitzung (Spracherkennungssession) verändert werden.
Ein besonderer Punkt ist die Bestimmung der Anpassungszahlen und/oder der Auftrittszahlen der bestimmten Sprachphrasen, die im ankommenden Sprachfluss enthalten sein können. Die einfachste Form des erfindungsgemäßen Verfahrens wird erreicht, indem eine feste Grenzwertzahl bestimmt wird, mit der jeder Auftritt und/oder jede Verwendung der Sprachphrase in einem Anpassungsprozess verglichen werden, und dann davon abgesehen wird, eine gegebene Sprachphrase für einen anderen Anpassungsprozess zu verwenden, und zwar bei einer bestimmten Anpassungszahl und/oder Auftrittszahl, die erreicht wird und/oder die gegebene und feste Grenzwertzahl überschreitet.
Die Grenzwertzahl kann für jede der Sprachphrasen oder für deren Klassen unabhängig festgesetzt werden. Die Grenzwertzahlen können als feste und/oder vorbestimmte Werte festgelegt werden, oder sie können auch während des Prozesses verändert und berechnet werden.
Gemäß einer weiteren bevorzugten Ausführungsform des Verfahrens zur Spracherkennung werden die gezählten Anpassungszahlen und/oder Auftrittszahlen nicht nur vom Anfang der Erkennungssitzung an gezählt, sondern es wird zugelassen, diese während dem Fortschreiten der aktuellen Erken nungssitzung zu verringern und/oder zu reduzieren. Insbesondere können jede bestimmte Anpassungszahl und/oder Auftrittszahl einer gegebenen Sprachphrase reduziert, verringert, vermindert und/oder auf Null zurückgesetzt werden, und zwar nach vorgegebenen abgelaufenen Zeitabschnitten einer vorgegebenen Gesamtanzahl von Erkennungsergebnissen oder -schritten, einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder einer vorgegebenen Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen oder Äußerungen, insbesondere seit der letzten Inkrementierung der eindeutigen Anpassungszahl und/oder Auftrittszahl.
Gemäß den oben beschriebenen Maßnahmen ist es möglich, das Anpassungsmaß zu verändern, d. h. den Einfluss einer gegebenen Sprachphrase auf den Anpassungsprozess, sowohl in abschwächender als auch in verstärkender Art und Weise in Abhängigkeit der Häufigkeit ihres Auftritts. Wenn eine gegebene Sprachphrase beispielsweise in einem ersten Erkennungsabschnitt (einem ersten Erkennungszeitabschnitt) sehr häufig auftritt, wird ihr Anpassungsmaß erfindungsgemäß verringert, so dass eine Überanpassung hinsichtlich dieser bestimmten Sprachphrase vermieden wird. Anschließend kann ein zweiter Erkennungsabschnitt auftreten, indem diese bestimmte Sprachphrase nicht enthalten ist und nicht empfangen wird. Falls dann in einem dritten Erkennungsabschnitt die genannte bestimmte Sprachphrase wieder auftritt, wird der Einfluss auf den Anpassungsprozess in Übereinstimmung mit einer solchen Sprachphrase auf einer höheren Ebene ausgewertet im Vergleich zum ersten Abschnitt der Auftrittshäufigkeit der in Frage stehenden Sprachphrase. Gemäß der oben beschriebenen Ausführungsform können das Anpassungsmaß und damit der Einfluss einer Sprachphrase auf den Anpassungsprozess wieder aufgenommen werden in Zeitabschnitten des Anpassungsprozesses mit niedrigen Häufigkeiten oder keinen Auftritten der zu behandelnden Sprachphrase.
Gemäß einer weiteren bevorzugten Ausführungsform wird das Anpassungsmaß in Bezug zu jeder Sprachphrase und/oder jeder Sprachphraseuntereinheit während des Anpassungsprozesses des aktuellen akustischen Modells herabgesetzt – insbesondere streng – monoton mit der Erhöhung der Anpassungszahlen und/oder der Auftrittszahlen bei jedem Fall, insbesondere umgekehrt proportional. Mit dem erfindungsgemäßen Verfahren wird so erreicht, dass häufig auftretende Sprachphrasen eine geringere Anpassungsstärke erhalten und somit einen geringeren Einfluss auf den Anpassungsprozess des aktuellen akustischen Modells haben.
Zusätzlich zu der Abhängigkeit von bestimmten Auftritten und Einbeziehung in den Anpassungsprozess kann das Anpassungsmaß festgesetzt werden in Abhängigkeit einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen, einer Gesamtanzahl von Anpassungen, die am aktuellen akustischen Modell und/oder dergleichen durchgeführt wurden.
In einer besonders geeigneten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung werden Modellfunktions-Mixtures für das aktuelle akustische Modell verwendet, welche zumindest Verteilungsfunktionen oder dergleichen enthalten, und insbesondere Funktionen vom gaußschen Typ oder dergleichen.
Die grundlegenden Aspekte der vorliegenden Erfindung können auch wie folgt zusammengefasst werden:
Sprecheranpassungsverfahren für Spracherkennungssysteme und -verfahren transformieren ein akustisches Modell, um besser zu akustischen Eigenschaften und zum Sprachverhal ten eines gegebenen und bestimmten Sprechers zu passen. Während eines Onlineadaptionsprozesses wird keine Aufzeichnungsphase vor der Anwendung des Systems und des Verfahrens benötigt. Eine Anpassung des aktuellen akustischen Modells kann beispielsweise nach dem Erhalt und/oder der Erkennung jeder einzelnen Sprachphrase und/oder Äußerung oder nach einer gegebenen Anzahl davon stattfinden, insbesondere während das System und das Verfahren online und in Gebrauch sind.
Bei der Anwendung eines solchen Systems oder Verfahrens kann es passieren, dass ein bestimmter Anwender – insbesondere zu Beginn einer Erkennungssitzung (recognizing session) – eine bestimmte Sprachphrase, Wort, Äußerung oder einige wenige davon, verglichen mit anderen, sehr häufig verwendet. In einem solchen Fall würden bekannte Anpassungsverfahren die betroffenen bestimmten akustischen Modelle oder Phonemmodelle nicht nur an den Sprecher anpassen, sondern auch an die bestimmten akustischen Eigenschaften in dem Kontext der häufig auftretenden Wörter, Phrasen oder Äußerungen. Das Ergebnis ist, dass nur diese wenigen Wörter, Phrasen oder Äußerungen gut erkannt werden, andere Wörter, Phrasen oder Äußerungen jedoch schlechter erkannt werden als die häufig auftretenden Wörter, Phrasen oder Äußerungen, weil ihnen bei bekannten Anpassungsprozessen ein höherer Einfluss zukommt. Bekannte Anpassungsverfahren und konventionelle Spracherkennungsverfahren leiden also unter dem Problem einer Überanpassung durch häufig auftretende Wörter.
In einem Extremfall, bei welchem beispielsweise die verwendeten Modelle saubere bzw. reine Modelle sind und das System in einer geräuschbelasteten Umgebung (noisy environment) verwendet wird, würden die vorkommenden akustischen Modelle nicht nur an den Sprecher angepasst werden, sondern auch an die Umgebung bzw. die Umgebungsgeräusche.
Im Ergebnis wären diese Modelle in den meisten Fällen geeignet (match), da sie besser zu den Umgebungsbedingungen, d. h. zur Geräuschumgebung passen. Somit würden immer diese Wörter erkannt werden, egal was gesagt wurde.
Spracherkenner beinhalten in den akustischen Modellen statistische Modelle, insbesondere zur Beschreibung von akustischen Eigenschaften der ankommenden Sprache. Wortmodelle sind eine Konkatenation der entsprechenden verfeinerten Modelle, beispielsweise von entsprechenden Phonemmodellen. Die rahmenweise (frame-wise) akustischen Eigenschaften werden innerhalb des aktuellen akustischen Modells durch die Auswertung der Modellfunktions-Mixtures modelliert, insbesondere durch ein Mixture von gaußschen Verteilungsfunktionen, die beispielsweise an Phonemmodelle angefügt werden, die Merkmalsvektoren (feature vectors) entsprechen, die aus dem ankommenden Sprachsignal extrahiert werden. Gewöhnlich werden für jedes Phonem unterschiedliche Modelle verwendet, die vom linken und rechten phonemischen oder akustischen Kontext abhängen. Demgemäß existieren mehrere Tausend oder Zehntausende von Modellen. Um die Rechenlast zu reduzieren, werden ähnliche Verteilungsfunktionen oder Gaußfunktionen (Gaussians) von unterschiedlichen Phonmodellen zusammengefasst (merged) und die sich ergebenden gaußschen Funktionen oder Verteilungsfunktionen werden über gemeinsame Modelle hinweg gemeinsam verwendet. Bei der Onlineanpassung können die veränderten akustischen Modelle und insbesondere deren Parameter gewichtete Summen der alten Parameter und der Schätzung der aktuellen Parameter oder der aktuellen wenigen Äußerungen oder Sprachphrasen sein. Falls ein Anwender eine bestimmte Phrase oder ein bestimmtes Wort wiederholt spricht, transformiert die Sprecheranpassung die bestimmte Verteilung oder Modellfunktions-Mixture, insbesondere vom gaußschen Typ so, dass diese optimal zu der bestimmten Phrase, Äußerung oder zum Wort passt. Somit werden andere Wörter, die nicht häufig auftreten, nach dieser bestimmten Anpassung des aktuellen akustischen Modells unter Umständen schlecht erkannt, da die Gaußfunktionen (Gaussians) aufgrund ähnlicher akustischer Eigenschaften des Grundsystems bzw. Baselinesystems gemeinsam verwendet wurden.
In einem ersten Beispiel einer Anpassung basierend auf Maximum-Likelihood-Linear-Regression (MLLR) werden eine oder einige wenige Transformationsmatrizen auf Basis der Sprache eines einzelnen Benutzers geschätzt, um eine große Menge von Gaußfunktionen zu transformieren. Diese Prozedur wird jeweils für einige wenige Äußerungen durchgeführt. Falls die Matrizen nur mittels Äußerungen des gleichen Worts geschätzt werden, so ist die Transformation nicht repräsentativ für alle Gaußfunktionen (Gaussians), und die meisten von ihnen werden falsch transformiert.
Gemäß einem anderen Beispiel, bei dem die Anpassung auf einer Maximum-a-posteriori-Schätzung (MAP) basiert, wird jede Gaußfunktion, die im Sprachsignal einer Äußerung beobachtet wird, individuell transformiert. Da Gaußfunktionen (Gaussians) über Phonemmodelle hinweg gemeinsam verwendet werden, würde eine Anpassung an nur das gleiche Wort eine Anpassung der Gaußfunktionen an einen bestimmten Kontext bedeuten. Die anderen Kontexte würden nicht mehr berücksichtigt bzw. repräsentiert.
Gemäß der Erfindung und dem vorgeschlagenen Verfahren wird aufgezeichnet, in welchem Kontext ein Modellfunktions-Mixture und deren Komponenten, insbesondere eine Verteilungsfunktion oder eine Gaußfunktion, angepasst wurden. Mehrere explizite Lösungen können vorgeschlagen werden.
Bei einer besonders einfachen Lösung wird aufgezeichnet bzw. überwacht, bei welchen Wörtern oder Sprachphrasen oder dergleichen eine Anpassung durchgeführt wird bzw. auftritt. Falls das gleiche Wort, die gleiche Sprachphrase oder Äußerung innerhalb der letzten m Äußerungen, Sprachphrasen, Wörter oder dergleichen im ankommenden Sprachfluss n mal auftreten, werden diese Äußerung, Sprachphrase oder dieses Wort nicht mehr zur Anpassung des aktuellen akustischen Modells verwendet.
Bei einer zweiten Lösung ist die Stärke der Anpassung, d. h. das Gewicht, das den Einfluss der Anpassung auf die aktuelle Parameterschätzung kontrolliert, beispielsweise umgekehrt proportional oder dergleichen zu der Auftrittshäufigkeit der bestimmten Äußerung, Sprachphrase oder des Wortes innerhalb des ankommenden Sprachflusses.
Falls während der vergangenen wenigen Äußerungen, Sprachphrasen oder Wörter vom gleichen, insbesondere kontextabhängigen Phonmodell eine bestimmte Modellfunktions-Mixturekomponente, insbesondere vom gaußschen Typ angepasst werden soll und die Statistik für die Anpassung dieses gaußschen Typs (Gaussian) wiederholt berechnet wurde, werden die oben beschriebenen ersten oder zweiten Lösungen verwendet.
Angenommen, der Sprecher äußert beispielsweise hintereinander "Goethestraße", "Stettener Straße", "Hauptstraße", so würde in der letzten Äußerung die Modellfunktions-Mixturekomponente, d. h. die entsprechende Gaußfunktion, die mit dem Phonmodell von /a/ zusammenhängt, nicht mehr angepasst werden, da diese immer im gleichen Kontext "Straße" aufgetreten ist. Dagegen könnte das Phonmodell für "t" noch angepasst werden, da es in unterschiedlichen akustischen Kontexten "Goethe", "Stettener" und "Haupt" aufgetreten ist.
Im Folgenden wird das Verfahren zur Spracherkennung gemäß der Erfindung detaillierter mit Bezug zu einer schemati schen Darstellung auf Basis einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung erläutert.
1 ist ein schematisches Blockdiagramm, das die elementaren Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung zeigt.
2 ist ein schematisches Blockdiagramm, das die Ausführungsform von 1 detaillierter zeigt.
1 zeigt durch ein schematisches Blockdiagramm elementare oder grundlegende Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung.
Im ersten Schritt 11 des Erkennungs- und Anpassungsprozesses 10 von 1 wird der ankommende Sprachfluss, der aus einer Konkatenation von möglichen Sprachphrasen ..., SPj, ... aufgebaut ist, empfangen und vorverarbeitet bzw. umgewandelt in eine Sequenz von entsprechenden Signalen ..., RSj, .... Dann wird im Schritt 12 die Erkennung durchgeführt, bei der ein aktuelles akustisches Modell CAM verwendet wird, das akustische Eigenschaften auf Basis von Phonemmodellen, HMM-Modellen oder dergleichen beschreibt, die in den Erkennungsprozess des Schritts 12 durch den Schritt 16 eingefügt werden und zum Erkennungsergebnis vom Schritt 13 führen.
Im folgenden Schritt 14 werden die eintreffende Sprache vom Schritt 11, das Erkennungsergebnis vom Schritt 13 und weitere Informationen des Erkennungsprozesses vom Schritt 12 ausgewertet, um Alignmentinformation, Abgleich- oder Anordnungsinformation zu erhalten hinsichtlich des Alignments, des Abgleichs oder der Anordnung von empfangenen und/oder erkannten Sprachphrasen ..., SPj, ..., Sprachphrasenuntereinheiten ..., SPSjk, ..., Phonemen oder dergleichen. Auf Basis dieser bestimmten Alignmentinformation wird im Schritt 15 adaptionsstatistische Information in Bezug zu der Anpassung und/oder Auftrittszahlen a_j, o_j extrahiert und anschließend in den Schritten 15a und 16a in eine Modifikation des aktuellen akustischen Modells CAM eingefügt, falls die Grenzwerte t_j und u_j für a_j bzw. o_j nicht überschritten werden, d. h., die Information wird nur für eine begrenzte Anzahl von Anpassungen verwendet.
2 zeigt die Verarbeitung innerhalb der Ausführungsform von 1 detaillierter, ebenfalls durch ein schematisches Blockdiagramm.
In der Anfangs- oder Startphase der Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung wird das Verfahren 20 initialisiert, indem im Schritt 21 der Verarbeitung 20 in 2 alle Anpassungszahlen für alle Sprecher und für alle Sprachphrasen oder Wörter auf Null zurückgesetzt werden.
Im Schritt 22 von 2 wird der ankommende Sprachfluss empfangen und vorverarbeitet. Dann wird im Schritt 23 der Erkennungsprozess durchgeführt, was im Schritt 24 zu dem Erkennungsergebnis in Form einer erkannten Sprachphrase, eines Wortes oder dergleichen führt.
Anhand der im Schritt 15 in 1 gewonnenen Adaptionsstatistiken wird bestimmt, ob das bestimmte aufgetretene Wort und/oder erkannte Sprachphrase SPj, Wort oder dergleichen zur Anpassung des aktuellen akustischen Modells CAM mehr als eine gegebene Anzahl t_j, u_j mal verwendet wurde (Schritt 25). Falls die Anzahl von Verwendungen bzw. Anwendungen kleiner als ein fester Grenzwert t_j, u_j ist, werden die bestimmte Sprachphrase SPj, Wort oder derglei chen zur Anpassung des aktuellen akustischen Modells CAM verwendet, insbesondere auf der Basis von Phonemmodellen um das HMM-Modell im Schritt 26 zu modifizieren.
Schließlich wird gemäß der Einbeziehung der Sprachphrase SPj oder des in Frage stehenden Wortes die bestimmte Anpassungszahl a_j im Schritt 27 um Eins erhöht (inkrementiert), und anschließend wird die Verarbeitung zum Schritt 22 zurückgeführt, um weiteren Sprachfluss zu empfangen.
Für den Fall, dass die bestimmte Sprachphrase SPj, das Wort oder die Äußerung in Frage mehr als t_j, u_j mal in den Anpassungsprozess für das aktuelle akustische Modell CAM einbezogen wurden, geht die Verarbeitung im Schritt 25 zum Schritt 28 über, bei dem die Verarbeitung von einer Anpassung an die bestimmte aufgetretene und/oder erkannte Sprachphrase, das Wort oder die Äußerung oder dergleichen absieht. Das heißt, die Verarbeitung geht in diesem Fall vom Schritt S25 zum Schritt S28 über und es findet keine Anpassung statt. Vom Schritt 28 geht die Verarbeitung zum Schritt 32 zurück, wiederum um einen weiteren ankommenden Sprachfluss zu empfangen.
Gemäß einer weiteren Ausführungsform ist es vorteilhaft, die Grenzwerte t_j oder u_j (in 1, 2) von der gesamten oder globalen Anzahl x von Anpassungsschritten in einer Erkennungssitzung abhängig zu machen. Zusätzlich oder alternativ können a_j, o_j auf Null zurückgesetzt werden, falls die Gesamtanpassungszahl x sehr groß ist, z. B. größer als ein gegebener Grenzwert Y, wie in Schritt 29 gezeigt wird. Dieses Maß berücksichtigt die Tatsache, dass nach einer großen Zahl x von Anpassungsschritten der Beitrag eines bestimmten Worts oder Phonems im Verhältnis zu einem Fall mit einer niedrigen Zahl x nicht wichtig ist.
In jedem Fall muss x initialisiert und inkrementiert werden, wie dies in den Schritten 21 bzw. 27 gezeigt wird.

Claims

Verfahren zur Erkennung von Sprache, – wobei für den Prozess der Erkennung einer Menge von Sprachphrasen (SP1, ..., SPN) ein aktuelles akustisches Modell (CAM) verwendet wird, – wobei das aktuelle akustische Modell (CAM) während des Erkennungsprozesses in Abhängigkeit von wenigstens einem bereits erhaltenen Erkennungsergebnis angepasst wird, und – wobei der Prozess der Anpassung des aktuellen akustischen Modells (CAM) auf einer Auswertung von Sprachphraseuntereinheiten (SPS_jk) basiert, die in einer unter Bearbeitung stehenden und/oder kürzlich erkannten Sprachphrase (SP_j) enthalten sind, dadurch gekennzeichnet, dass – Anpassungszahlen (a_j) und/oder Auftrittszahlen (o_j) für jede der Sprachphrasen (SP1, ..., SPN) gezählt werden, als Anzahl, dass eine bestimmte Sprachphrase (SP_j) als Basis zur Anpassung des aktuellen akustischen Modells (CAM) verwendet wird, beziehungsweise als Anzahl von erkannten Auftritten der bestimmten Sprachphrase (SP_j) in dem empfangenen Sprachfluss und – dass beim Prozess der Anpassung des aktuellen akustischen Modells (CAM) das Maß der Anpassung basierend auf einer bestimmten Sprachphrase (SP_j) von wenigstens seiner bestimmten Anpassungszahl (a_j) und/oder Auftrittszahl (o_j) abhängig gemacht wird, insbesondere so, dass der Einfluss von häufigen Sprachphrasen (SP_j) im empfangenen Sprachfluss auf den Anpassungsprozess abgeschwächt wird.
Verfahren nach Anspruch 1, – wobei das aktuelle akustische Modell (CAM) auf einer Menge von Modellfunktions-Mixtures (MFM1, ..., MFMn) basiert, und – wobei der Anpassungsprozess wenigstens teilweise durch Transformieren der Modellfunktions-Mixtures (MFM_j) und/oder der Modellfunktions-Mixture-Komponenten (MFM_jk) und/oder durch zumindest teilweises Verändern von Beiträgen der Modellfunktions-Mixture-Komponenten (MFM_jk; mixture weigts) der Modellfunktions-Mixtures (MFM_j) durchgeführt wird.
Verfahren nach einem der vorangehenden Ansprüche, – wobei Wörter, Teilworteinheiten, Phone, Phoneme, Silben, Buchstaben und/oder Ähnliches und/oder deren Kombinationen als Sprachphrase (SP_j) und/oder als Sprachphraseuntereinheiten (SPS_jk) der aktuellen akustischen Modelle (CAM) verwendet werden, und – wobei die Sprachphrasen (SP_j) in jedem Fall Kombinationen oder Aneinanderreihungen der Sprachphraseuntereinheiten (SPS_jk) sind.
Verfahren nach einem der vorangehenden Ansprüche, wobei eine Anpassung des aktuellen akustischen Modells (CAM) wiederholt durchgeführt wird nach einer vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Erkennungsergebnissen und/oder empfangenen oder erkannten Sprachphrasen (SP_j).
Verfahren nach einem der vorangehenden Ansprüche, wobei eine Anpassung des aktuellen akustischen Modells (CAM) wiederholt durchgeführt wird nach jeder festgelegten und/oder vorgegebenen Anzahl von durchgeführten Erkennungsschritten, erhaltenen Ergebnissen und/oder empfangenen oder erkannten Sprachphrasen (SP_j), insbesondere nach jedem Erkennungsschritt/-ergebnis und/oder empfangenen/erkannten Sprachphrase (SP_j).
Verfahren nach einem der vorangehenden Ansprüche, wobei die Anzahl der durchgeführten Erkennungsschritte, erhaltenen Erkennungsergebnisse und/oder empfangenen oder erkannten Sprachphrasen (SP_j), nach denen eine Anpassung des aktuellen akustischen Modells (CAM) durchgeführt wird, während des Prozesses der Erkennung oder Anpassung bestimmt werden.
Verfahren nach einem der vorangehenden Ansprüche, wobei jede Anpassungszahl (a_j) und/oder Auftrittszahl (o_j) einer gegebenen Sprachphrase (SP_j) reduziert, verringert, vermindert und/oder auf Null zurückgesetzt wird, nach vorgegebenen abgelaufenen Zeitabschnitten, einer vorgegebenen Gesamtanzahl von Erkennungsschritten, einer vorgegebenen Gesamtanzahl von Anpassungsschritten und/oder einer vorgegebenen Gesamtanzahl von empfangenen/erkannten Sprachphra sen oder Äußerungen, insbesondere in Bezug zur letzten Inkrementierung der eindeutigen Anpassungszahl (a_j) und/oder Auftrittszahl (o_j).
Verfahren nach einem der vorangehenden Ansprüche, wobei das Anpassungsmaß in Bezug zu jeder Sprachphrase (SP_j) und/oder jeder Sprachphraseuntereinheit (SPS_jk) während des Anpassungsprozesses des aktuellen akustischen Modells (CAM) herabgesetzt wird – insbesondere streng – monoton mit der Erhöhung der Anpassungszahlen (a_j) und/oder der Auftrittszahlen (o_j) bei jedem Fall, insbesondere umgekehrt proportional.
Verfahren gemäß einem der vorangehenden Ansprüche, wobei das Anpassungsmaß festgesetzt wird in Abhängigkeit einer abgelaufenen Zeitspanne, einer Gesamtanzahl von empfangenen und/oder erkannten Sprachphrasen (SP_j), einer Gesamtanzahl von Anpassungen, die am aktuellen akustischen Modell (CAM) und/oder dergleichen durchgeführt wurden.
Verfahren gemäß einem der vorangehenden Ansprüche, wobei das Anpassungsmaß für eine bestimmte Sprachphrase (SP_j) herabgesetzt und/oder auf Null gesetzt wird, falls die zugewiesene Anpassungszahl (a_j) und/oder Auftrittszahl (o_j) eine vorgegebene Schwellwertanzahl (tj) überschreitet.
Verfahren gemäß Anspruch 10, wobei die Schwellwertanzahl (t_j) für jede der Sprachphrasen (SP_j) unabhängig festgelegt wird.
Verfahren gemäß Anspruch 10 oder 11, wobei die Schwellwertanzahlen (t_j) vorbestimmt sind, festgelegt sind und/oder während des Prozesses der Erkennung und/oder der Anpassung verändert und variiert werden.
Verfahren gemäß einem der vorangehenden Ansprüche, wobei Modellfunktions-Mixtures (MFM_j) für das aktuelle akustische Modell (CAM) verwendet werden, welche auf Verteilungsfunktionen oder dergleichen basieren, insbesondere auf Funktionen vom Gauss'schen Typ oder dergleichen.