DE10209324C1

DE10209324C1 - Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen

Info

Publication number: DE10209324C1
Application number: DE10209324A
Authority: DE
Inventors: Udo Haiber; Fritz Class; Alfred Kaltenmeier
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2002-03-02
Filing date: 2002-03-02
Publication date: 2002-10-31
Anticipated expiration: 2022-03-03
Also published as: EP1345208A2; EP1345208A3; US20030187645A1; JP2003263193A

Abstract

In vielen realen Applikationen, wie z. B. "Sprachbedienung im Kraftfahrzeug", stellt sich das Problem, dass die Benutzer relativ häufig wechseln. Wenn nun für jeden (oder auch nur einige) Benutzer sprecherspezifische Datensätze angelegt wurden, stellt sich die Frage, welches der richtige Datensatz für den aktuellen Benutzer ist. Dies könnte natürlich durch Abfragen beim System-Neustart erfolgen. Abgesehen davon, dass dies eine sehr umständliche und nicht sehr benutzerfreundliche Methode ist, kommt es auch häufig vor, dass der Sprecher wechselt, während das System aktiviert ist und so keine neue Vorinitialisierung möglich ist. Es ist also notwendig, ein Verfahren zu finden, welches es ermöglicht, automatisch zur Laufzeit ein System zu erkennen, ob der Sprecher wechselte bzw. welcher (sprecherabhängige) Datensatz für den aktuellen Sprecher der richtige ist. Dies wird mittels eines Spracherkennungssystems erreicht, welches auf sogenannten Semi-Continuous Hidden Markov Modellen (SCHMM) basiert. Im Zusammenhang mit der Klassifikation auf Basis der Semi-Continuous Hidden Markov Modelle werden Codebücher erstellt, welche aus n-dimensionalen Normalverteilungen bestehen. Dabei wird jede Normalverteilung durch ihren Mittelwertvektor mu und ihre Kovarianzmatrix K repräsentiert. Im Rahmen einer Sprecheradaption werden in der Regel die Parameter dieser Normalverteilungen, also Mittelwerte und/oder Kovarianzmatrizen, sprecherspezifisch verändert. Dieser sprecherspezifische Datensatz ...

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.

Die automatische Spracherkennung wird heutzutage in einfa chen Versionen schon in Produkten eingesetzt, z. B. zur Steuerung und Bedienung von Geräten und Maschinen oder te lefonbasierten Auskunftssystemen. Diese Spracherkenner sind in der Regel im Prinzip für sprecherunabhängige Erkennung ausgelegt, d. h. jeder beliebige Benutzer kann ohne expli zite Trainingsphase das System benutzen und die zulässigen Wörter bzw. Kommandos entsprechen. Diese Sprecherunabhän gigkeit wird erreicht, indem man beim Grundtraining des Systems im Labor sehr viele Sprachstichproben von vielen Sprechern und großem Vokabular zugrunde legt.

Darüber hinaus werden Methoden eingesetzt das Spracherken nungssystem auch online während einer aktuellen Anwendung an die speziellen Bedingungen hinsichtlich Sprecher und Equipment (Mikrofon, Verstärkern, Raum) zu adaptieren. Diese Adaptionsmethoden können sowohl überwacht als auch unüberwacht eingesetzt werden.

Unüberwachte Adaption bedeutet, dass sich das Erkennungs system unbemerkt vom Benutzer ständig an die aktuelle Si tuation adaptiert. Dafür werden in der Regel Schleppfenster eingesetzt, die gleitend über der Zeit bestimmte Parameter des Systems nachführen. Die Zeitkonstante des Schleppfen sters (häufig auch Vergessensrate genannt) bestimmt die Adaptionsgeschwindigkeit.

Bei der Überwachten Adaption muss ein Benutzer explizit in einer Trainingsphase gezielt Wörter bzw. Sätze nachspre chen, die ihm vom System (akustisch oder optisch) vorge geben werden. Aus diesen Eingaben (Sprachproben) werden sprecherspezifische Parameter im System generiert bzw. nachoptimiert. Die Methode der überwachten Adaption wird häufig bei solchen Sprechern angewandt, für die das spre cherunabhängige Basissystem sehr schlechte Erkennungsraten hat und für die auch mit den Methoden der unüberwachten Adaption keine deutliche Verbesserung der Erkennungslei stung erreichbar ist. Diese überwachte Adaption soll natür lich nur einmal erfolgen und der entsprechende sprecherspe zifische Datensatz jedesmal verwendet werden, wenn dieser spezielle Benutzer das System bedient.

Bei beiden Methoden, der überwachten als auch der unüber wachten Adaptation, werden sprecherspezifische Parametersätze zusätzlich zu den Basisparametern abgespeichert. In vielen realen Applikation, wie z. B. "Sprachbedienung im Kraftfahrzeug", stellt sich das Problem, dass die Benutzer relativ häufig wechseln. Wenn nun für jeden (oder auch nur einige) Benutzer sprecherspezifische Datensätze angelegt wurden, stellt sich die Frage, welches der richtige Daten satz für den aktuellen Benutzer ist. Dies könnte natürlich durch Abfragen beim System-Neustart erfolgen. Abgesehen da von, dass dies eine sehr umständliche und nicht sehr benut zerfreundliche Methode ist, kommt es auch häufig vor, dass der Sprecher wechselt, während das System aktiviert ist und so keine neue Vorinitialisierung möglich ist.

Aufgabe der Erfindung ist es, ein Verfahren zu finden, wel ches es ermöglicht, automatisch zur Laufzeit des Systems zu erkennen, ob der Sprecher wechselte, bzw. welcher (spre cherabhängige) Datensatz für den aktuellen Sprecher der richtige ist.

Die Aufgabe wird durch ein Spracherkennungssystem gelöst, welches auf sogenannten Semi-Continuous Hidden Markov Modellen (SCHMM) basiert (Huang, Xuedong D., Y. Ariki und M. A. Jack Hidden Markov models for speech recognition, Edinburgh information technology series, Edinburgh University Press, Schottland, 1990). In Zusammenhang mit der Klassifikation auf Basis der Semi-Continuous Hidden Markov Modelle werden Codebücher erstellt, welche aus n- dimensionalen Normalverteilungen bestehen. Dabei wird jede Normalverteilung durch ihren Mittelwertvektor µ und ihre Kovarianzmatrix K repräsentiert. Im Rahmen einer Sprecher adaption werden in der Regel die Parameter dieser Normal verteilungen, also Mittelwerte und/oder Kovarianzmatrizen, sprecherspezifisch verändert. Dieser sprecherspezifische Datensatz wird dann zusätzlich zum sogenannten Baseline- Datensatz, welcher einem sprecher-unabhängigen Codebuch entspricht, abgespeichert. In erfinderischer Weise korre liert das Spracherkennungssystem das Sprachsignal mittels Vektorquantisierung mit dem sprecher-unabhängigen und den sprecher-abhängigen Codebüchern. Auf Grundlage dieser Kor relation ist es dem Erkennungssystem sodann möglich das Sprachsignal einem dieser Codebücher zuzuordnen und somit die Identität eines Sprechers festzustellen.

Auf diese vorteilhafte Verfahrensweise erlaubt es die Er findung, einen Sprecherwechsel ausschließlich am Sprachsi gnal selbst zu detektieren, ohne auf die Verwendung von aus dem Stand der Technik bekannten Methoden zur Sprechererken nung zurückgreifen zu müssen. Eine derart naheliegende Lö sung der Aufgabe hätte den Nachteil, dass infolge der Spre chererkennung bzw. Sprecherverifikation ein separates Er kennungssystem erforderlich wäre, welches parallel zum Spracherkennungssystem aktiv sein müßte. Ein solches zwei tes System ist jedoch aus Aufwands- bzw. Kostengründen in manchen Systemen nicht praktikabel.

Der vorliegende Erfindungsgegenstand beschreibt also eine Methode, mit welcher direkt mittels vom Sprachsignal abge leiteten Parametern erkannt werden kann, ob ein Sprecher wechsel vorliegt. Im selben Schritt wird es in vorteilhaf ter Weise auch möglich festzustellen, welcher gespeicherte Satz von Parametern (Codebuch) des Klassifikators für die Spracherkennung bei dem aktuellen Sprecher optimal ist.

Bei den oben erwähnten Methoden zur Sprecheradaption werden gewinnbringend in den sprecher-spezifischen Codebüchern die Parameter der Normalverteilungen, also Mittelwerte und/oder Kovarianzmatrizen, sprecher-spezifisch gegenüber dem spre cher unabhängigen Codebuch verändert. Dieser sprecherspe zifische Datensatz (sprecher-abhängiges Codebuch) wird dann zusätzlich zum sog. Baseline-Datensatz (sprecher-unabhängi ges Codebuch) abgespeichert.

In der Anwendungsphase dieses Erkennungssystems findet eine sog. Vektorquantisierung statt. Dies ist eine Klassifika tion von Merkmalsvektoren, die aus dem Sprachsignal berech net werden, an den Normalverteilungen. Diese Klassifikation liefert "Wahrscheinlichkeitswerte" p(x, k) eines Merkmals vektors für jede Normalverteilung des Codebuchs.

Anhand des nachfolgenden Beispielszenarios wird das Prinzip des erfinderischen Verfahrens im Detail erläutert.

Dabei zeigt die Figur zwei beispielhafte Codebücher, wie sie zur Erkennung von Sprecherwechseln herangezogen werden könnten.

Das sprecher-unabhängige Codebuch 1 in der Figur besteht aus jeweils 4 Normalverteilungen ("Standard-Codebuch") mit den Parametern µ₁ . . ., µ₄ (Mittelwertvektoren) und den zu gehörigen Kovarianzmatrizen K₁ . . . K₄. In einer Adaptions phase trainiert nun ein Sprecher das System nach. Dabei werden die Mittelwertvektoren und Kovarianzmatrizen des Standard-Codebuchs modifiziert und es entsteht ein spre cher abhängiges Codebuch 2 mit den neuen sprecher-spezifi schen Mittelwerten µ₁' . . ., µ₄'. Dieses nachtrainierte Codebuch 2 (bzw. nur die neuen Mittelwertvektoren) werden zusätzlich gespeichert.

In der Anwendungsphase des Erkennungssystems liegen bei spielsweise nun 2 Codebücher vor: das Standard-Codebuch 1 für sprecher-unabhängige Erkennung, sowie das für einen speziellen Sprecher nach trainierte Codebuch 2; prinzipiell können natürlich beliebig viele nachtrainierte Codebücher vorliegen, ohne dass dies etwas an dem erfinderischen Ver fahren änderte. Für jeden ankommenden Merkmalsvektor X aus dem Sprachsignal wird nun eine Klassifikation (sog. "Vek torquantisierung") an allen Normalverteilungen beider Code bücher durchgeführt. In unserem Beispiel erhalten wir für das Standard-Codebuch 1 die Werte p(X, 1) = 0.2 (Wahrschein lichkeit der ersten Normalverteilung), p(X, 2) = 0.6, p(X, 3) = 0.1, p(X, 4) = 0.1. Entsprechende Werte ergeben sich für das nach trainierte Codebuch 2, beispielhaft p(X, 1) = 0.3, p(X, 2) = 0.4, p(X, 3) = 0.1 sowie p(X, 4) = 0.2.

Üblicherweise wird ein Schwellwert eingesetzt, um sehr kleine Wahrscheinlichkeitswerte auszuschließen. Im vorlieg enden Beispiel sei dieser Schwellwert 0.15. Das bedeutet, dass hier nur die Wahrscheinlichkeitswerte p(X, 1) = 0.2 und p(X, 2) = 0.6 des Standard-Codebuchs 1 sowie p(X, 1) = 0.3, p(X, 2) = 0.4 und p(X, 4) = 0.2 des nach trainierten Codebuchs 2 über dem Schwellwert liegen und für die weitere Betrachtung relevant sind. Als nächster Schritt wird eine Normierung auf "Summe = 1" durchgeführt:

N ist die Anzahl der Wahrscheinlichkeiten, die über dem Schwellwert liegen; d. h. in unserem Beispiel ist N = 2 für das Standard-Codebuch 1 und N = 3 für das nachtrainierte Codebuch 2 und k bezeichnet die Normalverteilung innerhalb der Codebücher denen der entsprechende Wahrscheinlichkeits wert zuzuordnen ist. Der erste Teil der Gleichung ergibt den sogenannten Normierungsfaktor F gemäß

Für jedes Codebuch ergibt sich somit ein spezieller Normie rungsfaktor, in unserem Beispiel ist.
F_stndrd = 1.25 für das Codebuch 1
F_nachtr = 1.11 für das Codebuch 2

Der Normierungsfaktor F wird nun folgendermaßen interpre tiert: je näher ein Merkmalsvektor im Mittel den Normalver teilungen eines Codebuchs ist, das heißt je größer die Wahrscheinlichkeitswerte für diesen Vektor sind, desto eher entspricht dieses Codebuch dem aktuellen Sprecher. Aus Gleichung (2) ist ersichtlich, dass der Normierungsfaktor um so kleiner wird, je größer die Wahrscheinlichkeitswerte sind. In unserem Beispiel würde sich das Verfahren für den nachtrainierten Sprecher entscheiden.

Das Entscheidungskriterium für einen Sprecherwechsel ist also der Normierungsfaktor nach Gleichung (2).

Verschiedene Ausprägungen der Erfindung sind nun möglich:

- Entscheidung für jeden einzelnen Merkmalsvektor während des gesamten Erkennungsbetriebes, wobei in gewinnbrin gender Weise die Entscheidungen in Folge so schnell als möglich getroffen werden, so dass noch ein Betrieb des Verfahrens in Echtzeit möglich ist, oder
- Entscheidung nur für die erste Äußerung (Wort, Satz) ei nes Sprechers; danach wird die Entscheidung eingefroren; d. h. für einen gewissen Zeitraum, beispielsweise bis eine signifikante Sprechpause eintritt, wird nur das der ersten Äußerung zugeordnete Codebuch weiterverwendet.

Claims

1. Verfahren zur automatischen Detektion von Sprecher wechseln in Spracherkennungssystemen, welche auf Basis von Hidden Markov Modellen arbeiten, und über ein sprecher-un abhängiges Codebuch verfügen, welche aus n-dimensionalen Normalverteilungen besteht, dadurch gekennzeichnet,
dass neben dem sprecher-unabhängigen Codebuch, wenigstens ein sprecher-abhängiges Codebuch existiert,
und dass das Spracherkennungssystem ein Sprachsignal mit tels Vektorquantisierung mit dem sprecher-unabhängigen und den sprecher-abhängigen Codebüchern korreliert, und auf Grundlage dieser Korrelation auf die Identität eines Spre chers entscheidet.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass von den aus der Vektorquantisierung resultierenden Wahrscheinlichkeitswerten nur diejenigen zur Korrelation herangezogen werden, welche einen bestimmten, vorgebbaren Schwellwert überschreiten.

3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass vor der Korrelation aus den aus der Vektorquantisierung resultierenden Wahrscheinlichkeitswer ten für jedes der Codebücher ein Normierungsfaktor F berechnet wird, dergestalt dass gilt:

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass dasjenige Codebuch dem Sprachsignal als zugehörig zu geordnet wird, welches den bezüglich dieses Sprachsignals kleinsten Normierungsfaktor F aufweist.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Verfahren kontinuierlich, nach Möglichkeit in Echtzeit, das Sprachsignal auf Sprecherwech sel hin untersucht.

6. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Verfahren nur in Bezug auf einen Teil einer Sequenz des Sprachsignals eine Sprecheridentifi kation vornimmt, und die daraus resultierende Wahl für die gesamte Sequenz aufrecht erhält.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass sich diese Teilsequenz auf den Anfang eines Wortes oder auf den Anfang eines Satzes bezieht.