DE69924596T2

DE69924596T2 - Auswahl akustischer Modelle mittels Sprecherverifizierung

Info

Publication number: DE69924596T2
Application number: DE1999624596
Authority: DE
Inventors: Silke Goronzy; Peter Buchner; Ralf Kompe
Original assignee: Sony International Europe GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 1999-01-20
Filing date: 1999-01-20
Publication date: 2006-02-09
Anticipated expiration: 2019-01-21
Also published as: EP1022725A1; DE69924596D1; JP2000214880A; EP1022725B1

Description

Diese Erfindung betrifft ein Verfahren und eine Vorrichtung zur Durchführung automatischer Spracherkennung, insbesondere ein Verfahren und eine Vorrichtung zum Erhöhen der Erkennungsrate bei Spracherkennungssystemen, welche von unterschiedlichen Benutzern verwendet werden.
Spracherkenner gemäß dem Stand der Technik bestehen aus einem Satz von statistischen Verteilungen, welche die akustischen Eigenschaften von bestimmten Sprachsegmenten modifizieren. Diese akustischen Eigenschaften sind in Merkmalsvektoren kodiert. Als ein Beispiel kann eine Gauss-Verteilung für jedes Phonem verwendet werden. Diese Verteilungen sind Zuständen zugeordnet. Ein (stochastisches) Zustandsübergangsnetzwerk (gewöhnlich Hidden-Markov-Modelle) definiert die Wahrscheinlichkeiten für Sequenzen bzw. Folgen von Zuständen und Sequenzen bzw. Folgen von Merkmalsvektoren. Das Durchlaufen eines Zustandes verbraucht einen Merkmalsvektor, welcher einen Rahmen (Englisch: Frame) von beispielsweise 10 ms des Sprachsignals abdeckt.
Die stochastischen Parameter eines solchen Erkenners werden trainiert unter Verwendung einer großen Menge von Sprachdaten, entweder eines Einzelsprechers, was zu einem sprecher-abhängigen-(SD-)System führt, oder von vielen Sprechern, was zu einem sprecher-unabhängigen-(SI-)System führt.
Sprecheranpassung (SA) ist ein weithin verwendetes Verfahren zur Erhöhung der Erkennungsraten von SI-Systemen. Sprecher-abhängige Systeme gemäß dem Stand der Technik ergeben wesentlich höhere Erkennungsraten als sprecher-unabhängige Systeme. Für viele Anwendungen ist es jedoch nicht möglich bzw. geeignet, genügend Daten eines Einzelsprechers bzw. einzelnen Sprechers zu sammeln, um das System zu trainieren. Für den Fall eines Endverbraucher- bzw. Konsumentenendgeräts kann dies sogar nicht gewollt sein. Um dieses Missverhältnis bei den Erkennungsraten zu bewälti gen, werden weithin Sprecheranpassungsalgorithmen verwendet, um Erkennungsraten zu erreichen, welche denjenigen von sprecher-abhängigen Systemen nahe kommen, jedoch nur einen Bruchteil von sprecher-abhängigen Daten verwenden, verglichen mit sprecher-abhängigen Systemen. Diese Systeme verwenden anfänglich sprecher-unabhängige Modelle, welche anschließend angepasst werden, so dass sie besser an die Sprecher-Akustiken angepasst sind.
Gewöhnlich wird die Anpassung im Überwacht-Modus (Englisch: supervised mode) durchgeführt. Das heißt, dass die gesprochenen Wörter bekannt sind und der Erkenner gezwungen wird, sie zu erkennen. Hierdurch wird eine Zeitausrichtung (alignment) der Segment-spezifischen Verteilungen erreicht. Die Nichtübereinstimmung zwischen den tatsächlichen Merkmalsvektoren und den Parametern der entsprechenden Verteilung bildet die Basis für die Anpassung. Die Überwacht-Anpassung benötigt eine Anpassungssitzung, welche für jeden neuen Sprecher durchgeführt werden muss, bevor er/sie den Erkenner tatsächlich verwenden kann.
Gewöhnlich modifizieren Sprecheranpassungstechniken die Parameter der Hidden-Markov-Modelle, so dass sie besser an die akustischen Charakteristiken des neuen Sprechers angepasst sind. Normalerweise muss ein Sprecher bei der Batch- oder Off-Line-Anpassung einen vorher festgelegten Text lesen, bevor er/sie das System zur Erkennung verwenden kann, welcher anschließend verarbeitet wird, um die Anpassung durchzuführen. Sobald dies abgeschlossen ist, kann das System zur Erkennung verwendet werden. Dieser Modus wird auch als Überwacht-Anpassung bzw. Supervised-Anpassung bezeichnet, da der Text dem System bekannt war und eine erzwungene Ausrichtung bzw. Zeitausrichtung (Englisch: forced alignment) des entsprechenden Sprachsignals zu den Modellen entsprechend dem Text durchgeführt wird und für die Anpassung verwendet wird.
Ein nicht-überwachtes oder On-Line-Verfahren ist jedoch für die meisten Arten von Verbraucher-Endgeräten besser geeignet. In diesem Fall findet die Anpassung statt, während das System in Verwendung ist. Die erkannte Äußerung wird zur Anpassung verwendet und die modifizierten bzw. geänderten Modelle werden zur Erkennung der nächsten Äußerung verwendet und so fort. In diesem Fall ist der gesprochene Text dem System unbekannt, und es werden stattdessen die Wörter bzw. das Wort, welche erkannt wurden bzw. welches erkannt wurde, verwendet.
Eine Anpassung eines sprecher-angepassten Modellsatzes kann wiederholt durchgeführt werden zur weiteren Verbesserung der Leistung für bestimmte Sprecher. Es gibt mehrere bestehende Verfahren zur Sprecheranpassung, z. B. Maximum-A-Posteriori-Anpassung (MAP) oder Maximum-Likelihood-Linear-Regression-(MLLR-)Anpassung.
Diese Sprecheranpassungs-Spracherkennungssysteme, besonders Systeme, welche mit nicht-überwachter Anpassung arbeiten, sind stets nur an einen Sprecher angepasst. Daher muss, falls sich der Sprecher ändert, die Anpassung wieder bzw. neugestartet werden (unter Verwendung der SI-Modelle) für diesen neuen Sprecher bevor er/sie das System mit einer verbesserten Erkennungsrate verwenden kann.
Sprecheranpassungstechniken werden weithin in vielen Arten von Spracherkennungssystemen verwendet, beispielsweise Diktiersystemen. In einigen dieser Systeme ist es möglich, sprecher-angepasste Modelle zu speichern, so dass unterschiedliche Sprecher das System mit unterschiedlichen sprecher-angepassten Modellen verwenden können. Jedoch muss jedes Mal von Hand festgelegt werden, welches der angepassten Modelle verwendet werden soll.
Andererseits ist es bekannt, dass Sprecherverifikations- und Identifikationstechniken für Zugangskontrollen von beispielsweise Gebäuden oder Systemen verwendet werden.
In „Integration of speaker and speech recognition systems" von D. A. Reynolds und L. P. Heck, International Conference on Acoustics, Speech and Signal Processing, 1991, ist eine Kombination eines Hochleistungssprecher-Identifikationssystems und eines Isoliert-Wort-Erkenners vorgestellt. Dabei bestimmt das Front- und Text-unabhängige Sprecheridentifikationssystem den wahrscheinlichsten Sprecher für ein Eingabewort. Die Sprecheridentität wird anschließend verwendet zum Auswählen des Referenzwortmodells für den Spracherkenner. Für einen offenen Satz von Sprechern verhält sich das Sprecherkennungssystem als ein „Sprecher-Quantisierer", welches den unbekannten Sprecher mit einem akustisch ähnlichen Sprecher assoziiert.
In WO 96/22514 wird ein Verfahren und eine Vorrichtung zur automatischen Spracherkennung vorgestellt, welches sich an einen bestimmten Sprecher anpasst unter Verwendung von Anpassungsdaten zum Entwickeln einer Transformation durch welche sprecher-unabhängige Modelle in sprecher-abhängige Modelle transformiert bzw. umgewandelt werden. Die sprecher-angepassten Modelle werden anschließend für die Spracherkennung verwendet.
Ein weiteres Dokument zum Stand der Technik ist „On-Line Bayes adaption of SCHMM parameters for speech recognition" von Qiang Huo und Chorkin Chan, International Conference on Acoustics, Speech and Signal Processing, 1995. In diesem Dokument zum Stand der Technik wird eine On-Line-Anpassung von semi-kontinuierlichen Hidden-Markov-Modellen (SCHMM) untersucht.
Es ist daher eine der vorliegenden Erfindung zugrunde liegende Aufgabe, ein Verfahren und eine Vorrichtung zur Sprecheranpassung anzugeben, welche die oben beschriebenen Probleme überwinden.
Das erfindungsgemäße Verfahren ist im unabhängigen Anspruch 1 angegeben. Bevorzugte Ausführungsformen sind in entsprechenden folgenden abhängigen Ansprüchen definiert.
Wie oben erwähnt, muss die Anpassung gemäß dem Stand der Technik neu gestartet werden, unter Verwendung der sprecher-unabhängigen(SI-)Modelle, falls eine Änderung des Sprechers vorliegt.
Bei einer Haus- bzw. Zuhause- oder Auto-Umgebung wird eine Änderung des Sprechers sehr häufig auftreten, es wird jedoch ein mehr oder weniger unveränderlicher Satz von Sprechern vorliegen, beispielsweise die Mitglieder einer Familie. Es ist somit nicht besonders sinnvoll, die Anpassung jedes Mal von Neuem zu starten, jedes Mal, wenn ein Sprecher beginnt, das System zu verwenden, und alle vorherigen Anpassungen an bestimmte Sprecher zu verwerfen.
Gemäß der vorliegenden Erfindung erkennt das System andererseits den Sprecher, und, falls eine Anpassung für diesen Sprecher bereits durchgeführt wurde, werden die bereits bestehenden Modelle zur weiteren Anpassung verwendet. Sprecherverifikationstechniken werden verwendet zur Erkennung, wer spricht.
Gemäß der vorliegenden Erfindung wird diese Änderung des Sprechers automatisch detektiert. Daher startet, bei einem Netzwerksystem, welches tatsächlich von den gleichen Personen verwendet wird, jedoch mit einer häufigen Änderung zwischen diesen, das Spracherkennungssystem gemäß der vorliegenden Erfindung die Anpassung an einen unterschiedlichen Sprecher nicht wiederholt, jedes Mal, wenn sich der Sprecher ändert, sondern es überprüft zuerst die Identität des Sprechers, so dass das System zu dem angepassten Modellsatz für diesen bestimmten Sprecher umschalten kann, falls dieses existiert. In diesem Fall wird der Modellsatz gespeichert und für die Erkennung und weitere Anpassung verwendet. Zusammen mit dem sprecher-angepassten Modellsatz werden die statistischen Hyper-Parameter, welche für die Anpassung nötig sind, gespeichert, so dass die Anpassung fortfahren kann und nicht wieder gestartet bzw. neu gestartet werden muss, wenn der gleiche Sprecher das System wiederholt verwendet. Solche Hyper-Parameter können beispielsweise Gewichte sein, die die Anpassungsgeschwindigkeit bestimmen, zur Anpassung eines bestimmten sprecher-angepassten Modellsatzes an den entsprechenden Sprecher. Falls kein Modellsatz für diesen bestimmten Sprecher existiert bzw. verfügbar ist, wird ein neuer aufgebaut unter Verwendung einer Anpassung, welche mit den SI-Modellen beginnt.
Das Verfahren und die Vorrichtung gemäß der vorliegenden Erfindung werden besser verstanden anhand der folgenden detaillierten Beschreibung einer beispielhaften Ausführungsform in Verbindung mit den angehängten Figuren, wobei:
1 ein Spracherkennungssystem gemäß der vorliegenden Erfindung unter Verwendung der Sprecheranpassung und automatischen Identifikation des Sprechers zeigt; und
2 den Verifikations- und Anpassungsablauf, welcher gemäß der vorliegenden Erfindung durchgeführt wird, zeigt.
1 zeigt nur den Teil des automatischen Spracherkennungssystems gemäß der vorliegenden Erfindung, welcher für die Sprecheranpassung und die automatische Identifikation des Sprechers verwendet wird.
Das analoge Sprachsignal, welches durch ein Mikrofon 1 generiert wurde, wird in einer A/D-Konvertierungsstufe 2 in ein digitales Signal konvertiert bevor eine Merkmalsextraktion durchgeführt wird durch ein Merkmalsextrahierungsmodul 3 zum Erhalten eines Merkmalsvektors, beispielsweise alle 10 ms. Dieser Merkmalsvektor wird einem Verifikationsmodul 4 und einem Erkennungsmodul 5 zugeführt. Im Verifikationsmodul 4 wird eine automatische Identifikation des Sprechers durchgeführt, wie oben beschrieben. Im Erkennungsmodul 5 wird die Erkennung der gesprochenen Äußerung durchgeführt auf Basis der extrahierten Merkmalsvektoren und einem Satz von HMM-Modellen. Das Erkennungsmodul 5 führt das Erkennungsergebnis ebenso einem Anpassungsmodul 6 zu, welches einen bestimmten HMM-Modellsatz an einen bestimmten Sprecher anpassen kann.
Der HMM-Modellsatz, auf welchen durch das Erkennungsmodul 5 oder das Anpassungsmodell 6 zugegriffen werden soll oder welcher von diesen Modulen angepasst werden soll, wird durch das Verifikationsmodul 4 aus einem sprecher-unabhängigen Modellsatz oder einem oder mehreren Sätzen von sprecher-angepassten Modellsätzen ausgewählt, welche entsprechend an unterschiedliche individuelle Sprecher angepasst sind. Diese unterschiedlichen Modellsätze sind bzw. werden in Speichern 7, 8, 9 und 10 gespeichert und via einem Schalter 11 ausgewählt, dessen unveränderlicher Anschluss mit dem Erkennungsmodul 5 und dem Anpassungsmodul 6 verbunden ist, und dessen beweglicher Anschluss in Abhängigkeit eines Steuersignals, welches vom Verifikationsmodul 4 empfangen wird, mit einem der zuvor beschriebenen Modellsätze verbunden ist bzw. wird.
Es ist auch möglich, dass die sprecher-angepassten Modellsätze nicht an individuelle Sprecher angepasst sind bzw. werden, sondern an individuelle Gruppen von Sprechern, wie beispielsweise an Deutsche, britische Leute, Englisch-sprechende Deutsche, amerikanische Leute usw. oder an mit unterschiedlichen Dialekten sprechende Leute. Diese Gruppen können auch automatisch identifiziert werden in Übereinstimmung mit weithin bekannten Sprach- oder Dialekt-Identifikationsalgorithmen, welche direkt auf bzw. mit dem Sprachsignal arbeiten.
Selbstverständlich kann anstelle des Schalters 11 eine unterschiedliche Lösung mit der gleichen Funktion gewählt werden.
2 zeigt den Verifikations- und Anpassungsablauf, welcher in dem Erkennungssystem gemäß der vorliegenden Erfindung durchgeführt wird. In einem ersten Schritt S1 wird eine gesprochene Äußerung eines Benutzers empfangen, A/D-konvertiert und weiterverarbeitet zum Extrahieren der Merkmalsvektoren. Daraufhin wird in einem Schritt S2 überprüft, ob ein neuer Sprecher spricht oder nicht. Falls ein neuer Sprecher spricht, wird im Schritt S3 überprüft, ob ein angepasster Modellsatz für diesen Sprecher bereits existiert oder nicht. Falls ein angepasster Modellsatz bereits existiert, wird dieser Modellsatz für die weitere Anpassung in einem Schritt S4 verwendet, worauf die nächste gesprochene Äußerung im Schritt S1 verarbeitet wird und der gesamte Ablauf damit wiederholt wird.
Falls im Schritt S3 kein angepasster Modellsatz existiert, wird im Schritt S6 die Anpassung mit dem sprecher-unabhängigen Modell gestartet bzw. begonnen und ein neuer Modellsatz (sprecher-angepasst) wird dem System hinzugefügt, worauf die nächste Äußerung im Schritt S1 verarbeitet wird und der gesamte Ablauf mit dieser nächsten Äußerung wiederholt wird. Falls im Schritt S2 bestimmt wird, dass kein neuer Sprecher spricht, wird die Anpassung durchgeführt mit dem aktuellen Modellsatz im Schritt S5, worauf die nächste bzw. folgende gesprochene Äußerung im Schritt S1 verarbeitet wird und der gesamte Ablauf wird wiederholt mit dieser nächsten Äußerung.

Claims

Verfahren zum Durchführen einer automatischen Spracherkennung, gekennzeichnet durch – automatisches Detektieren einer Änderung des Sprechers; – Identifizieren eines Sprechers; und – Verwenden eines individuellen Modellsatzes, welcher angepasst ist an den identifizierten Sprecher, für den Spracherkennungsablauf, falls der individuelle Modellsatz verfügbar ist, – ansonsten, Neuerzeugen eines solchen an einen individuellen Sprecher angepassten Modellsatzes für den Sprecher, und – Hinzufügen eines entsprechenden neuen Modellsatzes zu dem System; – wobei der neu erzeugte an einen individuellen Sprecher angepasste Modellsatz auf Basis eines sprecher-unabhängigen Modells generiert wird.
Verfahren gemäß Anspruch 1, gekennzeichnet durch – Umschalten zu einem angepassten individuellen Modellsatz für den identifizierten Sprecher, falls dieser Modellsatz existiert, und – weiteres Anpassen des entsprechenden angepassten individuellen Modellsatzes für den identifizierten Sprecher.
Verfahren gemäß Anspruch 1 oder 2, gekennzeichnet durch – Speichern von Hyper-Parametern zusammen mit dem individuellen Modellsatz für einen bestimmten Sprecher, wobei die Hyper-Parameter notwendig sind zur Anpassung, so dass die Anpassung fortfahren kann und nicht wiedergestartet werden muss, wenn der gleiche Sprecher das System wieder verwendet, – Anpassen des an einen individuellen Sprecher angepassten Modellsatzes auf Basis von Hyper-Parametern des entsprechenden Sprechers.
Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, dass – die Hyper-Parameter Gewichte umfassen, die die Anpassungsgeschwindigkeit festlegen zur Anpassung eines bestimmten individuellen Modellsatzes an den entsprechenden Sprecher.
Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass ein an einen individuellen Sprecher angepasster Modellsatz auf Basis von Äußerungen des entsprechenden Sprechers angepasst wird.
Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Spracherkennung auf Basis von Hidden-Markov-Modellen durchgeführt wird.