-
Diese
Erfindung betrifft ein Verfahren und eine Vorrichtung zur Durchführung automatischer Spracherkennung,
insbesondere ein Verfahren und eine Vorrichtung zum Erhöhen der
Erkennungsrate bei Spracherkennungssystemen, welche von unterschiedlichen
Benutzern verwendet werden.
-
Spracherkenner
gemäß dem Stand
der Technik bestehen aus einem Satz von statistischen Verteilungen,
welche die akustischen Eigenschaften von bestimmten Sprachsegmenten
modifizieren. Diese akustischen Eigenschaften sind in Merkmalsvektoren
kodiert. Als ein Beispiel kann eine Gauss-Verteilung für jedes
Phonem verwendet werden. Diese Verteilungen sind Zuständen zugeordnet.
Ein (stochastisches) Zustandsübergangsnetzwerk
(gewöhnlich
Hidden-Markov-Modelle) definiert die Wahrscheinlichkeiten für Sequenzen
bzw. Folgen von Zuständen
und Sequenzen bzw. Folgen von Merkmalsvektoren. Das Durchlaufen
eines Zustandes verbraucht einen Merkmalsvektor, welcher einen Rahmen
(Englisch: Frame) von beispielsweise 10 ms des Sprachsignals abdeckt.
-
Die
stochastischen Parameter eines solchen Erkenners werden trainiert
unter Verwendung einer großen
Menge von Sprachdaten, entweder eines Einzelsprechers, was zu einem
sprecher-abhängigen-(SD-)System
führt,
oder von vielen Sprechern, was zu einem sprecher-unabhängigen-(SI-)System führt.
-
Sprecheranpassung
(SA) ist ein weithin verwendetes Verfahren zur Erhöhung der
Erkennungsraten von SI-Systemen. Sprecher-abhängige Systeme gemäß dem Stand
der Technik ergeben wesentlich höhere
Erkennungsraten als sprecher-unabhängige Systeme. Für viele
Anwendungen ist es jedoch nicht möglich bzw. geeignet, genügend Daten
eines Einzelsprechers bzw. einzelnen Sprechers zu sammeln, um das
System zu trainieren. Für
den Fall eines Endverbraucher- bzw. Konsumentenendgeräts kann
dies sogar nicht gewollt sein. Um dieses Missverhältnis bei
den Erkennungsraten zu bewälti gen, werden
weithin Sprecheranpassungsalgorithmen verwendet, um Erkennungsraten
zu erreichen, welche denjenigen von sprecher-abhängigen Systemen nahe kommen,
jedoch nur einen Bruchteil von sprecher-abhängigen Daten verwenden, verglichen
mit sprecher-abhängigen
Systemen. Diese Systeme verwenden anfänglich sprecher-unabhängige Modelle, welche
anschließend
angepasst werden, so dass sie besser an die Sprecher-Akustiken angepasst
sind.
-
Gewöhnlich wird
die Anpassung im Überwacht-Modus
(Englisch: supervised mode) durchgeführt. Das heißt, dass
die gesprochenen Wörter
bekannt sind und der Erkenner gezwungen wird, sie zu erkennen. Hierdurch
wird eine Zeitausrichtung (alignment) der Segment-spezifischen Verteilungen
erreicht. Die Nichtübereinstimmung
zwischen den tatsächlichen
Merkmalsvektoren und den Parametern der entsprechenden Verteilung
bildet die Basis für
die Anpassung. Die Überwacht-Anpassung
benötigt
eine Anpassungssitzung, welche für
jeden neuen Sprecher durchgeführt
werden muss, bevor er/sie den Erkenner tatsächlich verwenden kann.
-
Gewöhnlich modifizieren
Sprecheranpassungstechniken die Parameter der Hidden-Markov-Modelle,
so dass sie besser an die akustischen Charakteristiken des neuen
Sprechers angepasst sind. Normalerweise muss ein Sprecher bei der Batch-
oder Off-Line-Anpassung einen vorher festgelegten Text lesen, bevor
er/sie das System zur Erkennung verwenden kann, welcher anschließend verarbeitet
wird, um die Anpassung durchzuführen.
Sobald dies abgeschlossen ist, kann das System zur Erkennung verwendet
werden. Dieser Modus wird auch als Überwacht-Anpassung bzw. Supervised-Anpassung bezeichnet,
da der Text dem System bekannt war und eine erzwungene Ausrichtung
bzw. Zeitausrichtung (Englisch: forced alignment) des entsprechenden
Sprachsignals zu den Modellen entsprechend dem Text durchgeführt wird
und für
die Anpassung verwendet wird.
-
Ein
nicht-überwachtes
oder On-Line-Verfahren ist jedoch für die meisten Arten von Verbraucher-Endgeräten besser
geeignet. In diesem Fall findet die Anpassung statt, während das
System in Verwendung ist. Die erkannte Äußerung wird zur Anpassung verwendet
und die modifizierten bzw. geänderten
Modelle werden zur Erkennung der nächsten Äußerung verwendet und so fort.
In diesem Fall ist der gesprochene Text dem System unbekannt, und
es werden stattdessen die Wörter
bzw. das Wort, welche erkannt wurden bzw. welches erkannt wurde, verwendet.
-
Eine
Anpassung eines sprecher-angepassten Modellsatzes kann wiederholt
durchgeführt
werden zur weiteren Verbesserung der Leistung für bestimmte Sprecher. Es gibt
mehrere bestehende Verfahren zur Sprecheranpassung, z. B. Maximum-A-Posteriori-Anpassung
(MAP) oder Maximum-Likelihood-Linear-Regression-(MLLR-)Anpassung.
-
Diese
Sprecheranpassungs-Spracherkennungssysteme, besonders Systeme, welche
mit nicht-überwachter
Anpassung arbeiten, sind stets nur an einen Sprecher angepasst.
Daher muss, falls sich der Sprecher ändert, die Anpassung wieder
bzw. neugestartet werden (unter Verwendung der SI-Modelle) für diesen
neuen Sprecher bevor er/sie das System mit einer verbesserten Erkennungsrate
verwenden kann.
-
Sprecheranpassungstechniken
werden weithin in vielen Arten von Spracherkennungssystemen verwendet,
beispielsweise Diktiersystemen. In einigen dieser Systeme ist es
möglich,
sprecher-angepasste Modelle zu speichern, so dass unterschiedliche
Sprecher das System mit unterschiedlichen sprecher-angepassten Modellen
verwenden können. Jedoch
muss jedes Mal von Hand festgelegt werden, welches der angepassten
Modelle verwendet werden soll.
-
Andererseits
ist es bekannt, dass Sprecherverifikations- und Identifikationstechniken
für Zugangskontrollen
von beispielsweise Gebäuden
oder Systemen verwendet werden.
-
In „Integration
of speaker and speech recognition systems" von D. A. Reynolds und L. P. Heck, International
Conference on Acoustics, Speech and Signal Processing, 1991, ist
eine Kombination eines Hochleistungssprecher-Identifikationssystems und eines Isoliert-Wort-Erkenners
vorgestellt. Dabei bestimmt das Front- und Text-unabhängige Sprecheridentifikationssystem
den wahrscheinlichsten Sprecher für ein Eingabewort. Die Sprecheridentität wird anschließend verwendet
zum Auswählen
des Referenzwortmodells für
den Spracherkenner. Für
einen offenen Satz von Sprechern verhält sich das Sprecherkennungssystem
als ein „Sprecher-Quantisierer", welches den unbekannten
Sprecher mit einem akustisch ähnlichen
Sprecher assoziiert.
-
In
WO 96/22514 wird ein Verfahren und eine Vorrichtung zur automatischen
Spracherkennung vorgestellt, welches sich an einen bestimmten Sprecher
anpasst unter Verwendung von Anpassungsdaten zum Entwickeln einer
Transformation durch welche sprecher-unabhängige Modelle in sprecher-abhängige Modelle
transformiert bzw. umgewandelt werden. Die sprecher-angepassten
Modelle werden anschließend
für die
Spracherkennung verwendet.
-
Ein
weiteres Dokument zum Stand der Technik ist „On-Line Bayes adaption of
SCHMM parameters for speech recognition" von Qiang Huo und Chorkin Chan, International
Conference on Acoustics, Speech and Signal Processing, 1995. In
diesem Dokument zum Stand der Technik wird eine On-Line-Anpassung
von semi-kontinuierlichen Hidden-Markov-Modellen (SCHMM) untersucht.
-
Es
ist daher eine der vorliegenden Erfindung zugrunde liegende Aufgabe,
ein Verfahren und eine Vorrichtung zur Sprecheranpassung anzugeben, welche
die oben beschriebenen Probleme überwinden.
-
Das
erfindungsgemäße Verfahren
ist im unabhängigen
Anspruch 1 angegeben. Bevorzugte Ausführungsformen sind in entsprechenden
folgenden abhängigen
Ansprüchen
definiert.
-
Wie
oben erwähnt,
muss die Anpassung gemäß dem Stand
der Technik neu gestartet werden, unter Verwendung der sprecher-unabhängigen(SI-)Modelle,
falls eine Änderung
des Sprechers vorliegt.
-
Bei
einer Haus- bzw. Zuhause- oder Auto-Umgebung wird eine Änderung
des Sprechers sehr häufig
auftreten, es wird jedoch ein mehr oder weniger unveränderlicher
Satz von Sprechern vorliegen, beispielsweise die Mitglieder einer
Familie. Es ist somit nicht besonders sinnvoll, die Anpassung jedes
Mal von Neuem zu starten, jedes Mal, wenn ein Sprecher beginnt,
das System zu verwenden, und alle vorherigen Anpassungen an bestimmte
Sprecher zu verwerfen.
-
Gemäß der vorliegenden
Erfindung erkennt das System andererseits den Sprecher, und, falls eine
Anpassung für
diesen Sprecher bereits durchgeführt
wurde, werden die bereits bestehenden Modelle zur weiteren Anpassung
verwendet. Sprecherverifikationstechniken werden verwendet zur Erkennung,
wer spricht.
-
Gemäß der vorliegenden
Erfindung wird diese Änderung
des Sprechers automatisch detektiert. Daher startet, bei einem Netzwerksystem,
welches tatsächlich
von den gleichen Personen verwendet wird, jedoch mit einer häufigen Änderung
zwischen diesen, das Spracherkennungssystem gemäß der vorliegenden Erfindung
die Anpassung an einen unterschiedlichen Sprecher nicht wiederholt,
jedes Mal, wenn sich der Sprecher ändert, sondern es überprüft zuerst
die Identität
des Sprechers, so dass das System zu dem angepassten Modellsatz
für diesen
bestimmten Sprecher umschalten kann, falls dieses existiert. In
diesem Fall wird der Modellsatz gespeichert und für die Erkennung
und weitere Anpassung verwendet. Zusammen mit dem sprecher-angepassten
Modellsatz werden die statistischen Hyper-Parameter, welche für die Anpassung nötig sind,
gespeichert, so dass die Anpassung fortfahren kann und nicht wieder
gestartet bzw. neu gestartet werden muss, wenn der gleiche Sprecher
das System wiederholt verwendet. Solche Hyper-Parameter können beispielsweise
Gewichte sein, die die Anpassungsgeschwindigkeit bestimmen, zur
Anpassung eines bestimmten sprecher-angepassten Modellsatzes an den
entsprechenden Sprecher. Falls kein Modellsatz für diesen bestimmten Sprecher
existiert bzw. verfügbar
ist, wird ein neuer aufgebaut unter Verwendung einer Anpassung,
welche mit den SI-Modellen beginnt.
-
Das
Verfahren und die Vorrichtung gemäß der vorliegenden Erfindung
werden besser verstanden anhand der folgenden detaillierten Beschreibung einer
beispielhaften Ausführungsform
in Verbindung mit den angehängten
Figuren, wobei:
-
1 ein
Spracherkennungssystem gemäß der vorliegenden
Erfindung unter Verwendung der Sprecheranpassung und automatischen
Identifikation des Sprechers zeigt; und
-
2 den
Verifikations- und Anpassungsablauf, welcher gemäß der vorliegenden Erfindung durchgeführt wird,
zeigt.
-
1 zeigt
nur den Teil des automatischen Spracherkennungssystems gemäß der vorliegenden Erfindung,
welcher für
die Sprecheranpassung und die automatische Identifikation des Sprechers
verwendet wird.
-
Das
analoge Sprachsignal, welches durch ein Mikrofon 1 generiert
wurde, wird in einer A/D-Konvertierungsstufe 2 in ein digitales
Signal konvertiert bevor eine Merkmalsextraktion durchgeführt wird
durch ein Merkmalsextrahierungsmodul 3 zum Erhalten eines
Merkmalsvektors, beispielsweise alle 10 ms. Dieser Merkmalsvektor
wird einem Verifikationsmodul 4 und einem Erkennungsmodul 5 zugeführt. Im
Verifikationsmodul 4 wird eine automatische Identifikation
des Sprechers durchgeführt,
wie oben beschrieben. Im Erkennungsmodul 5 wird die Erkennung
der gesprochenen Äußerung durchgeführt auf Basis
der extrahierten Merkmalsvektoren und einem Satz von HMM-Modellen.
Das Erkennungsmodul 5 führt
das Erkennungsergebnis ebenso einem Anpassungsmodul 6 zu,
welches einen bestimmten HMM-Modellsatz an einen bestimmten Sprecher
anpassen kann.
-
Der
HMM-Modellsatz, auf welchen durch das Erkennungsmodul 5 oder
das Anpassungsmodell 6 zugegriffen werden soll oder welcher
von diesen Modulen angepasst werden soll, wird durch das Verifikationsmodul 4 aus
einem sprecher-unabhängigen
Modellsatz oder einem oder mehreren Sätzen von sprecher-angepassten
Modellsätzen
ausgewählt,
welche entsprechend an unterschiedliche individuelle Sprecher angepasst
sind. Diese unterschiedlichen Modellsätze sind bzw. werden in Speichern 7, 8, 9 und 10 gespeichert
und via einem Schalter 11 ausgewählt, dessen unveränderlicher
Anschluss mit dem Erkennungsmodul 5 und dem Anpassungsmodul 6 verbunden
ist, und dessen beweglicher Anschluss in Abhängigkeit eines Steuersignals,
welches vom Verifikationsmodul 4 empfangen wird, mit einem
der zuvor beschriebenen Modellsätze
verbunden ist bzw. wird.
-
Es
ist auch möglich,
dass die sprecher-angepassten Modellsätze nicht an individuelle Sprecher angepasst
sind bzw. werden, sondern an individuelle Gruppen von Sprechern,
wie beispielsweise an Deutsche, britische Leute, Englisch-sprechende
Deutsche, amerikanische Leute usw. oder an mit unterschiedlichen
Dialekten sprechende Leute. Diese Gruppen können auch automatisch identifiziert
werden in Übereinstimmung
mit weithin bekannten Sprach- oder Dialekt-Identifikationsalgorithmen,
welche direkt auf bzw. mit dem Sprachsignal arbeiten.
-
Selbstverständlich kann
anstelle des Schalters 11 eine unterschiedliche Lösung mit
der gleichen Funktion gewählt
werden.
-
2 zeigt
den Verifikations- und Anpassungsablauf, welcher in dem Erkennungssystem
gemäß der vorliegenden
Erfindung durchgeführt
wird. In einem ersten Schritt S1 wird eine gesprochene Äußerung eines
Benutzers empfangen, A/D-konvertiert und weiterverarbeitet zum Extrahieren
der Merkmalsvektoren. Daraufhin wird in einem Schritt S2 überprüft, ob ein
neuer Sprecher spricht oder nicht. Falls ein neuer Sprecher spricht,
wird im Schritt S3 überprüft, ob ein
angepasster Modellsatz für
diesen Sprecher bereits existiert oder nicht. Falls ein angepasster Modellsatz
bereits existiert, wird dieser Modellsatz für die weitere Anpassung in
einem Schritt S4 verwendet, worauf die nächste gesprochene Äußerung im Schritt
S1 verarbeitet wird und der gesamte Ablauf damit wiederholt wird.
-
Falls
im Schritt S3 kein angepasster Modellsatz existiert, wird im Schritt
S6 die Anpassung mit dem sprecher-unabhängigen Modell gestartet bzw. begonnen
und ein neuer Modellsatz (sprecher-angepasst) wird dem System hinzugefügt, worauf
die nächste Äußerung im
Schritt S1 verarbeitet wird und der gesamte Ablauf mit dieser nächsten Äußerung wiederholt
wird. Falls im Schritt S2 bestimmt wird, dass kein neuer Sprecher
spricht, wird die Anpassung durchgeführt mit dem aktuellen Modellsatz
im Schritt S5, worauf die nächste
bzw. folgende gesprochene Äußerung im
Schritt S1 verarbeitet wird und der gesamte Ablauf wird wiederholt
mit dieser nächsten Äußerung.