-
Die vorliegende Erfindung betrifft
den Bereich der automatischen Spracherkennung.
-
Ein Spracherkennungssystem umfasst
zwei hauptsächliche
funktionale Einheiten: eine Parametrierungs- und eine Erkennungseinheit.
Dazu kommt häufig
noch eine Lerneinheit, die zur Erstellung des Referenzwörterbuchs
bzw. -verzeichnisses dient, auf das die Erkennungseinheit zugreift.
-
Die Parametrierungseinheit berechnet
relevante Parameter auf der Grundlage von von einem Mikrofon aufgefangenen
Sprachsignalen. Diese Berechnungen werden entsprechend einer parametrischen
Darstellung durchgeführt,
zur bestmöglichen Differenzierung
der vokalen Formen, indem die semantische Information, die in der
Sprache der der Sprechweise eigenen ästhetischen Information enthalten
ist, isoliert wird. Eine wichtige Klasse solcher Darstellungen wird
von den Cepstraldarstellungen gebildet (s. EP-A-0 621 582).
-
Die Erkennungseinheit nimmt die Verknüpfung zwischen
einem festgestellten Sprachsegment, das durch die von der Parametrierungseinheit
berechneten Parameter dargestellt wird, und einer Referenz vor,
für die
ein weiterer Parametersatz in einem Referenzwörterverzeichnis gespeichert
ist. Die in dem Wörterverzeichnis
im Zusammenhang mit den einzelnen Referenzen gespeicherten Parametersätze können deterministische
Modelle definieren (sie setzen sich beispielsweise direkt aus Vektoren
aus der Parametrierungseinheit zusammen). Um den Unterschieden bei
der Sprachentstehung und der akustischen Umgebung Rechnung zu tragen, werden
jedoch meistens eher Parametersätze
verwendet, die stochastische Modelle kennzeichnen. Eine wesentliche
Klasse solcher Modelle besteht aus den Hidden-Markov-Modellen. Diese
stochastischen Modelle ermöglichen
durch die Ermittlung der höchsten
Wahrscheinlichkeit die Identifizierung des Modells, das der betrachteten
Parameterfolge am nächsten
kommt, und die Auswahl der zu diesem Modell gehörenden Referenz (s. L. R. RABINER: "A Tutorial on Hidden Markov
Models and Selected Applications in Speech Recognition", Proceedings of
the IEEE, Vol. 77, No. 2, Febr. 1989, S. 257– 285).
-
Im Allgemeinen beschränkt sich
die Erkennung eines Worts oder eines Sprachsegments nicht auf die
Ermittlung der höchsten
Wahrscheinlichkeit. Damit bestimmt werden kann, ob das optimale
Modell, das die höchste
Wahrscheinlichkeit aufweist, tatsächlich ausgewählt werden
soll, werden eines oder mehrere andere Wahrscheinlichkeitskriterien
untersucht. Dieses Kriterium ist beispielsweise die Tatsache, dass
die maximierte Wahrscheinlichkeit einen bestimmten Schwellenwert überschreitet.
Nach Prüfung
des Kriteriums wird das optimale Modell ausgesucht, und die Erkennungseinheit
gibt ein Ergebnis aus.
-
Ansonsten können mehrere Lösungen verwendet
werden: eine erste Lösung
besteht darin, den Sprecher um eine Bestätigung zu bitten, dass das ausgesprochene
Sprachsegment der Referenz, die zu dem optimalen Modell gehört, oder
einer der Referenzen entspricht, die zu den n Modellen gehören, für welche
die Wahrscheinlichkeiten am größten sind (s.
EP-A-0 651 372). Der Benutzer muss in diesem Fall besondere Handgriffe
vornehmen, um seine Auswahl zu bestätigen, was unergonomisch ist,
insbesondere bei Freisprechmodus-Anwendungen.
-
Eine weitere Lösung besteht darin, den Sprecher
zu einer Wiederholung dessen aufzufordern, was er gerade gesagt
hat. Wenn das Wahrscheinlichkeitskriterium von dem als Ergebnis
des auf diese Wiederholung angewandten Erkennungstests vorgeschlagenen
optimalen Modell geprüft
wird, ist die Er kennung gelungen. Im gegenteiligen Fall wird eine weitere
Wiederholung verlangt, usw. Diese zweite Lösung ist nicht besonders gut
an durch viele Sprecher verlärmte
oder gestörte
Umgebungen angepasst: die Geräusche,
die das erste Aussprechen stören
und dazu führen,
dass das Wahrscheinlichkeitskriterium nicht überprüft werden kann, stören häufig auch
die Wiederholung, wodurch das Wahrscheinlichkeitskriterium immer
noch nicht überprüft werden
kann, sodass der Benutzer ohne Erfolg mehrmals das gleiche Wort
wiederholen muss. Sucht man diesem Nachteil durch Wahl eines strengeren
Wahrscheinlichkeitskriteriums abzuhelfen, neigt das System dazu,
in verlärmten
Umgebungen zahlreiche falsche Ausführungen vorzunehmen.
-
Das Dokument EP-A-0 573 301 beschreibt ein
Verfahren, bei dem zur Festlegung der Einordnung, auf der die Erkennung
beruht, die a priori Aussprache-Wahrscheinlichkeit eines einer Referenz
zugeordneten Worts nach Wiederholung durch den Sprecher durch die
konditionale Aussprache-Wahrscheinlichkeit dieses Worts ersetzt
wird, wobei vorausgesetzt ist, dass beide Male das gleiche Wort ausgesprochen
wurde. Die konditionale Wahrscheinlichkeit wird mit Hilfe einer
Entwicklung nach der Bayes-Formel berechnet. Dieses Verfahren sucht
die absoluten Werte der Erkennungsergebnisse unterschiedlicher Einträge des Referenzwörterverzeichnisses
zu präzisieren.
-
Ein Ziel der vorliegenden Erfindung
besteht darin, eine wirksame Lösung
zur Spracherkennung in Zweifelsfällen
vorzustellen.
-
Die Erfindung schlägt somit
ein Verfahren zur Spracherkennung vor, bei dem Erkennungstests eingesetzt
werden, wobei jeder Erkennungstest ein Sprachsegment, das dem System
geliefert wurde, mit mindestens einem Satz von Parametern vergleicht,
der in einem Referenzwörterverzeichnis
gespeichert ist. Das Verfahren umfasst folgende Schritte:
- – Anwendung
des Erkennungstests auf ein von einem Sprecher ausgesprochenes Sprachsegment;
- – Prüfung, ob
ein erster optimaler Satz von Parametern, mit dem der Er kennungstest
das ausgesprochene Sprachsegment verglichen hat, einem Wahrscheinlichkeitskriterium
entspricht;
- – wenn
das Wahrscheinlichkeitskriterium durch den ersten optimalen Parametersatz
erfüllt
wird, Auswahl des ersten optimalen Parametersatzes;
- – wenn
das Wahrscheinlichkeitskriterium nicht durch den ersten optimalen
Parametersatz erfüllt wird,
Aufforderung an den Sprecher, das Sprachsegment zu wiederholen;
- – Anwendung
des Erkennungstests auf das von dem Sprecher wiederholte Sprachsegment;
- – Prüfung, ob
ein zweiter optimaler Parametersatz, mit dem der Erkennungstest
das wiederholte Sprachsegment verglichen hat, dem Wahrscheinlichkeitskriterium
entspricht;
- – wenn
das Wahrscheinlichkeitskriterium durch den zweiten optimalen Parametersatz
erfüllt
wird, Auswahl des zweiten optimalen Parametersatzes;
- – wenn
das Wahrscheinlichkeitskriterium nicht durch den zweiten optimalen
Parametersatz erfüllt
wird und wenn eine Kombination aus den Ergebnissen der beiden Erkennungstests
mindestens einem Kriterium einer kombinierten Auswahl entspricht,
Auswahl eines der beiden Parametersätze, die die beiden Erkennungstests
dem ausgesprochenen und wiederholten Sprachsegment zugeordnet haben.
-
Wenn die Wahrscheinlichkeitskriterien,
die getrennt auf zwei Feststellungen ein und desselben Wortes oder
Sprachsegments angewandt werden, auch unzureichend für eine erfolgreiche
Erkennung sein können,
so kann häufig
eine adäquate
Entscheidung durch Kombination dieser beiden Feststellungen und
Prüfung
weiterer Kriterien getroffen werden, die die Kombination betreffen.
Die Erfindung macht sich dies zunutze und verbessert so den Erkennungsgrad
bei einer gegebenen Wahrscheinlichkeit falscher Ausführungen
oder zur Verringerung der Wahrscheinlichkeit falscher Ausführungen
bei einem gegebenen Erkennungsgrad.
-
Bei einer typischen Ausführungsform
liefert jeder Erkennungstest eine Liste von n ≥ 1 Parametersätzen des Wörterverzeichnisses, die in
Anbetracht der Betrachtung des dem Test unterzogenen Sprachsegments
die größten Wahrscheinlichkeiten
aufweisen, wobei diese Liste entsprechend den abnehmenden Wahrscheinlichkeiten
geordnet ist. Der erste und zweite optimale Parametersatz stehen
dabei jeweils am Anfang der Liste.
-
Die verwendbaren Kriterien der kombinierten Auswahl
können
umfassen:
- – die
Identität
des ersten und zweiten optimalen Parametersatzes,
- – wenn
das Wörterverzeichnis
mindestens einen Satz Zurückweisungsparameter
enthält,
bei dem n ≥ 2,
die Tatsache, dass ein und derselbe Parametersatz, der nicht der
Zurückweisungsparametersatz
ist, einerseits an erster Stelle in der von einem der beiden Erkennungstests
gelieferten Liste und andererseits an zweiter Stelle nach einem
Zurückweisungsparametersatz
in der von dem anderen der beiden Erkennungstests gelieferten Liste steht.
-
Bei der Anwendung solcher Kriterien
nutzt man die Tatsache, das die von den einzelnen Erkennungstests
gelieferten Einordnungen verhältnismäßig zuverlässig sind.
Die vorgenannten Kriterien beruhen eher auf Einordnungen als auf
den absoluten Werten der Ergebnisse, deren Präzisierung mittels der Bayes-Formel
oder einer anderen Gewichtungsformel nicht unbedingt eine häufigere
Erkennung ergeben, insbesondere in verlärmten Umgebungen.
-
Weitere Besonderheiten und Vorteile
der vorliegenden Erfindung gehen aus der nachfolgenden Beschreibung
nicht einschränkender
Ausführungsbeispiele
hervor, die sich auf die beiliegenden Zeichnungen beziehen, in denen:
-
1 ein
Funktionsschema eines Erkennungssystems ist, das auf die vorliegende
Erfindung zurückgreift;
und
-
2 und 3 Diagramme sind, die Kriterien der
kombinierten Auswahl darstellen, die in dem System der 1 geprüft werden können.
-
Das in 1 dargestellte
Spracherkennungssystem hat eine Benutzerschnittstelle, die aus einem
Mikrofon 4, einer Tastatur 5, einer Sichtanzeige 6 und
einem Lautsprecher 7 besteht.
-
Die von dem Mikrofon 4 gelieferten
akustischen Signale werden in eine Signalverarbeitungseinheit 8 gespeist,
die der Erkennungseinheit 9 und der Lerneinheit 10 die
relevanten Parameter liefert.
-
Die Tastatur 5, die Sichtanzeige 6 und
der Lautsprecher 7 dienen insbesondere dem Dialog zwischen
dem Benutzer und der Erkennungseinheit 9 und der Lerneinheit 10.
-
Das Erkennungssystem umfasst des
Weiteren einen Speicher 11, der ein Referenzwörterverzeichnis
bildet. In diesem Wörterverzeichnis
speichert die Lerneinheit 10 Modelle, die mit Referenzen verknüpft sind.
Während
der Erkennungsphase analysiert die Einheit 9 die von der
Einheit 8 gelieferten Parameter und weist ihnen ein Modell,
d. h. einen Satz von in dem Wörterverzeichnis 11 gespeicherten Parametern,
zu und liefert die zugehönge
Referenz als Ausgabe des Erkennungssystems. Diese Referenz kann
dann von der Ausrüstung
verwendet werden, zu der das Erkennungssystem gehört.
-
Als Veranschaulichungsbeispiel kann
diese Ausrüstung
ein Telefonendgerät
nach Art einer Freisprechanlage sein, bei dem das Erkennungssystem zur
Steuerung von Funktionen wie dem automatischen Wählen verwendet wird, als Reaktion
auf von dem Benutzer ausgesprochene Namen der Teilnehmer und/oder
Befehlswörter.
Das Mikrofon 4, die Tastatur 5, die Sichtanzeige 6 und
der Lautsprecher 7 können
von denen gebildet werden, die ohnehin zum Telefonendgerät gehören.
-
Im Rahmen der Erfindung können unterschiedliche
Arten von für
die Stimmstrukturen repräsentativen
Parametern verwendet werden, die von der Einheit 8 berechnet
wurden. Als Beispiel können dies
Wurzel-Cepstralkoeffizienten sein. Zur genaueren Erläuterung
dieser Art Darstellung wird auf die europäische Patentanmeldung 0 621
582 verwiesen. Die Signalverarbeitungs einheit 8 kann somit
folgende Schritte ausführen:
- – Digitalisierung
des von dem Mikrofon 4 gelieferten Signals;
- – Teilung
des digitalen Signals in aufeinanderfolgende Blöcke einer Länge von beispielsweise 16 ms;
- – Erkennung
von Stimmaktivität
zur Unterscheidung der Sprachblöcke
von den Signalblöcken, die
nur Geräusche
enthalten;
- – Fouriertransformierte
jedes Sprachblocks zum Erhalt eines Spektrums X (ω), das eventuell
einer Geräuschreduzierung
durch Spektralsubstraktion von Schätzungen des Lärms unterzogen
wird (siehe EP-A-0 534 837);
- – Anwendung
einer Wurzelkomprimierungsfunktion (oder einer Leistungsfunktion)
zur Berechnung der |X(ω)|γ,
wobei γ einen
festen oder adaptativen Exponenten mit einem Wert zwischen 0 und
2 bezeichnet (ebenso kann eine logarithmische Komprimierungsfunktion
angewandt werden);
- – inverse
Fouriertransformation der Größen |X(ω)|γ zum
Erhalt der so genannten Cepstralkoeffizienten, die einen Vektor
aus p Koeffizienten bilden (beispielsweise p ≈ 20). Dieser Cepstralvektor wird
von der Einheit 8 in Bezug zu dem in Frage stehenden Block
geliefert.
-
Jede Folge aufeinanderfolgender Blöcke, von
denen festgestellt wurde, dass sie eine Stimmaktivität unterstützen, entspricht
normalerweise einem von einem Sprecher ausgesprochenen Sprachsegment.
Für jedes
dieser Segmente liefert die Einheit 8 eine Folge von Cepstralvektoren,
die von den Einheiten 9 und 10 verarbeitet werden
können.
-
In dem hier beschriebenen Ausführungsbeispiel
wird jede Referenz des Wörterverzeichnisses 11 einem
Hidden-Markov-Modell zugeordnet, das durch eine Anzahl von Zuständen und
für jeden
Zustand von einem Wahrscheinlichkeitsdichtegesetz der Beobachtung
der Cepstralvektoren gekennzeichnet ist. Diese Gesetze sind beispielsweise
Gaußsche Gesetze
mit einer Dimension p. Sie sind dann jeweils von einem Mittelwert
(Vektor) und einer Varianz (Matrix) bestimmt.
-
Die Lernphase besteht in der Berechnung der
Parameter der den Hidden-Markov-Modellen
zugeordneten Wahrscheinlichkeitsgesetze. Für jede zu speichernde Referenz
wird der Benutzer aufgefordert, das zugehörige Wort mehrmals auszusprechen, um
der Einheit 10 eine ausreichende Feststellungsstatistik
zu liefern, um ihr eine zuverlässige
Einschätzung
der Parameter der Wahrscheinlichkeitsgesetze bezogen auf die einzelnen
Zustände
des Modells zu ermöglichen.
-
Die für diese Schätzungen angewandten Verfahren
sind herkömmlicher
Art. Hierzu sei auf den vorgenannten Artikel von L. R. RABINER verwiesen.
-
Das erfindungsgemäße Erkennungsverfahren ist
im Übrigen
auch auf Systeme ohne Lernverfahren anwendbar.
-
Bestimmte in dem Wörterverzeichnis
enthaltene Modelle 11 sind künstlich erzeugte Zurückweisungssmodelle,
die vorzugsweise von der Einheit 9 gewählt werden sollen, wenn das
dem Erkennungstest unterzogene Sprachsegment keinem der in dem Wörterverzeichnis
gespeicherten Wörter
entspricht.
-
Ein von der Einheit 9 durchgeführter Erkennungstest
auf der Basis einer Folge von Cepstralvektoren, die aus einem von
der Einheit 8 verarbeiteten Sprachsegment erhalten wurden,
besteht in der Identifizierung des Modells oder der Modelle des
Referenzwörterverzeichnisses 11,
das (die) die Wahrscheinlichkeit des Feststellens einer Folge von
Cepstralvektoren maximiert (maximieren). Ein klassisches Mittel
für diese
Identifizierung ist der Viterbi-Algorithmus. Für unterschiedliche Modelle
des Wörterverzeichnisses
ermöglicht
ein Viterbi-Trellis die Bestimmung der Zustandsfolge, welche die
Wahrscheinlichkeit des Feststellens einer Cepstralvektorenfolge
maximiert. Das optimale Modell, für das die maximierte Wahrscheinlichkeit
am größten ist,
wird identifiziert, ebenso wie eventuell einige andere Modelle,
für welche
die maximierte Wahrscheinlichkeit relativ hoch ist. Es wird hier
der Fall betrachtet, in dem der Erkennungstest für jedes verarbeitete Sprachsegment
eine Liste von n Modellen ergibt, die in der Reihenfolge der abnehmenden
Wahrscheinlichkeiten (n ≥ 1)
geordnet werden. Der Test liefert somit ein optimales Modell (Anfang
der Liste) und n – 1
weitere mögliche Modelle.
-
Der Erkennungstest wird durch Prüfung eines
Wahrscheinlichkeitsknteriums zur Feststellung ergänzt, ob
das Modell, das sich an erster Stelle in der Liste befindet, als
dem von dem Sprecher Ausgesprochenen entsprechend erkannt werden
soll oder nicht. Im zutreffenden Fall wird die diesem Modell zugeordnete
Referenz als Ausgabe der Erkennungseinheit 9 erzeugt.
-
Es können unterschiedliche Arten
von Wahrscheinlichkeitskriterien verwendet werden. Beispielsweise
ist dies die Tatsache, dass die für das optimale Modell maximierte
Wahrscheinlichkeit pmax einen vorbestimmten
Schwellenwert S überschreitet.
-
Dieser Schwellenwert kann absolut
sein; somit muss gelten pmax > S. Er kann auch im
Verhältnis zur
für das
in der Liste an zweiter Stelle stehende Modell maximierten Wahrscheinlichkeit
p'max ausgedrückt sein;
dann muss gelten pmax > S × p'max.
Das Wahrscheinlichkeitskriterium kann auch mehrere Unterkriterien
zur Schwellenwerterstellung kombinieren.
-
Wenn das Wahrscheinlichkeitskriterium
nicht geprüft
wird, reicht der an der Aussprache des Sprachsegments vorgenommene
Erkennungstest der Einheit 9 nicht für ihre Entscheidungsfindung
aus.
-
In diesem Fall verlangt die Einheit 9 von
dem Benutzer, das vorher ausgesprochene Wort zu wiederholen, beispielsweise
durch Anzeige einer Meldung auf der Sichtanzeige 6 und/oder
Ausgabe eines Beeptons über
den Lautsprecher 7. Nachdem der Benutzer dieser Aufforderung
entsprochen hat, erfolgt ein neuer Erkennungstest.
-
Wenn dieser neuer Erkennungstest
zu einem Ergebnis führt
(das Wahrscheinlichkeitskriterium ist überprüft), wird das durch diesen
neuen Erkennungstest erhaltene optimale Modell ausgewählt und
die entsprechende Referenz von der Einheit 9 ausgegeben.
-
Wenn das Wahrscheinlichkeitskriterium
von dem optimalen Modell, das sich aus dem neuerlichen Erkennungstest
ergeben hat, auch nicht überprüft wird,
kann die Einheit 9 dennoch ein Modell auswählen und
die entsprechende Referenz ausgeben, und zwar nach Kombination der
Ergebnisse der an dem ersten Aussprechen des Worts und dessen Wiederholung
vorgenommenen Erkennungstests und Prüfung eines oder mehrerer anderer
Auswahlkriterien, die sich auf diese Kombination beziehen.
-
Einfache Beispiele solcher kombinierter
Auswahlknterien sind durch die 2 und 3 für den besonderen Fall, dass
n = 2 ist, dargestellt. In diesen Figuren beziehen sich Mi, pj
i auf das Modell
Nummer i, für
das nach dem j-ten Aussprechen (j = 1,2) des Worts eine Wahrscheinlichkeit
pj
i berechnet wurde.
-
Ein erstes Kriterium, das durch 2 veranschaulicht ist, ist
die Identität
der optimalen Modelle, die die beiden Erkennungstests ergeben haben: wenn
ein und dasselbe Modell M1 an erster Stelle in den von den auf das
erste Aussprechen des Worts und dessen Wiederholung angewandten
Erkennungstests gelieferten Listen steht, allerdings in beiden Fällen ohne
Prüfung
des Wahrscheinlichkeitskriteriums (p1
1 < S
und p2
1< S, oder p1
1 < S × p1
2 und p2
1 < S × p2
3), kann dieses
Modell dennoch von der Erkennungseinheit 9 ausgewählt werden.
Es ist nämlich
höchst
unwahrscheinlich, dass das gleiche Modell zweimal hintereinander
als optimal erscheint, ohne dass das entsprechende Wort ausgesprochen worden
wäre.
-
Eine Variante dieses ersten Kriteriums
wäre, wenn
ein und dasselbe Modell M1 an erster Stelle in beiden Listen steht
und in keinem der beiden Fälle das
Wahrscheinlichkeitskriterium überprüft wurde, dieses
Modell nur auszuwählen,
wenn die eine und/oder andere der errechneten Wahrscheinlichkeiten
p1
1 und p2
1 eine andere, weniger
restriktive Bedingung verifizieren.
-
Ein zweites, durch 3 illustriertes kombiniertes Auswahlknterium
besteht darin, dass ein und dasselbe Wortmodell M4 einerseits an
erster Stelle in der von einem der beiden Erkennungstests gelieferten
Liste steht, ohne Prüfung
des Wahrscheinlichkeitskriteriums (p2
4 < S,
oder p2
4 < S × p2
5), und andererseits
an zweiter Stelle, nach einem Zurückweisungsmodell MR in der
von dem anderen der beiden Erkennungstests gelieferten Liste steht.
-
Im Übrigen können zahlreiche weitere kombinierte
Auswahlkriterien von der Erkennungseinheit 9 verwendet
werden.
-
Das Erkennungssystem der Erfindung
ermöglicht
es dem Benutzer, das ausgesprochene Wort zu wiederholen, ohne dazu
besondere Handgriffe vornehmen zu müssen (Drücken einer Taste o. ä.). Die
Leistung des Systems in einer verlärmten Umgebung kann durch die
Möglichkeiten
der kombinierten Auswahl verbessert werden. Um Auslösungen bei
Hintergrundgeräuschen
zu begrenzen, können
für einzelne
Tests auch im Verhältnis
strengere Wahrscheinlichkeitskriterien gewählt werden. Löst das System
dennoch auf ein Nebengeräusch
hin aus, bleibt dem Benutzer die Möglichkeit, ein Wort auszusprechen,
ohne das System durch besondere Manipulationen reaktivieren zu müssen.