DE69819438T2

DE69819438T2 - Verfahren zur Spracherkennung

Info

Publication number: DE69819438T2
Application number: DE69819438T
Authority: DE
Inventors: Catherine Glorion; Laurent Lelièvre; Philip Lockwood
Original assignee: Nortel Networks France SAS
Current assignee: Nortel Networks France SAS
Priority date: 1997-09-29
Filing date: 1998-09-25
Publication date: 2004-09-09
Anticipated expiration: 2018-09-26
Also published as: US6246980B1; FR2769118A1; EP0905677A1; FR2769118B1; ATE253763T1; DE69819438D1; EP0905677B1

Description

Die vorliegende Erfindung betrifft den Bereich der automatischen Spracherkennung.
Ein Spracherkennungssystem umfasst zwei hauptsächliche funktionale Einheiten: eine Parametrierungs- und eine Erkennungseinheit. Dazu kommt häufig noch eine Lerneinheit, die zur Erstellung des Referenzwörterbuchs bzw. -verzeichnisses dient, auf das die Erkennungseinheit zugreift.
Die Parametrierungseinheit berechnet relevante Parameter auf der Grundlage von von einem Mikrofon aufgefangenen Sprachsignalen. Diese Berechnungen werden entsprechend einer parametrischen Darstellung durchgeführt, zur bestmöglichen Differenzierung der vokalen Formen, indem die semantische Information, die in der Sprache der der Sprechweise eigenen ästhetischen Information enthalten ist, isoliert wird. Eine wichtige Klasse solcher Darstellungen wird von den Cepstraldarstellungen gebildet (s. EP-A-0 621 582).
Die Erkennungseinheit nimmt die Verknüpfung zwischen einem festgestellten Sprachsegment, das durch die von der Parametrierungseinheit berechneten Parameter dargestellt wird, und einer Referenz vor, für die ein weiterer Parametersatz in einem Referenzwörterverzeichnis gespeichert ist. Die in dem Wörterverzeichnis im Zusammenhang mit den einzelnen Referenzen gespeicherten Parametersätze können deterministische Modelle definieren (sie setzen sich beispielsweise direkt aus Vektoren aus der Parametrierungseinheit zusammen). Um den Unterschieden bei der Sprachentstehung und der akustischen Umgebung Rechnung zu tragen, werden jedoch meistens eher Parametersätze verwendet, die stochastische Modelle kennzeichnen. Eine wesentliche Klasse solcher Modelle besteht aus den Hidden-Markov-Modellen. Diese stochastischen Modelle ermöglichen durch die Ermittlung der höchsten Wahrscheinlichkeit die Identifizierung des Modells, das der betrachteten Parameterfolge am nächsten kommt, und die Auswahl der zu diesem Modell gehörenden Referenz (s. L. R. RABINER: "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings of the IEEE, Vol. 77, No. 2, Febr. 1989, S. 257– 285).
Im Allgemeinen beschränkt sich die Erkennung eines Worts oder eines Sprachsegments nicht auf die Ermittlung der höchsten Wahrscheinlichkeit. Damit bestimmt werden kann, ob das optimale Modell, das die höchste Wahrscheinlichkeit aufweist, tatsächlich ausgewählt werden soll, werden eines oder mehrere andere Wahrscheinlichkeitskriterien untersucht. Dieses Kriterium ist beispielsweise die Tatsache, dass die maximierte Wahrscheinlichkeit einen bestimmten Schwellenwert überschreitet. Nach Prüfung des Kriteriums wird das optimale Modell ausgesucht, und die Erkennungseinheit gibt ein Ergebnis aus.
Ansonsten können mehrere Lösungen verwendet werden: eine erste Lösung besteht darin, den Sprecher um eine Bestätigung zu bitten, dass das ausgesprochene Sprachsegment der Referenz, die zu dem optimalen Modell gehört, oder einer der Referenzen entspricht, die zu den n Modellen gehören, für welche die Wahrscheinlichkeiten am größten sind (s. EP-A-0 651 372). Der Benutzer muss in diesem Fall besondere Handgriffe vornehmen, um seine Auswahl zu bestätigen, was unergonomisch ist, insbesondere bei Freisprechmodus-Anwendungen.
Eine weitere Lösung besteht darin, den Sprecher zu einer Wiederholung dessen aufzufordern, was er gerade gesagt hat. Wenn das Wahrscheinlichkeitskriterium von dem als Ergebnis des auf diese Wiederholung angewandten Erkennungstests vorgeschlagenen optimalen Modell geprüft wird, ist die Er kennung gelungen. Im gegenteiligen Fall wird eine weitere Wiederholung verlangt, usw. Diese zweite Lösung ist nicht besonders gut an durch viele Sprecher verlärmte oder gestörte Umgebungen angepasst: die Geräusche, die das erste Aussprechen stören und dazu führen, dass das Wahrscheinlichkeitskriterium nicht überprüft werden kann, stören häufig auch die Wiederholung, wodurch das Wahrscheinlichkeitskriterium immer noch nicht überprüft werden kann, sodass der Benutzer ohne Erfolg mehrmals das gleiche Wort wiederholen muss. Sucht man diesem Nachteil durch Wahl eines strengeren Wahrscheinlichkeitskriteriums abzuhelfen, neigt das System dazu, in verlärmten Umgebungen zahlreiche falsche Ausführungen vorzunehmen.
Das Dokument EP-A-0 573 301 beschreibt ein Verfahren, bei dem zur Festlegung der Einordnung, auf der die Erkennung beruht, die a priori Aussprache-Wahrscheinlichkeit eines einer Referenz zugeordneten Worts nach Wiederholung durch den Sprecher durch die konditionale Aussprache-Wahrscheinlichkeit dieses Worts ersetzt wird, wobei vorausgesetzt ist, dass beide Male das gleiche Wort ausgesprochen wurde. Die konditionale Wahrscheinlichkeit wird mit Hilfe einer Entwicklung nach der Bayes-Formel berechnet. Dieses Verfahren sucht die absoluten Werte der Erkennungsergebnisse unterschiedlicher Einträge des Referenzwörterverzeichnisses zu präzisieren.
Ein Ziel der vorliegenden Erfindung besteht darin, eine wirksame Lösung zur Spracherkennung in Zweifelsfällen vorzustellen.
Die Erfindung schlägt somit ein Verfahren zur Spracherkennung vor, bei dem Erkennungstests eingesetzt werden, wobei jeder Erkennungstest ein Sprachsegment, das dem System geliefert wurde, mit mindestens einem Satz von Parametern vergleicht, der in einem Referenzwörterverzeichnis gespeichert ist. Das Verfahren umfasst folgende Schritte:

– Anwendung des Erkennungstests auf ein von einem Sprecher ausgesprochenes Sprachsegment;
– Prüfung, ob ein erster optimaler Satz von Parametern, mit dem der Er kennungstest das ausgesprochene Sprachsegment verglichen hat, einem Wahrscheinlichkeitskriterium entspricht;
– wenn das Wahrscheinlichkeitskriterium durch den ersten optimalen Parametersatz erfüllt wird, Auswahl des ersten optimalen Parametersatzes;
– wenn das Wahrscheinlichkeitskriterium nicht durch den ersten optimalen Parametersatz erfüllt wird, Aufforderung an den Sprecher, das Sprachsegment zu wiederholen;
– Anwendung des Erkennungstests auf das von dem Sprecher wiederholte Sprachsegment;
– Prüfung, ob ein zweiter optimaler Parametersatz, mit dem der Erkennungstest das wiederholte Sprachsegment verglichen hat, dem Wahrscheinlichkeitskriterium entspricht;
– wenn das Wahrscheinlichkeitskriterium durch den zweiten optimalen Parametersatz erfüllt wird, Auswahl des zweiten optimalen Parametersatzes;
– wenn das Wahrscheinlichkeitskriterium nicht durch den zweiten optimalen Parametersatz erfüllt wird und wenn eine Kombination aus den Ergebnissen der beiden Erkennungstests mindestens einem Kriterium einer kombinierten Auswahl entspricht, Auswahl eines der beiden Parametersätze, die die beiden Erkennungstests dem ausgesprochenen und wiederholten Sprachsegment zugeordnet haben.

Wenn die Wahrscheinlichkeitskriterien, die getrennt auf zwei Feststellungen ein und desselben Wortes oder Sprachsegments angewandt werden, auch unzureichend für eine erfolgreiche Erkennung sein können, so kann häufig eine adäquate Entscheidung durch Kombination dieser beiden Feststellungen und Prüfung weiterer Kriterien getroffen werden, die die Kombination betreffen. Die Erfindung macht sich dies zunutze und verbessert so den Erkennungsgrad bei einer gegebenen Wahrscheinlichkeit falscher Ausführungen oder zur Verringerung der Wahrscheinlichkeit falscher Ausführungen bei einem gegebenen Erkennungsgrad.
Bei einer typischen Ausführungsform liefert jeder Erkennungstest eine Liste von n ≥ 1 Parametersätzen des Wörterverzeichnisses, die in Anbetracht der Betrachtung des dem Test unterzogenen Sprachsegments die größten Wahrscheinlichkeiten aufweisen, wobei diese Liste entsprechend den abnehmenden Wahrscheinlichkeiten geordnet ist. Der erste und zweite optimale Parametersatz stehen dabei jeweils am Anfang der Liste.
Die verwendbaren Kriterien der kombinierten Auswahl können umfassen:

– die Identität des ersten und zweiten optimalen Parametersatzes,
– wenn das Wörterverzeichnis mindestens einen Satz Zurückweisungsparameter enthält, bei dem n ≥ 2, die Tatsache, dass ein und derselbe Parametersatz, der nicht der Zurückweisungsparametersatz ist, einerseits an erster Stelle in der von einem der beiden Erkennungstests gelieferten Liste und andererseits an zweiter Stelle nach einem Zurückweisungsparametersatz in der von dem anderen der beiden Erkennungstests gelieferten Liste steht.

Bei der Anwendung solcher Kriterien nutzt man die Tatsache, das die von den einzelnen Erkennungstests gelieferten Einordnungen verhältnismäßig zuverlässig sind. Die vorgenannten Kriterien beruhen eher auf Einordnungen als auf den absoluten Werten der Ergebnisse, deren Präzisierung mittels der Bayes-Formel oder einer anderen Gewichtungsformel nicht unbedingt eine häufigere Erkennung ergeben, insbesondere in verlärmten Umgebungen.
Weitere Besonderheiten und Vorteile der vorliegenden Erfindung gehen aus der nachfolgenden Beschreibung nicht einschränkender Ausführungsbeispiele hervor, die sich auf die beiliegenden Zeichnungen beziehen, in denen:
1 ein Funktionsschema eines Erkennungssystems ist, das auf die vorliegende Erfindung zurückgreift; und
2 und 3 Diagramme sind, die Kriterien der kombinierten Auswahl darstellen, die in dem System der 1 geprüft werden können.
Das in 1 dargestellte Spracherkennungssystem hat eine Benutzerschnittstelle, die aus einem Mikrofon 4, einer Tastatur 5, einer Sichtanzeige 6 und einem Lautsprecher 7 besteht.
Die von dem Mikrofon 4 gelieferten akustischen Signale werden in eine Signalverarbeitungseinheit 8 gespeist, die der Erkennungseinheit 9 und der Lerneinheit 10 die relevanten Parameter liefert.
Die Tastatur 5, die Sichtanzeige 6 und der Lautsprecher 7 dienen insbesondere dem Dialog zwischen dem Benutzer und der Erkennungseinheit 9 und der Lerneinheit 10.
Das Erkennungssystem umfasst des Weiteren einen Speicher 11, der ein Referenzwörterverzeichnis bildet. In diesem Wörterverzeichnis speichert die Lerneinheit 10 Modelle, die mit Referenzen verknüpft sind. Während der Erkennungsphase analysiert die Einheit 9 die von der Einheit 8 gelieferten Parameter und weist ihnen ein Modell, d. h. einen Satz von in dem Wörterverzeichnis 11 gespeicherten Parametern, zu und liefert die zugehönge Referenz als Ausgabe des Erkennungssystems. Diese Referenz kann dann von der Ausrüstung verwendet werden, zu der das Erkennungssystem gehört.
Als Veranschaulichungsbeispiel kann diese Ausrüstung ein Telefonendgerät nach Art einer Freisprechanlage sein, bei dem das Erkennungssystem zur Steuerung von Funktionen wie dem automatischen Wählen verwendet wird, als Reaktion auf von dem Benutzer ausgesprochene Namen der Teilnehmer und/oder Befehlswörter. Das Mikrofon 4, die Tastatur 5, die Sichtanzeige 6 und der Lautsprecher 7 können von denen gebildet werden, die ohnehin zum Telefonendgerät gehören.
Im Rahmen der Erfindung können unterschiedliche Arten von für die Stimmstrukturen repräsentativen Parametern verwendet werden, die von der Einheit 8 berechnet wurden. Als Beispiel können dies Wurzel-Cepstralkoeffizienten sein. Zur genaueren Erläuterung dieser Art Darstellung wird auf die europäische Patentanmeldung 0 621 582 verwiesen. Die Signalverarbeitungs einheit 8 kann somit folgende Schritte ausführen:

– Digitalisierung des von dem Mikrofon 4 gelieferten Signals;
– Teilung des digitalen Signals in aufeinanderfolgende Blöcke einer Länge von beispielsweise 16 ms;
– Erkennung von Stimmaktivität zur Unterscheidung der Sprachblöcke von den Signalblöcken, die nur Geräusche enthalten;
– Fouriertransformierte jedes Sprachblocks zum Erhalt eines Spektrums X (ω), das eventuell einer Geräuschreduzierung durch Spektralsubstraktion von Schätzungen des Lärms unterzogen wird (siehe EP-A-0 534 837);
– Anwendung einer Wurzelkomprimierungsfunktion (oder einer Leistungsfunktion) zur Berechnung der |X(ω)|^γ, wobei γ einen festen oder adaptativen Exponenten mit einem Wert zwischen 0 und 2 bezeichnet (ebenso kann eine logarithmische Komprimierungsfunktion angewandt werden);
– inverse Fouriertransformation der Größen |X(ω)|^γ zum Erhalt der so genannten Cepstralkoeffizienten, die einen Vektor aus p Koeffizienten bilden (beispielsweise p ≈ 20). Dieser Cepstralvektor wird von der Einheit 8 in Bezug zu dem in Frage stehenden Block geliefert.

Jede Folge aufeinanderfolgender Blöcke, von denen festgestellt wurde, dass sie eine Stimmaktivität unterstützen, entspricht normalerweise einem von einem Sprecher ausgesprochenen Sprachsegment. Für jedes dieser Segmente liefert die Einheit 8 eine Folge von Cepstralvektoren, die von den Einheiten 9 und 10 verarbeitet werden können.
In dem hier beschriebenen Ausführungsbeispiel wird jede Referenz des Wörterverzeichnisses 11 einem Hidden-Markov-Modell zugeordnet, das durch eine Anzahl von Zuständen und für jeden Zustand von einem Wahrscheinlichkeitsdichtegesetz der Beobachtung der Cepstralvektoren gekennzeichnet ist. Diese Gesetze sind beispielsweise Gaußsche Gesetze mit einer Dimension p. Sie sind dann jeweils von einem Mittelwert (Vektor) und einer Varianz (Matrix) bestimmt.
Die Lernphase besteht in der Berechnung der Parameter der den Hidden-Markov-Modellen zugeordneten Wahrscheinlichkeitsgesetze. Für jede zu speichernde Referenz wird der Benutzer aufgefordert, das zugehörige Wort mehrmals auszusprechen, um der Einheit 10 eine ausreichende Feststellungsstatistik zu liefern, um ihr eine zuverlässige Einschätzung der Parameter der Wahrscheinlichkeitsgesetze bezogen auf die einzelnen Zustände des Modells zu ermöglichen.
Die für diese Schätzungen angewandten Verfahren sind herkömmlicher Art. Hierzu sei auf den vorgenannten Artikel von L. R. RABINER verwiesen.
Das erfindungsgemäße Erkennungsverfahren ist im Übrigen auch auf Systeme ohne Lernverfahren anwendbar.
Bestimmte in dem Wörterverzeichnis enthaltene Modelle 11 sind künstlich erzeugte Zurückweisungssmodelle, die vorzugsweise von der Einheit 9 gewählt werden sollen, wenn das dem Erkennungstest unterzogene Sprachsegment keinem der in dem Wörterverzeichnis gespeicherten Wörter entspricht.
Ein von der Einheit 9 durchgeführter Erkennungstest auf der Basis einer Folge von Cepstralvektoren, die aus einem von der Einheit 8 verarbeiteten Sprachsegment erhalten wurden, besteht in der Identifizierung des Modells oder der Modelle des Referenzwörterverzeichnisses 11, das (die) die Wahrscheinlichkeit des Feststellens einer Folge von Cepstralvektoren maximiert (maximieren). Ein klassisches Mittel für diese Identifizierung ist der Viterbi-Algorithmus. Für unterschiedliche Modelle des Wörterverzeichnisses ermöglicht ein Viterbi-Trellis die Bestimmung der Zustandsfolge, welche die Wahrscheinlichkeit des Feststellens einer Cepstralvektorenfolge maximiert. Das optimale Modell, für das die maximierte Wahrscheinlichkeit am größten ist, wird identifiziert, ebenso wie eventuell einige andere Modelle, für welche die maximierte Wahrscheinlichkeit relativ hoch ist. Es wird hier der Fall betrachtet, in dem der Erkennungstest für jedes verarbeitete Sprachsegment eine Liste von n Modellen ergibt, die in der Reihenfolge der abnehmenden Wahrscheinlichkeiten (n ≥ 1) geordnet werden. Der Test liefert somit ein optimales Modell (Anfang der Liste) und n – 1 weitere mögliche Modelle.
Der Erkennungstest wird durch Prüfung eines Wahrscheinlichkeitsknteriums zur Feststellung ergänzt, ob das Modell, das sich an erster Stelle in der Liste befindet, als dem von dem Sprecher Ausgesprochenen entsprechend erkannt werden soll oder nicht. Im zutreffenden Fall wird die diesem Modell zugeordnete Referenz als Ausgabe der Erkennungseinheit 9 erzeugt.
Es können unterschiedliche Arten von Wahrscheinlichkeitskriterien verwendet werden. Beispielsweise ist dies die Tatsache, dass die für das optimale Modell maximierte Wahrscheinlichkeit p_max einen vorbestimmten Schwellenwert S überschreitet.
Dieser Schwellenwert kann absolut sein; somit muss gelten p_max > S. Er kann auch im Verhältnis zur für das in der Liste an zweiter Stelle stehende Modell maximierten Wahrscheinlichkeit p'_max ausgedrückt sein; dann muss gelten p_max > S × p'_max. Das Wahrscheinlichkeitskriterium kann auch mehrere Unterkriterien zur Schwellenwerterstellung kombinieren.
Wenn das Wahrscheinlichkeitskriterium nicht geprüft wird, reicht der an der Aussprache des Sprachsegments vorgenommene Erkennungstest der Einheit 9 nicht für ihre Entscheidungsfindung aus.
In diesem Fall verlangt die Einheit 9 von dem Benutzer, das vorher ausgesprochene Wort zu wiederholen, beispielsweise durch Anzeige einer Meldung auf der Sichtanzeige 6 und/oder Ausgabe eines Beeptons über den Lautsprecher 7. Nachdem der Benutzer dieser Aufforderung entsprochen hat, erfolgt ein neuer Erkennungstest.
Wenn dieser neuer Erkennungstest zu einem Ergebnis führt (das Wahrscheinlichkeitskriterium ist überprüft), wird das durch diesen neuen Erkennungstest erhaltene optimale Modell ausgewählt und die entsprechende Referenz von der Einheit 9 ausgegeben.
Wenn das Wahrscheinlichkeitskriterium von dem optimalen Modell, das sich aus dem neuerlichen Erkennungstest ergeben hat, auch nicht überprüft wird, kann die Einheit 9 dennoch ein Modell auswählen und die entsprechende Referenz ausgeben, und zwar nach Kombination der Ergebnisse der an dem ersten Aussprechen des Worts und dessen Wiederholung vorgenommenen Erkennungstests und Prüfung eines oder mehrerer anderer Auswahlkriterien, die sich auf diese Kombination beziehen.
Einfache Beispiele solcher kombinierter Auswahlknterien sind durch die 2 und 3 für den besonderen Fall, dass n = 2 ist, dargestellt. In diesen Figuren beziehen sich Mi, p^j _i auf das Modell Nummer i, für das nach dem j-ten Aussprechen (j = 1,2) des Worts eine Wahrscheinlichkeit p^j _i berechnet wurde.
Ein erstes Kriterium, das durch 2 veranschaulicht ist, ist die Identität der optimalen Modelle, die die beiden Erkennungstests ergeben haben: wenn ein und dasselbe Modell M1 an erster Stelle in den von den auf das erste Aussprechen des Worts und dessen Wiederholung angewandten Erkennungstests gelieferten Listen steht, allerdings in beiden Fällen ohne Prüfung des Wahrscheinlichkeitskriteriums (p¹ ₁< S und p² ₁< S, oder p¹ ₁ < S × p¹ ₂ und p² ₁< S × p² ₃), kann dieses Modell dennoch von der Erkennungseinheit 9 ausgewählt werden. Es ist nämlich höchst unwahrscheinlich, dass das gleiche Modell zweimal hintereinander als optimal erscheint, ohne dass das entsprechende Wort ausgesprochen worden wäre.
Eine Variante dieses ersten Kriteriums wäre, wenn ein und dasselbe Modell M1 an erster Stelle in beiden Listen steht und in keinem der beiden Fälle das Wahrscheinlichkeitskriterium überprüft wurde, dieses Modell nur auszuwählen, wenn die eine und/oder andere der errechneten Wahrscheinlichkeiten p¹ ₁ und p² ₁ eine andere, weniger restriktive Bedingung verifizieren.
Ein zweites, durch 3 illustriertes kombiniertes Auswahlknterium besteht darin, dass ein und dasselbe Wortmodell M4 einerseits an erster Stelle in der von einem der beiden Erkennungstests gelieferten Liste steht, ohne Prüfung des Wahrscheinlichkeitskriteriums (p² ₄< S, oder p² ₄< S × p² ₅), und andererseits an zweiter Stelle, nach einem Zurückweisungsmodell MR in der von dem anderen der beiden Erkennungstests gelieferten Liste steht.
Im Übrigen können zahlreiche weitere kombinierte Auswahlkriterien von der Erkennungseinheit 9 verwendet werden.
Das Erkennungssystem der Erfindung ermöglicht es dem Benutzer, das ausgesprochene Wort zu wiederholen, ohne dazu besondere Handgriffe vornehmen zu müssen (Drücken einer Taste o. ä.). Die Leistung des Systems in einer verlärmten Umgebung kann durch die Möglichkeiten der kombinierten Auswahl verbessert werden. Um Auslösungen bei Hintergrundgeräuschen zu begrenzen, können für einzelne Tests auch im Verhältnis strengere Wahrscheinlichkeitskriterien gewählt werden. Löst das System dennoch auf ein Nebengeräusch hin aus, bleibt dem Benutzer die Möglichkeit, ein Wort auszusprechen, ohne das System durch besondere Manipulationen reaktivieren zu müssen.

Claims

Verfahren zur Spracherkennung, bei dem Erkennungstests eingesetzt werden, wobei jeder Erkennungstest ein Sprachsegment, das dem System geliefert wurde, mit mindestens einem Satz von Parametern vergleicht, der in einem Referenzwörterbuch (11) gespeichert ist, wobei das Verfahren folgende Schritte umfasst: – Anwendung des Erkennungstests auf ein von einem Sprecher ausgesprochenes Sprachsegment; – Prüfung, ob ein erster optimaler Satz von Parametern, mit dem der Erkennungstest das ausgesprochene Sprachsegment verglichen hat, einem Wahrscheinlichkeitskriterium entspricht; – wenn das Wahrscheinlichkeitskriterium durch den ersten optimalen Parametersatz erfüllt wird, Auswahl des ersten optimalen Parametersatzes; – wenn das Wahrscheinlichkeitskriterium nicht durch den ersten optimalen Parametersatz erfüllt wird, Aufforderung an den Sprecher, das Sprachsegment zu wiederholen; – Anwendung des Erkennungstests auf das von dem Sprecher wiederholte Sprachsegment; – Prüfung, ob ein zweiter optimaler Parametersatz, mit dem der Erkennungstest das wiederholte Sprachsegment verglichen hat, dem Wahrscheinlichkeitskriterium entspricht; – wenn das Wahrscheinlichkeitskriterium durch den zweiten optimalen Parametersatz erfüllt wird, Auswahl des zweiten optimalen Parametersatzes; – wenn das Wahrscheinlichkeitskriterium nicht durch den zweiten optimalen Parametersatz erfüllt wird und wenn eine Kombination aus den Ergeb nissen der beiden Erkennungstests mindestens einem Kriterium einer kombinierten Auswahl entspricht, Auswahl eines der beiden Parametersätze, die die beiden Erkennungstests dem ausgesprochenen und wiederholten Sprachsegment zugeordnet haben.
Verfahren nach Anspruch 1, bei dem jeder Erkennungstest eine Liste von n Parametersätzen des Wörterbuchs (11) liefert, die in Anbetracht der Prüfung des dem Test unterzogenen Sprachsegments die größten Wahrscheinlichkeiten aufweisen, wobei n eine Zahl mindestens gleich eins ist und wobei diese Liste entsprechend den abnehmenden Wahrscheinlichkeiten geordnet ist, wobei der erste und zweite optimale Parametersatz jeweils am Anfang der Liste stehen.
Verfahren nach Anspruch 2, bei dem ein Kriterium einer kombinierten Auswahl die Identität des ersten und zweiten optimalen Parametersatzes (M1) umfasst.
Verfahren nach Anspruch 2 oder 3, bei dem das Wörterbuch (11) mindestens einen Satz aus Zurückweisungsparametern enthält, bei dem n = 2, und bei dem das Kriterium der kombinierten Auswahl die Tatsache umfasst, dass ein und derselbe Parametersatz (M4), der kein Satz aus Zurückweisungsparametern ist, einerseits am Anfang der von einem der beiden Erkennungstests gelieferten Liste steht und andererseits an zweiter Stelle nach einem Satz aus Zurückweisungsparametern (MR) in der von dem anderen der beiden Erkennungstests gelieferten Liste steht.
Verfahren nach einem der vorstehenden Ansprüche, bei dem die in dem Referenzwörterbuch (11) gespeicherten Parametersätze Hidden-Markov-Modelle bilden.