DE69819438T2 - Verfahren zur Spracherkennung - Google Patents

Verfahren zur Spracherkennung Download PDF

Info

Publication number
DE69819438T2
DE69819438T2 DE69819438T DE69819438T DE69819438T2 DE 69819438 T2 DE69819438 T2 DE 69819438T2 DE 69819438 T DE69819438 T DE 69819438T DE 69819438 T DE69819438 T DE 69819438T DE 69819438 T2 DE69819438 T2 DE 69819438T2
Authority
DE
Germany
Prior art keywords
recognition
parameter set
criterion
probability
optimal parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69819438T
Other languages
English (en)
Other versions
DE69819438D1 (de
Inventor
Catherine Glorion
Laurent Lelièvre
Philip Lockwood
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Nortel Networks France SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nortel Networks France SAS filed Critical Nortel Networks France SAS
Application granted granted Critical
Publication of DE69819438D1 publication Critical patent/DE69819438D1/de
Publication of DE69819438T2 publication Critical patent/DE69819438T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

  • Die vorliegende Erfindung betrifft den Bereich der automatischen Spracherkennung.
  • Ein Spracherkennungssystem umfasst zwei hauptsächliche funktionale Einheiten: eine Parametrierungs- und eine Erkennungseinheit. Dazu kommt häufig noch eine Lerneinheit, die zur Erstellung des Referenzwörterbuchs bzw. -verzeichnisses dient, auf das die Erkennungseinheit zugreift.
  • Die Parametrierungseinheit berechnet relevante Parameter auf der Grundlage von von einem Mikrofon aufgefangenen Sprachsignalen. Diese Berechnungen werden entsprechend einer parametrischen Darstellung durchgeführt, zur bestmöglichen Differenzierung der vokalen Formen, indem die semantische Information, die in der Sprache der der Sprechweise eigenen ästhetischen Information enthalten ist, isoliert wird. Eine wichtige Klasse solcher Darstellungen wird von den Cepstraldarstellungen gebildet (s. EP-A-0 621 582).
  • Die Erkennungseinheit nimmt die Verknüpfung zwischen einem festgestellten Sprachsegment, das durch die von der Parametrierungseinheit berechneten Parameter dargestellt wird, und einer Referenz vor, für die ein weiterer Parametersatz in einem Referenzwörterverzeichnis gespeichert ist. Die in dem Wörterverzeichnis im Zusammenhang mit den einzelnen Referenzen gespeicherten Parametersätze können deterministische Modelle definieren (sie setzen sich beispielsweise direkt aus Vektoren aus der Parametrierungseinheit zusammen). Um den Unterschieden bei der Sprachentstehung und der akustischen Umgebung Rechnung zu tragen, werden jedoch meistens eher Parametersätze verwendet, die stochastische Modelle kennzeichnen. Eine wesentliche Klasse solcher Modelle besteht aus den Hidden-Markov-Modellen. Diese stochastischen Modelle ermöglichen durch die Ermittlung der höchsten Wahrscheinlichkeit die Identifizierung des Modells, das der betrachteten Parameterfolge am nächsten kommt, und die Auswahl der zu diesem Modell gehörenden Referenz (s. L. R. RABINER: "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings of the IEEE, Vol. 77, No. 2, Febr. 1989, S. 257– 285).
  • Im Allgemeinen beschränkt sich die Erkennung eines Worts oder eines Sprachsegments nicht auf die Ermittlung der höchsten Wahrscheinlichkeit. Damit bestimmt werden kann, ob das optimale Modell, das die höchste Wahrscheinlichkeit aufweist, tatsächlich ausgewählt werden soll, werden eines oder mehrere andere Wahrscheinlichkeitskriterien untersucht. Dieses Kriterium ist beispielsweise die Tatsache, dass die maximierte Wahrscheinlichkeit einen bestimmten Schwellenwert überschreitet. Nach Prüfung des Kriteriums wird das optimale Modell ausgesucht, und die Erkennungseinheit gibt ein Ergebnis aus.
  • Ansonsten können mehrere Lösungen verwendet werden: eine erste Lösung besteht darin, den Sprecher um eine Bestätigung zu bitten, dass das ausgesprochene Sprachsegment der Referenz, die zu dem optimalen Modell gehört, oder einer der Referenzen entspricht, die zu den n Modellen gehören, für welche die Wahrscheinlichkeiten am größten sind (s. EP-A-0 651 372). Der Benutzer muss in diesem Fall besondere Handgriffe vornehmen, um seine Auswahl zu bestätigen, was unergonomisch ist, insbesondere bei Freisprechmodus-Anwendungen.
  • Eine weitere Lösung besteht darin, den Sprecher zu einer Wiederholung dessen aufzufordern, was er gerade gesagt hat. Wenn das Wahrscheinlichkeitskriterium von dem als Ergebnis des auf diese Wiederholung angewandten Erkennungstests vorgeschlagenen optimalen Modell geprüft wird, ist die Er kennung gelungen. Im gegenteiligen Fall wird eine weitere Wiederholung verlangt, usw. Diese zweite Lösung ist nicht besonders gut an durch viele Sprecher verlärmte oder gestörte Umgebungen angepasst: die Geräusche, die das erste Aussprechen stören und dazu führen, dass das Wahrscheinlichkeitskriterium nicht überprüft werden kann, stören häufig auch die Wiederholung, wodurch das Wahrscheinlichkeitskriterium immer noch nicht überprüft werden kann, sodass der Benutzer ohne Erfolg mehrmals das gleiche Wort wiederholen muss. Sucht man diesem Nachteil durch Wahl eines strengeren Wahrscheinlichkeitskriteriums abzuhelfen, neigt das System dazu, in verlärmten Umgebungen zahlreiche falsche Ausführungen vorzunehmen.
  • Das Dokument EP-A-0 573 301 beschreibt ein Verfahren, bei dem zur Festlegung der Einordnung, auf der die Erkennung beruht, die a priori Aussprache-Wahrscheinlichkeit eines einer Referenz zugeordneten Worts nach Wiederholung durch den Sprecher durch die konditionale Aussprache-Wahrscheinlichkeit dieses Worts ersetzt wird, wobei vorausgesetzt ist, dass beide Male das gleiche Wort ausgesprochen wurde. Die konditionale Wahrscheinlichkeit wird mit Hilfe einer Entwicklung nach der Bayes-Formel berechnet. Dieses Verfahren sucht die absoluten Werte der Erkennungsergebnisse unterschiedlicher Einträge des Referenzwörterverzeichnisses zu präzisieren.
  • Ein Ziel der vorliegenden Erfindung besteht darin, eine wirksame Lösung zur Spracherkennung in Zweifelsfällen vorzustellen.
  • Die Erfindung schlägt somit ein Verfahren zur Spracherkennung vor, bei dem Erkennungstests eingesetzt werden, wobei jeder Erkennungstest ein Sprachsegment, das dem System geliefert wurde, mit mindestens einem Satz von Parametern vergleicht, der in einem Referenzwörterverzeichnis gespeichert ist. Das Verfahren umfasst folgende Schritte:
    • – Anwendung des Erkennungstests auf ein von einem Sprecher ausgesprochenes Sprachsegment;
    • – Prüfung, ob ein erster optimaler Satz von Parametern, mit dem der Er kennungstest das ausgesprochene Sprachsegment verglichen hat, einem Wahrscheinlichkeitskriterium entspricht;
    • – wenn das Wahrscheinlichkeitskriterium durch den ersten optimalen Parametersatz erfüllt wird, Auswahl des ersten optimalen Parametersatzes;
    • – wenn das Wahrscheinlichkeitskriterium nicht durch den ersten optimalen Parametersatz erfüllt wird, Aufforderung an den Sprecher, das Sprachsegment zu wiederholen;
    • – Anwendung des Erkennungstests auf das von dem Sprecher wiederholte Sprachsegment;
    • – Prüfung, ob ein zweiter optimaler Parametersatz, mit dem der Erkennungstest das wiederholte Sprachsegment verglichen hat, dem Wahrscheinlichkeitskriterium entspricht;
    • – wenn das Wahrscheinlichkeitskriterium durch den zweiten optimalen Parametersatz erfüllt wird, Auswahl des zweiten optimalen Parametersatzes;
    • – wenn das Wahrscheinlichkeitskriterium nicht durch den zweiten optimalen Parametersatz erfüllt wird und wenn eine Kombination aus den Ergebnissen der beiden Erkennungstests mindestens einem Kriterium einer kombinierten Auswahl entspricht, Auswahl eines der beiden Parametersätze, die die beiden Erkennungstests dem ausgesprochenen und wiederholten Sprachsegment zugeordnet haben.
  • Wenn die Wahrscheinlichkeitskriterien, die getrennt auf zwei Feststellungen ein und desselben Wortes oder Sprachsegments angewandt werden, auch unzureichend für eine erfolgreiche Erkennung sein können, so kann häufig eine adäquate Entscheidung durch Kombination dieser beiden Feststellungen und Prüfung weiterer Kriterien getroffen werden, die die Kombination betreffen. Die Erfindung macht sich dies zunutze und verbessert so den Erkennungsgrad bei einer gegebenen Wahrscheinlichkeit falscher Ausführungen oder zur Verringerung der Wahrscheinlichkeit falscher Ausführungen bei einem gegebenen Erkennungsgrad.
  • Bei einer typischen Ausführungsform liefert jeder Erkennungstest eine Liste von n ≥ 1 Parametersätzen des Wörterverzeichnisses, die in Anbetracht der Betrachtung des dem Test unterzogenen Sprachsegments die größten Wahrscheinlichkeiten aufweisen, wobei diese Liste entsprechend den abnehmenden Wahrscheinlichkeiten geordnet ist. Der erste und zweite optimale Parametersatz stehen dabei jeweils am Anfang der Liste.
  • Die verwendbaren Kriterien der kombinierten Auswahl können umfassen:
    • – die Identität des ersten und zweiten optimalen Parametersatzes,
    • – wenn das Wörterverzeichnis mindestens einen Satz Zurückweisungsparameter enthält, bei dem n ≥ 2, die Tatsache, dass ein und derselbe Parametersatz, der nicht der Zurückweisungsparametersatz ist, einerseits an erster Stelle in der von einem der beiden Erkennungstests gelieferten Liste und andererseits an zweiter Stelle nach einem Zurückweisungsparametersatz in der von dem anderen der beiden Erkennungstests gelieferten Liste steht.
  • Bei der Anwendung solcher Kriterien nutzt man die Tatsache, das die von den einzelnen Erkennungstests gelieferten Einordnungen verhältnismäßig zuverlässig sind. Die vorgenannten Kriterien beruhen eher auf Einordnungen als auf den absoluten Werten der Ergebnisse, deren Präzisierung mittels der Bayes-Formel oder einer anderen Gewichtungsformel nicht unbedingt eine häufigere Erkennung ergeben, insbesondere in verlärmten Umgebungen.
  • Weitere Besonderheiten und Vorteile der vorliegenden Erfindung gehen aus der nachfolgenden Beschreibung nicht einschränkender Ausführungsbeispiele hervor, die sich auf die beiliegenden Zeichnungen beziehen, in denen:
  • 1 ein Funktionsschema eines Erkennungssystems ist, das auf die vorliegende Erfindung zurückgreift; und
  • 2 und 3 Diagramme sind, die Kriterien der kombinierten Auswahl darstellen, die in dem System der 1 geprüft werden können.
  • Das in 1 dargestellte Spracherkennungssystem hat eine Benutzerschnittstelle, die aus einem Mikrofon 4, einer Tastatur 5, einer Sichtanzeige 6 und einem Lautsprecher 7 besteht.
  • Die von dem Mikrofon 4 gelieferten akustischen Signale werden in eine Signalverarbeitungseinheit 8 gespeist, die der Erkennungseinheit 9 und der Lerneinheit 10 die relevanten Parameter liefert.
  • Die Tastatur 5, die Sichtanzeige 6 und der Lautsprecher 7 dienen insbesondere dem Dialog zwischen dem Benutzer und der Erkennungseinheit 9 und der Lerneinheit 10.
  • Das Erkennungssystem umfasst des Weiteren einen Speicher 11, der ein Referenzwörterverzeichnis bildet. In diesem Wörterverzeichnis speichert die Lerneinheit 10 Modelle, die mit Referenzen verknüpft sind. Während der Erkennungsphase analysiert die Einheit 9 die von der Einheit 8 gelieferten Parameter und weist ihnen ein Modell, d. h. einen Satz von in dem Wörterverzeichnis 11 gespeicherten Parametern, zu und liefert die zugehönge Referenz als Ausgabe des Erkennungssystems. Diese Referenz kann dann von der Ausrüstung verwendet werden, zu der das Erkennungssystem gehört.
  • Als Veranschaulichungsbeispiel kann diese Ausrüstung ein Telefonendgerät nach Art einer Freisprechanlage sein, bei dem das Erkennungssystem zur Steuerung von Funktionen wie dem automatischen Wählen verwendet wird, als Reaktion auf von dem Benutzer ausgesprochene Namen der Teilnehmer und/oder Befehlswörter. Das Mikrofon 4, die Tastatur 5, die Sichtanzeige 6 und der Lautsprecher 7 können von denen gebildet werden, die ohnehin zum Telefonendgerät gehören.
  • Im Rahmen der Erfindung können unterschiedliche Arten von für die Stimmstrukturen repräsentativen Parametern verwendet werden, die von der Einheit 8 berechnet wurden. Als Beispiel können dies Wurzel-Cepstralkoeffizienten sein. Zur genaueren Erläuterung dieser Art Darstellung wird auf die europäische Patentanmeldung 0 621 582 verwiesen. Die Signalverarbeitungs einheit 8 kann somit folgende Schritte ausführen:
    • – Digitalisierung des von dem Mikrofon 4 gelieferten Signals;
    • – Teilung des digitalen Signals in aufeinanderfolgende Blöcke einer Länge von beispielsweise 16 ms;
    • – Erkennung von Stimmaktivität zur Unterscheidung der Sprachblöcke von den Signalblöcken, die nur Geräusche enthalten;
    • – Fouriertransformierte jedes Sprachblocks zum Erhalt eines Spektrums X (ω), das eventuell einer Geräuschreduzierung durch Spektralsubstraktion von Schätzungen des Lärms unterzogen wird (siehe EP-A-0 534 837);
    • – Anwendung einer Wurzelkomprimierungsfunktion (oder einer Leistungsfunktion) zur Berechnung der |X(ω)|γ, wobei γ einen festen oder adaptativen Exponenten mit einem Wert zwischen 0 und 2 bezeichnet (ebenso kann eine logarithmische Komprimierungsfunktion angewandt werden);
    • – inverse Fouriertransformation der Größen |X(ω)|γ zum Erhalt der so genannten Cepstralkoeffizienten, die einen Vektor aus p Koeffizienten bilden (beispielsweise p ≈ 20). Dieser Cepstralvektor wird von der Einheit 8 in Bezug zu dem in Frage stehenden Block geliefert.
  • Jede Folge aufeinanderfolgender Blöcke, von denen festgestellt wurde, dass sie eine Stimmaktivität unterstützen, entspricht normalerweise einem von einem Sprecher ausgesprochenen Sprachsegment. Für jedes dieser Segmente liefert die Einheit 8 eine Folge von Cepstralvektoren, die von den Einheiten 9 und 10 verarbeitet werden können.
  • In dem hier beschriebenen Ausführungsbeispiel wird jede Referenz des Wörterverzeichnisses 11 einem Hidden-Markov-Modell zugeordnet, das durch eine Anzahl von Zuständen und für jeden Zustand von einem Wahrscheinlichkeitsdichtegesetz der Beobachtung der Cepstralvektoren gekennzeichnet ist. Diese Gesetze sind beispielsweise Gaußsche Gesetze mit einer Dimension p. Sie sind dann jeweils von einem Mittelwert (Vektor) und einer Varianz (Matrix) bestimmt.
  • Die Lernphase besteht in der Berechnung der Parameter der den Hidden-Markov-Modellen zugeordneten Wahrscheinlichkeitsgesetze. Für jede zu speichernde Referenz wird der Benutzer aufgefordert, das zugehörige Wort mehrmals auszusprechen, um der Einheit 10 eine ausreichende Feststellungsstatistik zu liefern, um ihr eine zuverlässige Einschätzung der Parameter der Wahrscheinlichkeitsgesetze bezogen auf die einzelnen Zustände des Modells zu ermöglichen.
  • Die für diese Schätzungen angewandten Verfahren sind herkömmlicher Art. Hierzu sei auf den vorgenannten Artikel von L. R. RABINER verwiesen.
  • Das erfindungsgemäße Erkennungsverfahren ist im Übrigen auch auf Systeme ohne Lernverfahren anwendbar.
  • Bestimmte in dem Wörterverzeichnis enthaltene Modelle 11 sind künstlich erzeugte Zurückweisungssmodelle, die vorzugsweise von der Einheit 9 gewählt werden sollen, wenn das dem Erkennungstest unterzogene Sprachsegment keinem der in dem Wörterverzeichnis gespeicherten Wörter entspricht.
  • Ein von der Einheit 9 durchgeführter Erkennungstest auf der Basis einer Folge von Cepstralvektoren, die aus einem von der Einheit 8 verarbeiteten Sprachsegment erhalten wurden, besteht in der Identifizierung des Modells oder der Modelle des Referenzwörterverzeichnisses 11, das (die) die Wahrscheinlichkeit des Feststellens einer Folge von Cepstralvektoren maximiert (maximieren). Ein klassisches Mittel für diese Identifizierung ist der Viterbi-Algorithmus. Für unterschiedliche Modelle des Wörterverzeichnisses ermöglicht ein Viterbi-Trellis die Bestimmung der Zustandsfolge, welche die Wahrscheinlichkeit des Feststellens einer Cepstralvektorenfolge maximiert. Das optimale Modell, für das die maximierte Wahrscheinlichkeit am größten ist, wird identifiziert, ebenso wie eventuell einige andere Modelle, für welche die maximierte Wahrscheinlichkeit relativ hoch ist. Es wird hier der Fall betrachtet, in dem der Erkennungstest für jedes verarbeitete Sprachsegment eine Liste von n Modellen ergibt, die in der Reihenfolge der abnehmenden Wahrscheinlichkeiten (n ≥ 1) geordnet werden. Der Test liefert somit ein optimales Modell (Anfang der Liste) und n – 1 weitere mögliche Modelle.
  • Der Erkennungstest wird durch Prüfung eines Wahrscheinlichkeitsknteriums zur Feststellung ergänzt, ob das Modell, das sich an erster Stelle in der Liste befindet, als dem von dem Sprecher Ausgesprochenen entsprechend erkannt werden soll oder nicht. Im zutreffenden Fall wird die diesem Modell zugeordnete Referenz als Ausgabe der Erkennungseinheit 9 erzeugt.
  • Es können unterschiedliche Arten von Wahrscheinlichkeitskriterien verwendet werden. Beispielsweise ist dies die Tatsache, dass die für das optimale Modell maximierte Wahrscheinlichkeit pmax einen vorbestimmten Schwellenwert S überschreitet.
  • Dieser Schwellenwert kann absolut sein; somit muss gelten pmax > S. Er kann auch im Verhältnis zur für das in der Liste an zweiter Stelle stehende Modell maximierten Wahrscheinlichkeit p'max ausgedrückt sein; dann muss gelten pmax > S × p'max. Das Wahrscheinlichkeitskriterium kann auch mehrere Unterkriterien zur Schwellenwerterstellung kombinieren.
  • Wenn das Wahrscheinlichkeitskriterium nicht geprüft wird, reicht der an der Aussprache des Sprachsegments vorgenommene Erkennungstest der Einheit 9 nicht für ihre Entscheidungsfindung aus.
  • In diesem Fall verlangt die Einheit 9 von dem Benutzer, das vorher ausgesprochene Wort zu wiederholen, beispielsweise durch Anzeige einer Meldung auf der Sichtanzeige 6 und/oder Ausgabe eines Beeptons über den Lautsprecher 7. Nachdem der Benutzer dieser Aufforderung entsprochen hat, erfolgt ein neuer Erkennungstest.
  • Wenn dieser neuer Erkennungstest zu einem Ergebnis führt (das Wahrscheinlichkeitskriterium ist überprüft), wird das durch diesen neuen Erkennungstest erhaltene optimale Modell ausgewählt und die entsprechende Referenz von der Einheit 9 ausgegeben.
  • Wenn das Wahrscheinlichkeitskriterium von dem optimalen Modell, das sich aus dem neuerlichen Erkennungstest ergeben hat, auch nicht überprüft wird, kann die Einheit 9 dennoch ein Modell auswählen und die entsprechende Referenz ausgeben, und zwar nach Kombination der Ergebnisse der an dem ersten Aussprechen des Worts und dessen Wiederholung vorgenommenen Erkennungstests und Prüfung eines oder mehrerer anderer Auswahlkriterien, die sich auf diese Kombination beziehen.
  • Einfache Beispiele solcher kombinierter Auswahlknterien sind durch die 2 und 3 für den besonderen Fall, dass n = 2 ist, dargestellt. In diesen Figuren beziehen sich Mi, pj i auf das Modell Nummer i, für das nach dem j-ten Aussprechen (j = 1,2) des Worts eine Wahrscheinlichkeit pj i berechnet wurde.
  • Ein erstes Kriterium, das durch 2 veranschaulicht ist, ist die Identität der optimalen Modelle, die die beiden Erkennungstests ergeben haben: wenn ein und dasselbe Modell M1 an erster Stelle in den von den auf das erste Aussprechen des Worts und dessen Wiederholung angewandten Erkennungstests gelieferten Listen steht, allerdings in beiden Fällen ohne Prüfung des Wahrscheinlichkeitskriteriums (p1 1 < S und p2 1< S, oder p1 1 < S × p1 2 und p2 1 < S × p2 3), kann dieses Modell dennoch von der Erkennungseinheit 9 ausgewählt werden. Es ist nämlich höchst unwahrscheinlich, dass das gleiche Modell zweimal hintereinander als optimal erscheint, ohne dass das entsprechende Wort ausgesprochen worden wäre.
  • Eine Variante dieses ersten Kriteriums wäre, wenn ein und dasselbe Modell M1 an erster Stelle in beiden Listen steht und in keinem der beiden Fälle das Wahrscheinlichkeitskriterium überprüft wurde, dieses Modell nur auszuwählen, wenn die eine und/oder andere der errechneten Wahrscheinlichkeiten p1 1 und p2 1 eine andere, weniger restriktive Bedingung verifizieren.
  • Ein zweites, durch 3 illustriertes kombiniertes Auswahlknterium besteht darin, dass ein und dasselbe Wortmodell M4 einerseits an erster Stelle in der von einem der beiden Erkennungstests gelieferten Liste steht, ohne Prüfung des Wahrscheinlichkeitskriteriums (p2 4 < S, oder p2 4 < S × p2 5), und andererseits an zweiter Stelle, nach einem Zurückweisungsmodell MR in der von dem anderen der beiden Erkennungstests gelieferten Liste steht.
  • Im Übrigen können zahlreiche weitere kombinierte Auswahlkriterien von der Erkennungseinheit 9 verwendet werden.
  • Das Erkennungssystem der Erfindung ermöglicht es dem Benutzer, das ausgesprochene Wort zu wiederholen, ohne dazu besondere Handgriffe vornehmen zu müssen (Drücken einer Taste o. ä.). Die Leistung des Systems in einer verlärmten Umgebung kann durch die Möglichkeiten der kombinierten Auswahl verbessert werden. Um Auslösungen bei Hintergrundgeräuschen zu begrenzen, können für einzelne Tests auch im Verhältnis strengere Wahrscheinlichkeitskriterien gewählt werden. Löst das System dennoch auf ein Nebengeräusch hin aus, bleibt dem Benutzer die Möglichkeit, ein Wort auszusprechen, ohne das System durch besondere Manipulationen reaktivieren zu müssen.

Claims (5)

  1. Verfahren zur Spracherkennung, bei dem Erkennungstests eingesetzt werden, wobei jeder Erkennungstest ein Sprachsegment, das dem System geliefert wurde, mit mindestens einem Satz von Parametern vergleicht, der in einem Referenzwörterbuch (11) gespeichert ist, wobei das Verfahren folgende Schritte umfasst: – Anwendung des Erkennungstests auf ein von einem Sprecher ausgesprochenes Sprachsegment; – Prüfung, ob ein erster optimaler Satz von Parametern, mit dem der Erkennungstest das ausgesprochene Sprachsegment verglichen hat, einem Wahrscheinlichkeitskriterium entspricht; – wenn das Wahrscheinlichkeitskriterium durch den ersten optimalen Parametersatz erfüllt wird, Auswahl des ersten optimalen Parametersatzes; – wenn das Wahrscheinlichkeitskriterium nicht durch den ersten optimalen Parametersatz erfüllt wird, Aufforderung an den Sprecher, das Sprachsegment zu wiederholen; – Anwendung des Erkennungstests auf das von dem Sprecher wiederholte Sprachsegment; – Prüfung, ob ein zweiter optimaler Parametersatz, mit dem der Erkennungstest das wiederholte Sprachsegment verglichen hat, dem Wahrscheinlichkeitskriterium entspricht; – wenn das Wahrscheinlichkeitskriterium durch den zweiten optimalen Parametersatz erfüllt wird, Auswahl des zweiten optimalen Parametersatzes; – wenn das Wahrscheinlichkeitskriterium nicht durch den zweiten optimalen Parametersatz erfüllt wird und wenn eine Kombination aus den Ergeb nissen der beiden Erkennungstests mindestens einem Kriterium einer kombinierten Auswahl entspricht, Auswahl eines der beiden Parametersätze, die die beiden Erkennungstests dem ausgesprochenen und wiederholten Sprachsegment zugeordnet haben.
  2. Verfahren nach Anspruch 1, bei dem jeder Erkennungstest eine Liste von n Parametersätzen des Wörterbuchs (11) liefert, die in Anbetracht der Prüfung des dem Test unterzogenen Sprachsegments die größten Wahrscheinlichkeiten aufweisen, wobei n eine Zahl mindestens gleich eins ist und wobei diese Liste entsprechend den abnehmenden Wahrscheinlichkeiten geordnet ist, wobei der erste und zweite optimale Parametersatz jeweils am Anfang der Liste stehen.
  3. Verfahren nach Anspruch 2, bei dem ein Kriterium einer kombinierten Auswahl die Identität des ersten und zweiten optimalen Parametersatzes (M1) umfasst.
  4. Verfahren nach Anspruch 2 oder 3, bei dem das Wörterbuch (11) mindestens einen Satz aus Zurückweisungsparametern enthält, bei dem n = 2, und bei dem das Kriterium der kombinierten Auswahl die Tatsache umfasst, dass ein und derselbe Parametersatz (M4), der kein Satz aus Zurückweisungsparametern ist, einerseits am Anfang der von einem der beiden Erkennungstests gelieferten Liste steht und andererseits an zweiter Stelle nach einem Satz aus Zurückweisungsparametern (MR) in der von dem anderen der beiden Erkennungstests gelieferten Liste steht.
  5. Verfahren nach einem der vorstehenden Ansprüche, bei dem die in dem Referenzwörterbuch (11) gespeicherten Parametersätze Hidden-Markov-Modelle bilden.
DE69819438T 1997-09-29 1998-09-25 Verfahren zur Spracherkennung Expired - Fee Related DE69819438T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9712087 1997-09-29
FR9712087A FR2769118B1 (fr) 1997-09-29 1997-09-29 Procede de reconnaissance de parole

Publications (2)

Publication Number Publication Date
DE69819438D1 DE69819438D1 (de) 2003-12-11
DE69819438T2 true DE69819438T2 (de) 2004-09-09

Family

ID=9511582

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69819438T Expired - Fee Related DE69819438T2 (de) 1997-09-29 1998-09-25 Verfahren zur Spracherkennung

Country Status (5)

Country Link
US (1) US6246980B1 (de)
EP (1) EP0905677B1 (de)
AT (1) ATE253763T1 (de)
DE (1) DE69819438T2 (de)
FR (1) FR2769118B1 (de)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6885990B1 (en) 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress
US6850888B1 (en) * 2000-10-06 2005-02-01 International Business Machines Corporation Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function
US6754625B2 (en) * 2000-12-26 2004-06-22 International Business Machines Corporation Augmentation of alternate word lists by acoustic confusability criterion
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US7440895B1 (en) 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
WO2007118030A2 (en) * 2006-04-03 2007-10-18 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024597A (ja) 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US5003603A (en) 1984-08-20 1991-03-26 Gus Searcy Voice recognition system
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPH0632012B2 (ja) 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4783803A (en) 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
JPS62232000A (ja) 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
FI103193B (fi) * 1995-12-21 1999-05-14 Suunto Oy Sukellustietokone
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure

Also Published As

Publication number Publication date
US6246980B1 (en) 2001-06-12
FR2769118A1 (fr) 1999-04-02
EP0905677A1 (de) 1999-03-31
FR2769118B1 (fr) 1999-12-03
ATE253763T1 (de) 2003-11-15
DE69819438D1 (de) 2003-12-11
EP0905677B1 (de) 2003-11-05

Similar Documents

Publication Publication Date Title
DE69819438T2 (de) Verfahren zur Spracherkennung
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69838189T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69636057T2 (de) Sprecherverifizierungssystem
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE60108373T2 (de) Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE60004331T2 (de) Sprecher-erkennung
DE19630109A1 (de) Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern

Legal Events

Date Code Title Description
8339 Ceased/non-payment of the annual fee