DE10304460B3 - Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung - Google Patents

Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung Download PDF

Info

Publication number
DE10304460B3
DE10304460B3 DE10304460A DE10304460A DE10304460B3 DE 10304460 B3 DE10304460 B3 DE 10304460B3 DE 10304460 A DE10304460 A DE 10304460A DE 10304460 A DE10304460 A DE 10304460A DE 10304460 B3 DE10304460 B3 DE 10304460B3
Authority
DE
Germany
Prior art keywords
variants
pronunciation
word
pronunciation variants
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10304460A
Other languages
English (en)
Inventor
Tobias Dr. Schneider
Andreas Schröer
Günter Steinmassl
Michael Wandinger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10304460A priority Critical patent/DE10304460B3/de
Priority to EP04704214A priority patent/EP1590795A1/de
Priority to PCT/EP2004/000527 priority patent/WO2004070702A1/de
Priority to US10/544,596 priority patent/US20060143008A1/en
Application granted granted Critical
Publication of DE10304460B3 publication Critical patent/DE10304460B3/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Ein Verfahren zur Spracherkennung basiert auf einer dynamischen Erweiterung der Wortmodelle in Kombination mit einer Bewertung der Aussprachevarianten.

Description

  • Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
  • In der phonembasierten Spracherkennung müssen für alle dem Vokabular zugehörigen Wörter die ihnen entsprechenden Phonemfolgen bekannt sein. Diese Phonemfolgen werden im Vokabular eingetragen. Während des eigentlichen Erkennungsvorgangs erfolgt dann im so genannten Viterbi-Algorithmus eine Suche nach dem besten Pfad durch die gegebenen Phonemfolgen, die den Wörtern entsprechen. Findet keine bloße Einzelworterkennung statt, können auch Wahrscheinlichkeiten für Übergänge zwischen den Wörtern modelliert und in den Viterbi-Algorithmus einbezogen werden.
  • Problematisch erweist sich oft die Erkennung von gesprochenen Äußerungen, die von der kanonischen phonetischen Umschreibung eines Wortes, die üblicherweise im Vokabular verwendet wird, (Transkription) abweichen bzw. sich diskriminativ von den Äußerungen unterscheiden, die während des Trainings eines Wortmodells zugrunde lagen.
  • Derartige Äußerungen können durch die vorhandenen Modelle nicht mehr richtig klassifiziert werden und es kommt zu einer Fehlerkennung. Die Ursachen dieser Unterschiede liegen unter anderem im speziellen Akzent des Sprechers wie auch in der jeweiligen Ausprägung der Äußerung, die beispielsweise schnell, undeutlich oder sehr langsam gesprochen sein kann. Stationäre und impulsive Störgeräusche können ebenfalls zu einer Fehlklassifikation führen.
  • Des Weiteren unterliegen technische Systeme, besonders Systeme auf so genannten embedded Plattformen, also beispielsweise in Mobiltelefonen, einer Ressourcenbeschränkung, welche sich auf die Größe bzw. Mächtigkeit der Modellierung auswirkt.
  • Viele Anwendungsszenarien in der Spracherkennung beruhen auf einer Erweiterung der Wortmodelle im Spracherkenner bzw. der Adaption von bereits im Spracherkenner vorhandenen Wortmodellen.
  • Beim so genannten SayIn wird durch Einsprechen einer Äußerung (Enrollment) ein neues Wortmodell generiert. Durch ein zweimaliges Enrollment stehen dem Spracherkenner zwei unterschiedliche Aussprachevarianten für die Klassifikation eines Wortes zur Verfügung. Dadurch wird die Wortfehlerrate verringert, da die diskriminativen Unterschiede besser erfasst werden.
  • Beim so genannten TypeIn wird durch vordefinierte Regeln bzw. durch statistische Ansätze von der orthografischen Schreibweise auf das phonetische Modell geschlossen. Da ein geschriebenes Wort in unterschiedlichen Sprachen auch unterschiedlich ausgesprochen wird, können für jeweils ein Wort mehrere Aussprachevarianten im Vokabular generiert werden. In der Literatur existieren daneben zahlreiche Verfahren, Aussprachevarianten zu erzeugen. Durch die Vielzahl an Aussprachevarianten wird wiederum die Wortfehlerrate verringert.
  • Diesen Verfahren ist jedoch gemeinsam, dass zum Zeitpunkt der Modellierung nicht bekannt ist, welche der jeweiligen Aussprachevarianten für einen individuellen Anwender bei der Erkennung relevant sind. Dies ist insbesondere beim TypeIn der Fall, da der jeweilige Akzent des Sprechers nicht berücksichtigt wird.
  • Zur Verringerung der Wortfehlerrate werden Spracherkennungssysteme auf ihren jeweiligen Benutzer angepasst. Bei der Adaption von Wortmodellen wird durch Transformation, wie zum Beispiel Maximum Likelihood Linear Regression (MLLR), oder durch Modellparameter-Vorhersage wie zum Beispiel Regression Model Prediction (RMP) oder Maximum A Posteriori Prediction (MAP), die den Wortmodellen zugrunde liegende akustische Modellierung des Merkmalsraums adaptiert, die beispielsweise als Hidden-Markov-Modell (HMM) vorliegt. Dadurch wird ein Systemzustand erreicht, der auf den jeweiligen Anwender stark angepasst ist. Andere Benutzer hingegen werden in einem solchen System nicht mehr ausreichend gut erkannt.
  • Der Spracherkenner wird hier also von einem sprecherunabhängigen zu einem sprecherabhängigen System verändert.
  • Normalerweise steigt die Komplexität, das heißt der Speicherplatzverbrauch, mit der Anzahl an möglichen Worten im Spracherkenner. Bei embedded Systemen steht oft nur ein sehr begrenzter Speicherplatz zur Verfügung, der bei einer kleinen Anzahl an Wörtern im Spracherkenner nicht ausgenutzt wird.
  • Aus den Druckschriften DE 693 24 428 T2 und DE 39 31 638 A1 ist jeweils ein Verfahren zur Spracherkennung bekannt, bei dem zu einem Wort mehrere Aussprachevarianten vorliegen und/oder generiert werden.
  • Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine Spracherkennung mit einer verringerten Wortfehlerrate zur Verfügung zu stellen, die besonders anpassungsfähig ist und nur einen sehr geringen Ressourcenverbrauch hat.
  • Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.
  • Bei einem Verfahren zur Spracherkennung sind, beispielsweise im Speicher einer Vorrichtung, die für das Verfahren eingerichtet ist, zu einem zu erkennenden Wort mehrere Aussprachevarianten gespeichert. Alternativ oder ergänzend können diese mehreren Aussprachevarianten aber auch erst generiert und dem Vokabular hinzugefügt werden. Bei jedem Erkennungsvorgang wird für dieses Wort registriert, welche der Aussprachevarianten des Worts erkannt wird. Nach mehreren Erkennungsvorgängen wird dann eine Bewertung der Aussprachevarianten anhand der Tatsache vorgenommen, wie oft die Aussprachevarianten jeweils erkannt wurden.
  • Die Häufigkeit der Erkennung wird hier als einfachstes und am wenigsten Ressourcen verbrauchendes Kriterium herangezogen. Natürlich sind aber auch kompliziertere Bewertungsverfahren denkbar, bei denen beispielsweise auch das Maß der Übereinstimmung zwischen der zu erkennenden Äußerung und der jeweils erkannten Aussprachevariante berücksichtigt wird.
  • Das Verfahren kann mit vorhandenen, im Vokabular abgespeicherten Wörtern arbeiten. Einen sehr entscheidenden Vorteil erhält das Verfahren allerdings, wenn sich die Wortmodelle alternativ oder ergänzend dynamisch erweitern lassen. Dazu werden bei Hinzufügen eines neuen Wortes zum Vokabular automatisch mehrere Aussprachevarianten des neuen Wortes generiert und ebenfalls zum Vokabular hinzugefügt.
  • Mehrere Aussprachevarianten für ein Wort lassen sich beispielsweise durch Phonem-Ersetzung, Phonem-Auslöschung und/oder Phonem-Einfügung generieren.
  • Gerade bei länderunabhängigen Spracherkennern kann es auch vorteilhaft sein, wenn die Aussprachevarianten für verschiedene Sprachen generiert werden.
  • Insbesondere beim SayIn können Aussprachevarianten z.B. auch durch Addition von Rauschen auf das eingesprochene Signal (Signal im weiteren Sinne, also Sprache, Merkmal, Phonemkette) erstellt werden.
  • Als Erweiterung kann aber alternativ oder zusätzlich auch bei der Erkennung aufgrund einer Äußerung aus dieser Äußerung eine weitere Aussprachevariante für das gesprochene Wort generiert werden.
  • Eine besonders gute Ausnutzung des zur Verfügung stehenden Speichers lässt sich erreichen, wenn für mehrere Worte jeweils eine maximale Anzahl von Aussprachevarianten generiert wird.
  • Ein weiterer wichtiger Aspekt der Erfindung betrifft die Bewertung der Aussprachevarianten.
  • Mit dem Verfahren lässt sich vorteilhaft Speicherplatz sparen, wenn aufgrund der Bewertung der Aussprachevarianten die Anzahl der gespeicherten Aussprachevarianten reduziert wird. Dies lässt sich zum Beispiel dadurch erzielen, dass weniger häufig erkannte Aussprachevarianten gelöscht werden.
  • Vorzugsweise werden dabei solche Aussprachevarianten gelöscht, deren Konfidenz unter einem Schwellwert liegt.
  • Der Spracherkenner lässt sich hierbei aber auch weiterhin sprecherunabhängig halten, wenn zusätzlich die Vorgabe gemacht wird, dass die kanonische Aussprachevariante des Wortes nie gelöscht wird.
  • Eine Vorrichtung, die eingerichtet ist, das zuvor beschriebene Verfahren auszuführen, lässt sich beispielsweise durch das jeweilige Vorsehen von Mitteln realisieren, durch die jeweils einer oder mehrere Verfahrensschritte ausführbar sind. Vorteilhafte Ausgestaltungen der Vorrichtung ergeben sich analog zu den vorteilhaften Ausgestaltungen des Verfahrens.
  • Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.
  • Weitere wesentliche Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels.
  • Das vorgeschlagene Verfahren basiert auf einer dynamischen Erweiterung der Wortmodelle in Kombination mit einer Bewertung der Aussprachevarianten.
  • Zum Erkennervokabular werden beim Hinzufügen eines neuen Wortes gleichzeitig mehrere Aussprachevarianten dieses Wortes generiert die ebenfalls zum Vokabular hinzugefügt werden. Diese Varianten unterscheiden sich jeweils phonetisch und können, je nach verwendeter Technologie, auf unterschiedliche Art und Weise erstellt werden.
  • Dabei wird der zur Verfügung stehende Speichersatz für die Aussprachevarianten optimal ausgenutzt, indem eine maximale Anzahl an Varianten erzeugt wird.
  • Bei jeder Erkennung wird neben der eigentlichen Klassifikation der Modelle eine Bewertung aller Aussprachevarianten durchgeführt. Bei erfolgreicher Erkennung, also keine Fehlerkennung, werden diese Konfidenzen jeweils auf bereits erzielte Konfidenzen aus vorhergegangenen Erkennungsläufen der Aussprachevarianten aufsummiert, eine einfache "boolsche" Konfidenz ist hierbei der Wert 1, wenn die Aussprachevarianten die für diese Erkennung referenziert wurde, der Wert 0 für alle übrigen Varianten. Eine Fehlererkennung kann unter anderem aus der Reaktion des Benutzers bestimmt werden: Zum Beispiel wird die Erkennung wiederholt oder es erfolgt der Abbruch eines per Sprache initiierten Kommandos.
  • Als Erweiterung kann bei der Erkennung aufgrund der Äußerung eine weitere Aussprachevariante für das gesprochene Wort generiert werden. Hierbei ist wieder sicherzustellen, dass keine Fehlererkennung vorliegt. Dieser Schritt kann auch vom Benutzer unbemerkt erfolgen.
  • Die bei der Erkennung zu jeder Aussprachevariante erzeugten akkumulierten Konfidenzen dienen nun dazu, das Vokabular zu einem gegebenen Zeitpunkt wieder zu verkleinern. Dies geschieht, indem diejenigen Vokabulareinträge gelöscht werden, deren akkumulierte Konfidenz unter einer bestimmten Schwelle liegen. Diese Einträge sind im Allgemeinen Aussprachevarianten, die nie oder nur selten referenziert wurden und sind demnach nicht relevant für einen Erkennungslauf.
  • Durch die gelöschten Aussprachevarianten steht nun wieder freier Speicherplatz für neue Worte im Vokabular zur Verfügung.
  • Die Adaption erfolgt im Gegensatz zum Stand der Technik nicht auf Ebene der akustischen Modellierung (zum Beispiel HMM). Stattdessen wird die Adaption durch Auswahl einer oder mehrerer Sprachvarianten erzielt. Diese Auswahl ist dabei abhängig von der Referenzierung in den erfolgreichen Erkennungsläufen. Dabei wird der zur Verfügung stehende Speicherplatz unabhängig von der Anzahl der zu erkennenden Worte optimal ausgenutzt.
  • Wird zum Beispiel bei TypeIn die originale, kanonische Aussprachevariante weiterhin im Vokabular behalten, ist die Sprecherunabhängigkeit weiterhin gewährleistet. Wird das System durch mehrere Benutzer verwendet, erfolgt die Adaption auf alle Benutzer, da durchschnittlich die häufig referenzierten Aussprachevarianten aller Sprecher erhalten bleiben.
  • Ein Vorteil gegenüber anderen Adaptionsverfahren ist, dass das ursprüngliche Systemverhalten jederzeit wieder hergestellt werden kann, da das HMM, also die akustische Modellierung des Merkmalsraums, unangetastet bleibt. Zur Adaption sind keine weiteren Informationen erforderlich, wie zum Beispiel die Zuordnung der Zustände zu Merkmalen. Somit kann das Verfahren ohne großem zusätzlichen Code- und Speicheraufwand durchgeführt werden und ist damit auch für den Embeddedbereich geeignet.
  • Durch das Löschen der Aussprachevarianten wird die Erkennungs- bzw. Rückweisungszuverlässigkeit erhöht, da die relevanten Einträge, das heißt die adaptierten Modelle, im Allgemeinen diskriminativ besser zu unterscheiden sind. Gleichzeitig wird die Erkennung beschleunigt, da das Vokabular kleiner wird.
  • In einem phonembasierten Spracherkennungssystem, zum Beispiel einem HMM-Erkenner, werden Worteinträge im Vokabular durch ihre Phonemfolge bzw. durch eine Zustandsfolge definiert.
  • Aussprachevarianten können im Falle des SayIn durch Addition von Rauschen auf die Sprachdaten erzeugt werden. Eine andere Art, Varianten zu erstellen, ist die gewonnene Phonem- bzw. Zustandsfolge zu modifizieren. Diese kann mit Hilfe von Zufallsfaktoren oder aber mit benutzerspezifischen Informationen, zum Beispiel eine Verwechslungsmatrix aus den letzten Erkennungsläufen, geschehen. Eine Verwechslungsmatrix kann zum Beispiel durch einen zweiten Erkennungslauf mit Phonemen erstellt werden.
  • Mittels TypeIn wird von der orthografischen Schreibweise auf die Phonemfolge geschlossen. Bei der Zuordnung von Graphemen zu Phonemen sind statistische Verfahren bekannt, die neben der wahrscheinlichsten Phonemfolge auch alternative Phonemfolgen liefern. Als Beispiel kann hier die Verwendung von Neuronalen Netzen dienen.
  • Die Zuordnung kann dabei auch unter der Berücksichtigung einer jeweiligen Sprache erfolgen. Beispielsweise wird der Name "Martin" im Deutschen und im Französischen unterschiedlich ausgesprochen und daher ergeben sich zwei unterschiedliche Phonemfolgen. Natürlich können die Zustandsfolgen, wie beim SayIn, auch durch Zufallsfaktoren und benutzerabhängige Informationen generiert werden.
  • Beispiel 1
  • "Herr Meier" wird als neuer Eintrag in das Vokabular aufgenommen.
  • Mittels TypeIn wird folgende (deutschsprachige) kanonische Phonemfolge ermittelt:
    Original-1: / h E r m aI 6 /
  • Die Varianten könnten wie folgt aussehen. Es wird davon ausgegangen, dass insgesamt fünf Vokabulareinträge dem maximal zulässigen Speicherbedarf entsprechen:
    Variante-1.1: / h e r m aI 6 /
    Variante-1.2: / h E r m aI er /
    Variante-1.3: / h 6 m aI 6 /
    Variante-1.4: / h e r m aI e 6 /
  • Auswahl bzw. Bestimmung der Konfidenzen der Varianten Herr Meier wurde zehnmal per Sprachkommando angerufen. Die fünf Varianten wurden wie folgt referenziert, was der bereits genannten boolschen Konfidenz entspricht:
    Figure 00100001
  • Bei dem nun folgenden Adaptionsschritt werden alle Varianten mit der Konfidenz 0 gelöscht. Das Vokabular enthält damit nur noch die Varianten "Original-1" und "Variante-1.2".
    Original-1: / h E r m aI 6 /
    Variante-1.2: / h E r m aI er /
  • Das Vokabular wird somit um mehr als die Hälfte verkleinert. Das heißt, die Belastung des Prozessors mit der Spracherkennung (Suche) verringert sich im gleichen Maße. Gleichzeitig verringert sich die Verwechslungsgefahr für andere Kommandos.
  • Da die kanonische Variante "Original-1" weiterhin vorhanden ist, ist die Sprecherunabhängigkeit für folgende Erkennungsläufe gewahrt.
  • Beispiel 2
  • Zu dem Vokabular in Beispiel 1 wird nun der Name "Frau Martin" mittels phonembasiertem SayIn hinzugefügt. Die ermittelte Phonemfolge lautet:
    Original 2: / f r aU m a r t e∼ /
  • Die Varianten zu "Frau Martin" könnten folgendermaßen aussehen:
    Variante-2.1: / f r aU m A r t i n /
    Variante-2.2: / f r aU m A t n /
  • Das Vokabular enthält nun folgende Einträge:
    Original-1: / h E r m aI 6 /
    Variante-1.2: / h E r m aI er /
    Original 2: / f r aU m a r t e∼ /
    Variante-2.1: / f r aU m A r t i n /
    Variante-2.2: / f r aU m A t n /
  • Auswahl bzw. Bestimmung der Konfidenzen der Varianten
  • Herr Meier wird dreimal, Frau Martin wird fünfmal per Sprachkommando angerufen. Die fünf Varianten werden wie folgt mit Konfidenzen bewertet. Hierbei kommt nun ein Kriterium zum Einsatz, das heißt ein Konfidenzmaß, das für jede Variante eine Aussage über die Zuverlässigkeit der gesprochenen Äußerung zulässt:
    Figure 00110001
    Bei dem nun folgenden Adaptionsschritt werden alle Varianten gelöscht, die eine Konfidenz kleiner als 25 besitzen. Das Vokabular enthält damit nur noch die Varianten "Original-1" und "Variante-1.2" und "Original-2".
    Original-1: / h E r m aI 6 /
    Variante-1.2: / h E r m aI er /
    Original 2: / f r aU m a r t e∼ /
  • Nun stehen wieder 2 freie Einträge für weitere Aussprachevarianten bzw. neue Worte zur Verfügung.

Claims (12)

  1. Verfahren zur Spracherkennung, – bei dem zu einem Wort mehrere Aussprachevarianten vorliegen und/oder generiert werden, – bei dem bei einem Erkennungsvorgang registriert wird, welche der Aussprachevarianten des Wortes erkannt wird, – bei dem nach mehreren Erkennungsvorgängen eine Analyse der Häufigkeit der Erkennung der einzelnen Aussprachevarianten erfolgt.
  2. Verfahren nach Anspruch 1, bei dem die Aussprachevarianten durch Phonem-Ersetzung, Phonem-Auslöschung und/oder Phonem-Einfügung generiert sind.
  3. Verfahren nach Anspruch 1 oder 2, bei dem die Aussprachevarianten für unterschiedliche Sprachen generiert sind.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Aussprachevarianten durch Addition von Rauschen generiert werden.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine der Aussprachevarianten, insbesondere nach einem Erkennungsvorgang, aufgrund einer als das Wort erkannten Äußerung generiert ist.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem für mehrere, insbesondere alle Worte jeweils eine maximal zulässige Anzahl von Aussprachevarianten vorgegeben ist.
  7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem aufgrund der Analyse der Häufigkeit der Erkennung der einzelnen Aussprachevarianten die Anzahl der gespeicherten Aussprachevarianten reduziert wird.
  8. Verfahren nach Anspruch 7, bei dem weniger häufig erkannte Aussprachevarianten gelöscht werden.
  9. Verfahren nach Anspruch 8, bei dem die Aussprachevarianten gelöscht werden, deren Konfidenz unter einem Schwellwert liegt.
  10. Verfahren nach Anspruch 8 oder 9, bei dem die kanonische Aussprachevariante nicht gelöscht wird.
  11. Vorrichtung, die eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
  12. Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen ein Verfahren nach einem der Ansprüche 1 bis 10 auf einer Datenverarbeitungsanlage ausführbar ist.
DE10304460A 2003-02-04 2003-02-04 Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung Expired - Fee Related DE10304460B3 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE10304460A DE10304460B3 (de) 2003-02-04 2003-02-04 Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
EP04704214A EP1590795A1 (de) 2003-02-04 2004-01-22 Generieren und löschen von aussprachevarianten zur verringerung der wortfehlerrate in der spracherkennung
PCT/EP2004/000527 WO2004070702A1 (de) 2003-02-04 2004-01-22 Generieren und löschen von aussprachevarianten zur verringerung der wortfehlerrate in der spracherkennung
US10/544,596 US20060143008A1 (en) 2003-02-04 2004-01-22 Generation and deletion of pronunciation variations in order to reduce the word error rate in speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10304460A DE10304460B3 (de) 2003-02-04 2003-02-04 Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung

Publications (1)

Publication Number Publication Date
DE10304460B3 true DE10304460B3 (de) 2004-03-11

Family

ID=31502580

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10304460A Expired - Fee Related DE10304460B3 (de) 2003-02-04 2003-02-04 Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung

Country Status (4)

Country Link
US (1) US20060143008A1 (de)
EP (1) EP1590795A1 (de)
DE (1) DE10304460B3 (de)
WO (1) WO2004070702A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
US7624013B2 (en) * 2004-09-10 2009-11-24 Scientific Learning Corporation Word competition models in voice recognition
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
US7983914B2 (en) * 2005-08-10 2011-07-19 Nuance Communications, Inc. Method and system for improved speech recognition by degrading utterance pronunciations
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
US9275640B2 (en) * 2009-11-24 2016-03-01 Nexidia Inc. Augmented characterization for speech recognition
JP4942860B2 (ja) * 2010-01-22 2012-05-30 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
US9837070B2 (en) * 2013-12-09 2017-12-05 Google Inc. Verification of mappings between phoneme sequences and words
US9747897B2 (en) * 2013-12-17 2017-08-29 Google Inc. Identifying substitute pronunciations
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11043213B2 (en) * 2018-12-07 2021-06-22 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
CN110277090B (zh) * 2019-07-04 2021-07-06 思必驰科技股份有限公司 用户个人的发音词典模型的自适应修正方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
DE69324428T2 (de) * 1992-09-29 1999-11-25 Ibm Verfahren zur Sprachformung und Gerät zur Spracherkennung

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0801786B1 (de) * 1995-11-04 2000-06-28 International Business Machines Corporation Verfahren und vorrichtung zur anpassung der grösse eines sprachmodells in einem spracherkennungssystem
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US6535849B1 (en) * 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US7181395B1 (en) * 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
EP1233406A1 (de) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Angepasste Spracherkennung für ausländische Sprecher
DE10119284A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
DE69324428T2 (de) * 1992-09-29 1999-11-25 Ibm Verfahren zur Sprachformung und Gerät zur Spracherkennung

Also Published As

Publication number Publication date
EP1590795A1 (de) 2005-11-02
US20060143008A1 (en) 2006-06-29
WO2004070702A1 (de) 2004-08-19

Similar Documents

Publication Publication Date Title
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
EP1611568B1 (de) Dreistufige einzelworterkennung
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
WO2003060877A1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
WO1999059135A2 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1723636A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE69908034T2 (de) Minimierung eines Suchnetzwerks für die Spracherkennung
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
EP1445759B1 (de) Benutzeradaptives Verfahren zur Geräuschmodellierung in Spracherkennung
DE10122087C1 (de) Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem
DE102008062923A1 (de) Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung
EP2012303B1 (de) Verfahren zur Erkennung eines Sprachsignals
EP1677285B1 (de) Verfahren zur Ermittlung von Aussprachevarianten eines Wortes aus einem vorgebbaren Vokabular eines Spracherkennungssystems

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110901