DE60219030T2 - Verfahren zur mehrsprachigen Spracherkennung - Google Patents

Verfahren zur mehrsprachigen Spracherkennung Download PDF

Info

Publication number
DE60219030T2
DE60219030T2 DE60219030T DE60219030T DE60219030T2 DE 60219030 T2 DE60219030 T2 DE 60219030T2 DE 60219030 T DE60219030 T DE 60219030T DE 60219030 T DE60219030 T DE 60219030T DE 60219030 T2 DE60219030 T2 DE 60219030T2
Authority
DE
Germany
Prior art keywords
language
models
dictionary
sequence
multilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60219030T
Other languages
English (en)
Other versions
DE60219030D1 (de
Inventor
Robert Van Kommer
Urs-Viktor Marti
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Swisscom Fixnet AG
Original Assignee
Swisscom Fixnet AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Swisscom Fixnet AG filed Critical Swisscom Fixnet AG
Application granted granted Critical
Publication of DE60219030D1 publication Critical patent/DE60219030D1/de
Publication of DE60219030T2 publication Critical patent/DE60219030T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

  • Technisches Gebiet
  • Die Erfindung bezieht sich auf ein Verfahren zur mehrsprachigen Spracherkennung. Insbesondere bezieht sich die Erfindung auf ein Verfahren zur Spracherkennung, welches besser an mehrsprachige Länder und Dienste angepasst ist.
  • Stand der Technik
  • Eine allgemeine Aufgabe in Sprachverarbeitungssystemen ist Spracherkennung. Ein Spracherkennungssystem ist ein automatisiertes System, das ein digitales Sprachsignal, das von einem oder mehreren Sprechern gesprochen wurde, empfängt und Wörter und Sätze, die gesprochen wurden, bestimmt. Andere Aufgaben enthalten beispielsweise Sprecheridentifikation, d.h. die Bestimmung, welcher von einer Gruppe von bekannten Sprechern ein empfangenes Sprachsignal generiert hat, und Sprecherverifizierung, d.h. Verifikation von einem Sprachsignal, ob die von einem Sprecher beanspruchte Identität korrekt ist.
  • Trotz eindrücklichem Fortschritt in den letzten Jahren sind bestehende Spracherkennungssysteme immer noch ungenügend stabil in nicht idealen Situationen. Ein besonderes Problem betrifft Aussprachevarianten. Wörter können in einer Vielzahl von verschiedenen Arten ausgesprochen werden und ein verschiedenartiges akustisches Model sollte für jede Variante, die das System erkennen muss, gebaut werden. Das Problem ist besonders schwierig für mehrsprachige Spracherkennungssysteme, die sowohl Muttersprachler als auch nicht Muttersprachler erkennen müssen.
  • Um die Erkennungsrate von Sprachsequenzen, die durch nicht Muttersprachler geäussert werden, ist es allgemein bekannt, Sprachmodelle, die in Erkennungssystemen verwendet werden, mit einem Satz von Sprachdaten zu trainieren, die von einem Satz kommen, der eine grosse Menge von Muttersprachlern und eine kleinere Menge von nicht Muttersprachlern enthält. Die Sprachmodelle, die in diesem Fall verwendet werden, sind gemischte Modelle, die die Gesamtwahrscheinlichkeit von jeder Sequenz reflektieren, in einer besonderen Weise durch die Bevölkerung von Muttersprachlern und nicht Muttersprachlern geäussert zu werden. Diese Lösung ist in der 3 illustriert, die schematisch ein Spracherkennungssystem 5 illustriert, das Sprachsequenzen, zum Beispiel Wörter oder Sätze, die in einem Wörterbuch 3 ausgeführt sind, erkennen kann. Jede Sequenz wird mit einem oder mehreren Phonemen modelliert, wobei alle Phoneme, die in der Sequenz 30 verwendet werden, in dem Wörterbuch von einem gemeinsamen Satz 31 von gemischten Modellen kommen, d.h. von Sprachelementmodellen, die mit einer repräsentativen Mischung von Muttersprachlern und nicht Muttersprachlern trainiert wurden. In der Figur umfasst die Sequenz von Phonemen 30 eine Vielzahl von Phonemen, jedes Phonem wird dabei durch einen einzigen Parameter p repräsentiert, welcher das Modell des Phonems zum Gebrauch in dem Satz 31 anzeigt. In dem illustrierten Beispiel werden alle Sprachsequenzen in dem Wörterbuch 3 durch Phoneme repräsentiert, die mit deutschen Phonemmodellen modelliert wurden, trainiert mit einem gemischten Satz von Sprechern.
  • Ein Problem mit diesem Ansatz ist die grosse Anzahl von möglichen nicht gebürtigen Akzenten. Die Wahrscheinlichkeit einer Sequenz durch einen nicht Muttersprachler mit einem speziellen Akzent ausgesprochen zu werden, ist sehr gering, so dass das Erkennungssystem 5 die empfangene Sprachsequenz wahrscheinlich nicht dem korrekten korrespondierenden Wort zuordnen wird.
  • Es wurde auch vorgeschlagen, verschiedene Akzente separat zu modellieren, wie dies in 4 vorgeschlagen wurde. In dieser Lösung umfasst jede Sequenz 30 in dem Wörterbuch 3 Sprachelemente, zum Beispiel Phoneme, die durch eines von mehreren Modellen 32, 33 modelliert wurden. Jedes Phonem ist also in dem Wörterbuch durch zwei Parameter bestimmt, p welcher das zu verwendende Phonem angibt, und einen zweiten anderen Parameter, um den assoziierten Satz von Modellen anzugeben. In der Figur wurde ein Satz von Modellen mit deutschen Muttersprachlern trainiert, während der andere Satz mit nicht deutschen Muttersprachlern trainiert wurde.
  • Das Wörterbuch 3 enthält deshalb für die meisten Wörter ein Modell für jeden zu berücksichtigenden Akzent. Offensichtlich erhöht diese Lösung die Anzahl von Eintragungen in dem Wörterbuch und erfordert zahlreiche komplette Sätze von Modellen 32, 33, die gebaut und trainiert werden müssen. Es ist jedoch allgemein nicht möglich, genügend grosse Sprachsamples für jeden möglichen Akzent oder Dialekt zu sammeln. Diese Lösung ist deshalb sehr teuer. Zusätzlich erhöht die Anzahl von möglichen Aussprachen für jedes Wort oder jede Sequenz in einem Wörterbuch dramatisch die Verarbeitungszeit.
  • Die bislang beschriebene Lösung betrifft nur die Sprecher, die eine nicht gebürtige Sprache während einer kompletten Dialogsession mit einem Spracherkennungssystem verwenden. Ein anderes Problem entsteht, wenn ein Sprecher sporadisch ein individuelles fremdes Wort oder ein fremdes Phonem in einer Sequenz von Wörtern spricht, die zu seiner Muttersprache gehören. Dies ist oft der Fall im Zusammenhang mit automatisierten Wörterbuchassistenzdiensten in mehrsprachigen Ländern, wie beispielsweise der Schweiz oder Kanada. In diesen Ländern hat jeder linguistische Teil geographische und Familiennamen, die von einer Vielzahl von linguistischen Originalen kommen. Darüber hinaus ist im Fall der Schweiz Brauch, die meisten Namen entsprechend ihren linguistischen Originalen auszusprechen. Der Name „Interlaken" wird durch einen französischen Sprecher unter Verwendung einer phonetischen Transkription ausgesprochen.
  • Es kann jedoch passieren, dass ein notwendiges Phonem, das benötigt wird, um ein gegebenes Wort auszusprechen, in einer gegebenen Sprache nicht verfügbar ist. Ein Beispiel ist das Wort „Guisanplatz"; in diesem Fall ist der erste Teil des Namens „Guisan" ist ein französischer Name, während „Platz" ein deutsches Wort ist. Bestehende Spracherkennungssysteme werden eine Mischung aus deutschen Phonemen, die durch deutsches Sprachmaterial trainiert wurden, mit dem französischen [ã] (wie in dem französischen Wort enfant) verwenden, das durch französische Sprachsamples, die durch französische Sprecher gesprochen wurden, trainiert wurde. Diese Situation wird in der 5 illustriert, welche zeigt, dass jede Sequenz 30 in dem Wörterbuch Phoneme p.DE bzw. p.FR von zwei verschiedenen Sätzen von Modelle verwenden kann, in dem oben genannten Beispiel einen deutschen Satz von Modellen 34, der durch deutsche Muttersprachler trainiert wurde, und einen separaten französischen Satz von Modellen 35, der durch französische Muttersprachler trainiert wurden.
  • Diese Modelle werden oft „mehrsprachige Spracherkennungsmodelle" genannt. Ein Wörterbuch, das diese Modelle verwendet, identifiziert jedes Phonemmodell mit zwei Parametern:
    • 1. Das Phonemmodell p, dass die Übersetzung des Klangs zu den Phonemen identifiziert;
    • 2. Die Sprache, zu der die Trainingsbeispiele gehören, zum Beispiel Französisch (.FR) oder Deutsch (.DE).
  • Das Phonem [a] wird beispielsweise durch [a].GE für das deutsche Modell des Phonems [a] identifiziert; und [a].FR'' für das französische Modell des Phonems [a].
  • Unglücklicherweise ist dieses Verfahren nicht ganz befriedigend, weil eine Fehlzuordnung durch die Tatsache eingeführt wird, dass ein deutscher Sprecher das französische Phonem [ã] in einem französischen Wort oder Unterwort nicht wie ein französischer Sprecher aussprechen wird. Das Phonemmodell des Phonems [ã] von einem Satz von französischen Modellen, die mit französischen Sprechern trainiert wurden, werden nicht adäquat die Art und Weise wiedergeben, wie deutsche Sprecher dieses französische Phonem aussprechen.
  • EP-A1-1 239 459 schlägt eine Anpassung eines Spracherkenners an die Aussprache eines nicht Muttersprachlers vor. Um die Erkennungsrate und die Qualität in einem Spracherkennungsverfahrens zu erhöhen, wird ein ungefährer Satz von Ausspracheregeln für eine allgemeine Aussprache eines allgemeinen Sprechers in einen gegebenen Ausspracherahmen bestimmt und dann an ein allgemeines Aussprachelexikon angewandt, um eine sprecherspezifische Anpassung von besagtem allgemeinen Lexikon durchzuführen.
  • Der Artikel „An algorithm for high accuracy name pronunciation by parametric speech snythesier", Vitali, computational linguistics, Sept. 1991, USA, vol. 17, no. 3, p. 257-276, offenbart wie ein Algorithmus für die hohe Genauigkeit einer Namensaussprache basierend auf einer Kombination von Krypthoanalysis, Statistic und Linguistic softwaremässig implementiert wurde.
  • Der Artikel „Fast accent identification und accented speech recognition", Liu Wai Kat, et al., 1999 IEEE International conference on Acoustics, Speech and Signal Processing, Proceedings, Phoenix, AZ, USA, 15-19.03.1999 piscataway, NJ, USA, p. 221-224, schlägt ein schnelleres Akzentklassifikationsansatz vor, der Phonemklassenmodelle verwendet.
  • Zusammenfassung der Erfindung
  • Es ist daher ein Ziel der vorliegenden Erfindung, ein verbessertes, effizienteres mehrsprachiges Spracherkennungsverfahren zu schaffen.
  • Es ist ein anderes Ziel der vorliegenden Erfindung, ein mehrsprachiges Erkennungsverfahren zu schaffen, das die Erkennung von einzelnen fremden Wörtern, Unterwörtern oder sogar Phonemen in einem Satz verbessert. Es ist ein anderes Ziel der vorliegenden Erfindung, ein mehrsprachiges Erkennungsverfahren zu schaffen, welches effektiv einzelne individuelle fremde Wörter in Sätzen erkennen kann, ohne einen gesamten Satz von nicht gebürtigen Sprachmodellen zu trainieren und zu speichern.
  • Es ist ein anderes Ziel der vorliegenden Erfindung, ein mehrsprachiges Spracherkennungsverfahren zu schaffen, in welchem die Modelle für fremde Phoneme verbessert sind.
  • Im Einklang mit einem Ausführungsbeispiel der vorliegenden Erfindung werden diese Ziele durch ein Verfahren zur Erkennung einer Sequenz von Sprachelementen, die von einem Sprecher in einer ersten Sprache ausgesprochen werden, gemäss dem unabhängigen Anspruch 1,
    gekennzeichnet dadurch, dass die besagten mehrsprachigen Sprachelemente von einem Satz von Sprechern der ersten Sprache aufgebaut werden,
    und die besagten originalen akustischen Sprachelementmodelle und die besagten mehrsprachigen Modelle beide zur Erkennung der korrespondierenden Sequenzen benutzt werden.
  • In einem Ausführungsbeispiel ist die Sequenz aus kurzen Sprachelementen, wie Wörtern, Unterwörtern, Triphonemen oder kleinen Sätzen von Wörtern gemacht, während jedes Sprachelement zum Beispiel ein Phonem oder ein Triphonem ist. Dies erlaubt es zum Beispiel, Modelle für deutsche Phoneme oder Modelle für französische Phoneme zu verwenden, die aber mit deutschen Sprechern trainiert wurden, zur Erkennung von einem einzigen Wort oder sogar einem einzelnen Triphonem.
  • Kurze Beschreibung der Figuren
  • Die Erfindung wird mit Hilfe der Beschreibung einer spezifischen Ausführungsform, die in den Figuren illustriert werden, besser verstanden, wobei
  • 1 die generelle Struktur eines Spracherkennungssystems illustriert.
  • 2 schematisch ein Hidden Markov Modell illustriert.
  • 3 die Architektur eines bekannten Spracherkennungssystems, das gemischte Sprachmodelle verwendet, illustriert.
  • 4 die Architektur eines bekannten Spracherkennungssystems illustriert, das einen Satz von Sprachmodellen verwendet, die mit gebürtigen Sprechern trainiert wurden, und einen zweiten Satz von Sprachmodellen einer zweiten Sprache, wobei mindestens einige der Einträge in dem Wörterbuch Modelle von beiden Sätzen verwenden.
  • 5 die Architektur von einem bekannten Spracherkennungssystems illustriert, welches einen ersten Satz von Sprachmodellen einer ersten Sprache verwendet, und einen zweiten Satz von Sprachmodellen einer zweiten Sprache, wobei mindestens einige der Einträge in dem Wörterbuch Modelle von beiden Sätzen verwenden.
  • 6 die Architektur eines Spracherkennungssystems gemäss der Erfindung, welches einen ersten Satz von Sprachmodellen, die mit gebürtigen Sprechern trainiert wurden, und einen zweiten Satz von Sprachmodellen, die mit nicht gebürtigen Sprechern trainiert wurden, verwendet, wobei mindestens einige Einträge in dem Wörterbuch Modelle von beiden Sätzen verwenden.
  • Wege zur Ausführung der Erfindung
  • Das Spracherkennungssystem gemäss der Erfindung umfasst vorzugsweise eine Sequenz von Verarbeitungsblöcken, wie in 1 illustriert:
    Erstens transformiert ein Merkmalextraktionsblock 4 Sprachsignal 2 in eine Repräsentation 6, die besser für die nachfolgenden Verarbeitungsblöcke geeignet sind. Sprachsignal 2 können in einer digitalen Form mit verschiedenen Sampleraten oder in einer analogen Form vorliegen, in welchem Fall sie zuerst in ein digitales Sprachsignal umgewandelt werden müssen. Der Merkmalsextraktionsblock wandelt die Datenübertragungsblöcke eines digitalen Sprachsignals 2 in Merkmalsvektoren 6 um, die einen Satz von Werten enthalten, die den Eingangsdatenübertragungsblock in dem Zeit- und Frequenzbereich wiedergeben.
  • Verschiedene Vorarbeitungsschritte werden durch den Merkmalsextraktionsblock 4 durchgeführt, enthaltend Filtern, Vorbetonung, Geräuschkompensation und Normalisierung. Darüber hinaus konvertieren die Merkmalsextraktionsblöcke die zeitrelativen Sprachsignale durch zum Beispiel eine Fast-Fourier-Transformation (FFT), eine Wellentransformation, einen lineare Voraussagungscode oder eine Filterbank in den Frequenzbereich. Danach wird oft ein Mapping realisiert, um psychoakustische Kompensationen in die Zeit-zu-Frequenztransformation einzuschliessen. Schlussendlich werden oft Nachbearbeitungstechniken durch die Addition von Abweichungen von erstem und zweitem Grad angewandt, und weiter werden Normalisierung und Filtern angewandt. Die berechneten Merkmalsvektoren müssen dekorreliert werden, was den Musterübereinstimmungsmechanismus ergibt. Der Merkmalsextraktionsblock liefert einen Strom 6 von nachfolgenden Merkmalsvektoren, die zu dem Eingangssprachsignal korrespondieren.
  • Ein Musterübereinstimmungsblock 8 oder Klassifizierer ordnet die Merkmalsvektoren in dem Datenstrom 6, die von dem Merkmalsextraktionsblock 4 geliefert werden, den Zielsprachelementen zu. In einem Spracherkennungssystem zeigt der Musterübereinstimmungsblock für jeden Merkmalsvektor, der zu einem Datenübertragungsblock eines Eingangssprachsignals korrespondiert, die Wahrscheinlichkeit 10 an, dass er mit verschiedenen Sprachelementen, zum Beispiel Wörter, Unterwörter, Phoneme, Triphoneme, etc. korrespondiert.
  • Verschiedene Typen von Musterübereinstimmungsblöcken sind bekannt, einschliesslich Versteckten Markov Modelle (Hidden Markov Modelle), die gemischte Gaussfunktionen, Neuronale Netzwerke Hybride Systeme, Support Vektor Maschinen, etc. verwenden. In den folgenden Abschnitten werden wir detaillierter den speziellen Fall von Hidden Markov Modellen beschreiben, obwohl das Verfahren gemäss der Erfindung auch mit anderen Arten von Musterübereinstimmungsblöcken durchgeführt werden könnte.
  • Ein Beispiel von Hidden Markov Modellen ist in der 2 gezeigt. Ein Markov Modell ist eine Maschine mit begrenzten Zuständen, welche den Zustand einmal in einer Zeiteinheit ändert. Jedes Mal, wenn ein Zustand i eingegeben wird, wird ein Sprachvektor o mit einer Ausgangswahrscheinlichkeit b(o) erzeugt. Der Übergang von Zustand i zu Zustand j hat eine Übergangswahrscheinlichkeit aij. 2 zeigt ein Beispiel von diesem Vorgang, in dem sich die sechs Zustandsmodelle durch die Zustandssequenzen 1,2,2,3,4,4,5,6 bewegen, um die Sequenzen o1 bis o6 zu generieren.
  • Die Wahrscheinlichkeit von einer Sequenz O = o1 bis o6 durch ein gegebenes Modell, welches sich die Zustandssequenz X bewegt, generiert zu werden, ist das Produkt der Übergangswahrscheinlichkeit und der Ausgangwahrscheinlichkeit. In der Praxis wird selbstverständlich nur die Beobachtungssequenz O gemessen und die grundlegende Sequenz X wird versteckt. Darum wird das Modell ein Hidden Markov Modell genannt.
  • Ein verschiedenes Hidden Markov Modell wird deshalb für jede Sequenz eines Sprachelements gebaut, welches man zu erkennen wünscht. Die Liste der Sequenzen, für welche ein Modell gebaut wurde, wird Lexikon genannt und kann durch eine Datei, welche Wörterbuch genannt wird, repräsentiert werden. Ein Wörterbuch ist deshalb eine Datei, welche eine Liste von zu erkennenden Sequenzen und mindestens eine Aussprache, die durch eine Serie von Sprachelementen dargestellt wird, die mit jeder Sequenz in der Liste assoziiert ist, enthält.
  • Ein Dekoderblock 12 bestimmt dann die wahrscheinlichsten Sequenzen 14, die durch den Sprecher gesprochen werden, was die erfolgreichen Sprachelemente ergibt und die Wahrscheinlichkeiten 10, die durch den Musterübereinstimmungsblock geliefert werden, das die Sequenz mit jedem Modell übereinstimmt. Ein Viterbi-Entschlüsselungssystem kann für diese Funktion benutzt werden; diese Suche wird gewöhnlich durch ein Konstraint-Netzwerk 4 erzwungen.
  • 6 illustriert die Architektur eines Spracherkennungssystems gemäss der Erfindung. Dieses System umfasst ein Spracherkennungsmodul 5. Das Spracherkennungsmodul 5 kann auf Standardwerkzeugen basieren, wie zum Beispiel ein HTK Werkzeug, und benutzt eine Vielzahl von Bibliotheken (nicht dargestellt), um das Interface mit der umgebenden Welt und für zusätzliche Funktionen zu kontrollieren.
  • Das Erkennungsmodul 5 führt die Erkennungsaufgabe vorzugsweise mit Sätzen von Hidden Markov Modellen 36, 37 durch. In dem illustrierten Beispiel sind zwei Sätze von Modellen bereitgestellt. Der erste Satz definiert durch die Datei 36 enthält Modelle von deutschen Phonemen trainiert mit deutschen Muttersprachlern. Der zweite Satz von Phonemen definiert durch die Datei 37 enthält französische Phoneme trainiert mit deutschen Muttersprachlern. Ein Modell zum Beispiel in diesem Satz 37 könnte die gewöhnliche Aussprache eines französischen Phonems [ã] durch einen deutschen Muttersprachler wiedergeben.
  • Diese Trennung von zwei verschiedenen Modellen in zwei Dateien 36, 37 ist nur für illustrative Zwecke; es ist eindeutig, dass diese Sätze in einer einzigen Datei kombiniert werden könnten, in verschiedenen Dateien geschrieben werden.
  • In der Praxis bedeutet dies, dass der ursprüngliche Satz von Modellen der deutschen Phoneme in der Datei 34 mit einem Satz von Modellen von französischen Phonemen, die durch deutsche Sprecher ausgesprochen werden, erweitert wird.
  • Ein Wörterbuch 3 zeigt die Aussprache, die mit einer Vielzahl von Sprachsequenzen assoziiert wurden, an, zum Beispiel Wörter. In der Wörterbuchdatei wird die Aussprache von jedem Sprachelement in verschiedenen Sequenzen durch drei Parameter identifiziert:
    • 1. Das typische Phonem p
    • 2. Die typische Sprache zu der das Phonem gehört, zum Beispiel Französisch (.FR).
    • 3. Die linguistischen Sprecher, die trainiert wurden, um das Phonem auszusprechen, zum Beispiel deutsche Sprecher (.DE)
  • Als ein Beispiel einer Angabe eines Modells in der Wörterbuch wird [a].FR.DE sein, was bedeutet, dass die gewählten Phoneme Modelle mit einem französischen [a] korrespondiert, welches durch einen Satz von deutschen Sprechern ausgesprochen wird.
  • Ein Eintrag 30, der mit dem Wort GUISAN in dem Wörterbuch korrespondiert, würde zum Beispiel sein
    GUISANPLATZ [g].DE.DE, [i].DE.DE, [z].DE.DE, [ã].FR.DE
  • Dieser Eintrag 30 in das Wörterbuch 3 mischt deshalb akustische deutsche Standardmodelle [g].DE.DE, [i].DE.DE, [z].DE.DE mit einem mehrsprachigen Modell vom französischen [ã], welches von deutschen Muttersprachlern ausgesprochen wird.
  • Das Wörterbuch kann automatisch von einem Lexikon generiert werden, welches die Sprachherkunft von jeder Sequenz anzeigt, zum Beispiel von jedem Wort. Das Lexikon würde zum Beispiel einen Eintrag für das Wort GUISAN enthalten und anzeigen, dass dieses ein französischer Name ist. Ein Softwaretool kann dann automatisch den oben beschriebenen Eintrag in das Wörterbuch bauen, indem deutsche Sprachmodelle für Phoneme, die in Deutsch existieren und mehrsprachige Sprachmodelle für französische Phoneme ausgewählt werden.
  • Die zusätzlichen Sprachmodelle 37, die benötigt werden, können aus dem Nichts gebaut werden und mit nicht Muttersprachlern trainiert werden. Um die Kosten zu reduzieren kann ein Sprachmodellanpassungsverfahren verwendet werden, um bestehende Modelle mit den knappen verfügbaren Daten der Zielsprache anzupassen. Diese Anpassung kann unter Verwendung bestehender Werkzeuge oder Verfahren wie MLLR oder MAP durchgeführt werden.
  • Es sollte beachtet werden, dass in dem Fall von mehrsprachigen Sprachmodellen die von dem Spracherkennungsmodul verwendete Grammatik spezifisch zu der linguistischen Herkunft des Sprechers ist. Wenn der Sprecher zum Beispiel ein deutscher Sprecher ist, setzt sich die Grammatik, die für die Erkennung von gemischten Sprachwörter benötigt wird, aus deutschen Modellen für deutsche Phoneme und Deutsche mehrsprachige Modelle für französische Phoneme zusammen. Wenn das System durch einen französischen Sprecher verwendet wird, setzt sich die Grammatik aus französischen Modellen von französischen Phonemen und französischen mehrsprachigen Modellen von deutschen Phonemen zusammen.
  • Wenn die Herkunft des Sprechers unbekannt ist, könnte man beide Modelle parallel erkennen und den grössten Wahrscheinlichkeitswert nehmen. In diesem Fall wird die Grammatik beide Versionen Französisch + mehrsprachiges Französisch und/oder Deutsch und mehrsprachiges Deutsch enthalten. Dies hat jedoch die Nebenwirkung einer erhöhten Verarbeitungszeit. In einem bevorzugten Ausführungsbeispiel wird die Muttersprache des Sprechers daher automatisch erkannt, um den bestgeeigneten Satz von Modellen auszuwählen. Diese automatische Auswahl kann unter Verwendung der Telefonnummer des Anrufers (CLI, Anschlusserkennung) oder vorzugsweise mit einem neuronalen Netzwerk oder Sätzen von trainierten HMMs durchgeführt werden.
  • Das Verfahren gemäss der Erfindung hat deshalb den Vorteil zur Erkennung von einem einzigen Eintrag in einem Wörterbuch Modelle von Sprachelementen von zwei verschiedenen Sprachen zu verwenden, die aber mit Sprechern einer gemeinsamen Sprache trainiert wurden. Es ist sogar möglich, Triphonemmodelle zu verwenden, wobei mindestens ein mehrsprachiges Phonemmodell mit einem gebürtigen Phonemmodell gemischt wird.
  • Die Erfindung bezieht auch auf ein Computerprogrammprodukt, welches eine Wörterbuchdatei 3 umfasst, besagte Wörterbuchdatei enthält eine Liste von Sprachsequenzen, die erkannt werden können, und eine Vielzahl von Modellen, die mit jeder Sequenz in der Liste assoziiert sind, in welchem mindestens eine Sequenz mit einem Modell assoziiert ist, das auf gebürtigen Modellen 36, die mit Muttersprachlern einer ersten Sprache gebaut werden, und mehrsprachigen Modellen 37 für Sprachelemente, die typisch für eine zweite Sprache sind, aber von einem Satz von Sprechern der ersten Sprache gebaut sind, basiert. Besagte Vielzahl von Modellen kann einen Satz von trainierten Hidden Markov Modellen umfassen.

Claims (10)

  1. Verfahren zur Erkennung einer Sequenz (30) von Sprachelementen, die von einem Sprecher in einer ersten Sprache ausgesprochen werden, die als Muttersprache des Sprechers gilt, wobei mehrere Sequenzen als Eintrag in einem Wörterbuch aufgelistet werden, wobei das Verfahren die folgenden Schritte enthält: Aufbauen originaler akustischer Sprachelementmodelle (36) für Sprachelemente, die zur besagten ersten Sprache gehören Aufbauen mehrsprachiger akustischer Sprachelementmodelle (37) für Sprachelemente, die zu einer zweiten Sprache gehören, wobei die besagten mehrsprachigen Sprachelemente (37) von einem Satz von Sprechern der ersten Sprache aufgebaut werden, dadurch gekennzeichnet, dass wenigstens ein Eintrag im besagten Wörterbuch originale akustische Sprachelementmodelle (36) mit einem mehrsprachigen Sprachelementmodell mischt, und dass die besagten originalen akustischen Sprachelementmodelle (36) und die besagten mehrsprachigen Modelle (37) beide zur Erkennung der korrespondierenden Sequenzen benutzt werden.
  2. Verfahren entsprechend Anspruch 1, in welchem die besagten Sprachelemente Phonemen umfassen.
  3. Verfahren gemäss einem der Ansprüche 1 oder 2, in welchem die besagte Sequenz einem Wort entspricht.
  4. Verfahren gemäss Anspruch 1, in welchem das besagte Wörterbuch ein Dossier ist, das mehrere Wörter (30) und mehrere Phonemsequenzen enthält, die der Aussprache der besagten Wörter entsprechen, wobei jedes Wort wenigstens einer Phonemsequenz zugeordnet wird, wobei wenigstens eine Phonemsequenz originale Phonems und mehrsprachige Phonems umfasst.
  5. Verfahren gemäss Anspruch 4, in welchem wenigstens eine der besagten Aussprachen im besagten Wörterbuch (3) einem ersten Parameter zugeordnet wird, der die typische Sprache zu welchem das Phonem gehört angibt und einem zweiten Parameter zugeordnet wird, der der Sprache des Sprechers mit welcher das Phonemmodell trainiert worden ist, angibt.
  6. Verfahren gemäss einem der Ansprüche 1 bis 5, weiter umfassend einen Schritt für das Anlegen des besagten Wörterbuchs aus einem Lexikon, das den Sprachenursprung von mindestens einigen Sequenzen im besagten Wörterbuch (3) angibt.
  7. Verfahren gemäss einem der Ansprüche 1 bis 6, weiter umfassend einen Schritt für die automatische Bestimmung der besagten Muttersprache des Sprechers.
  8. Verzeichnishilfsdienst, der das Verfahren entsprechend einem der vorangegangenen Ansprüche benutzt, um Sprachanfragen von Anrufenden zu erkennen.
  9. Computerprogrammprodukt umfassend ein Wörterbuchdossier (3), wobei das besagte Wörterbuchdossier eine Sprachsequenzenliste umfasst, die erkannt werden muss und mehrere Modelle, die jeder Sequenz in der Liste zugeordnet werden, in welchem wenigstens eine Sequenz einem Modell zugeordnet wird, das auf beide originale akustische Modelle (36), die mit Sprechern dessen Muttersprache eine erste Sprache ist, und auf einem mehrsprachigen Modellen für Sprachelemente, die typisch für eine zweite Sprache sind, die aber mit einem Satz von Sprechern des ersten Sprache aufgebaut worden sind, basiert ist.
  10. Computerprogrammprodukt gemäss Anspruch 9, in welchem die besagten mehreren Modelle einen Satz von trainierten verborgenen Markov Modellen umfasst.
DE60219030T 2002-11-06 2002-11-06 Verfahren zur mehrsprachigen Spracherkennung Expired - Lifetime DE60219030T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP02024764A EP1418570B1 (de) 2002-11-06 2002-11-06 Verfahren zur mehrsprachigen Spracherkennung

Publications (2)

Publication Number Publication Date
DE60219030D1 DE60219030D1 (de) 2007-05-03
DE60219030T2 true DE60219030T2 (de) 2007-12-06

Family

ID=32103901

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60219030T Expired - Lifetime DE60219030T2 (de) 2002-11-06 2002-11-06 Verfahren zur mehrsprachigen Spracherkennung

Country Status (3)

Country Link
EP (1) EP1418570B1 (de)
AT (1) ATE357723T1 (de)
DE (1) DE60219030T2 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294082A1 (en) * 2004-07-22 2007-12-20 France Telecom Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US9734819B2 (en) * 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
KR102084646B1 (ko) 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US8768704B1 (en) 2013-09-30 2014-07-01 Google Inc. Methods and systems for automated generation of nativized multi-lingual lexicons
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
US20190237069A1 (en) * 2018-01-31 2019-08-01 GM Global Technology Operations LLC Multilingual voice assistance support
JP6970345B2 (ja) * 2018-08-21 2021-11-24 日本電信電話株式会社 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
CN111833865B (zh) * 2020-01-08 2024-05-24 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1239459A1 (de) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Anpassung eines Spracherkenners an die Aussprache eines ausländischen Sprechers

Also Published As

Publication number Publication date
EP1418570B1 (de) 2007-03-21
DE60219030D1 (de) 2007-05-03
EP1418570A1 (de) 2004-05-12
ATE357723T1 (de) 2007-04-15

Similar Documents

Publication Publication Date Title
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69814195T2 (de) Vorrichtung zur Sprechererkennung
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE60316912T2 (de) Verfahren zur Spracherkennung
WO2005013261A1 (de) Verfahren zur spracherkennung und kommunikationsgerät
EP0925461A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
WO2003060877A1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE60219030T2 (de) Verfahren zur mehrsprachigen Spracherkennung
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition