-
Technisches Gebiet
-
Die
Erfindung bezieht sich auf ein Verfahren zur mehrsprachigen Spracherkennung.
Insbesondere bezieht sich die Erfindung auf ein Verfahren zur Spracherkennung,
welches besser an mehrsprachige Länder und Dienste angepasst
ist.
-
Stand der Technik
-
Eine
allgemeine Aufgabe in Sprachverarbeitungssystemen ist Spracherkennung.
Ein Spracherkennungssystem ist ein automatisiertes System, das ein
digitales Sprachsignal, das von einem oder mehreren Sprechern gesprochen
wurde, empfängt
und Wörter
und Sätze,
die gesprochen wurden, bestimmt. Andere Aufgaben enthalten beispielsweise
Sprecheridentifikation, d.h. die Bestimmung, welcher von einer Gruppe
von bekannten Sprechern ein empfangenes Sprachsignal generiert hat,
und Sprecherverifizierung, d.h. Verifikation von einem Sprachsignal,
ob die von einem Sprecher beanspruchte Identität korrekt ist.
-
Trotz
eindrücklichem
Fortschritt in den letzten Jahren sind bestehende Spracherkennungssysteme
immer noch ungenügend
stabil in nicht idealen Situationen. Ein besonderes Problem betrifft
Aussprachevarianten. Wörter
können
in einer Vielzahl von verschiedenen Arten ausgesprochen werden und
ein verschiedenartiges akustisches Model sollte für jede Variante,
die das System erkennen muss, gebaut werden. Das Problem ist besonders
schwierig für
mehrsprachige Spracherkennungssysteme, die sowohl Muttersprachler
als auch nicht Muttersprachler erkennen müssen.
-
Um
die Erkennungsrate von Sprachsequenzen, die durch nicht Muttersprachler
geäussert
werden, ist es allgemein bekannt, Sprachmodelle, die in Erkennungssystemen
verwendet werden, mit einem Satz von Sprachdaten zu trainieren,
die von einem Satz kommen, der eine grosse Menge von Muttersprachlern
und eine kleinere Menge von nicht Muttersprachlern enthält. Die
Sprachmodelle, die in diesem Fall verwendet werden, sind gemischte
Modelle, die die Gesamtwahrscheinlichkeit von jeder Sequenz reflektieren,
in einer besonderen Weise durch die Bevölkerung von Muttersprachlern
und nicht Muttersprachlern geäussert
zu werden. Diese Lösung
ist in der 3 illustriert, die schematisch
ein Spracherkennungssystem 5 illustriert, das Sprachsequenzen, zum
Beispiel Wörter
oder Sätze,
die in einem Wörterbuch 3 ausgeführt sind,
erkennen kann. Jede Sequenz wird mit einem oder mehreren Phonemen
modelliert, wobei alle Phoneme, die in der Sequenz 30 verwendet
werden, in dem Wörterbuch
von einem gemeinsamen Satz 31 von gemischten Modellen kommen,
d.h. von Sprachelementmodellen, die mit einer repräsentativen
Mischung von Muttersprachlern und nicht Muttersprachlern trainiert
wurden. In der Figur umfasst die Sequenz von Phonemen 30 eine
Vielzahl von Phonemen, jedes Phonem wird dabei durch einen einzigen
Parameter p repräsentiert, welcher
das Modell des Phonems zum Gebrauch in dem Satz 31 anzeigt.
In dem illustrierten Beispiel werden alle Sprachsequenzen in dem
Wörterbuch 3 durch
Phoneme repräsentiert,
die mit deutschen Phonemmodellen modelliert wurden, trainiert mit
einem gemischten Satz von Sprechern.
-
Ein
Problem mit diesem Ansatz ist die grosse Anzahl von möglichen
nicht gebürtigen
Akzenten. Die Wahrscheinlichkeit einer Sequenz durch einen nicht
Muttersprachler mit einem speziellen Akzent ausgesprochen zu werden,
ist sehr gering, so dass das Erkennungssystem 5 die empfangene
Sprachsequenz wahrscheinlich nicht dem korrekten korrespondierenden
Wort zuordnen wird.
-
Es
wurde auch vorgeschlagen, verschiedene Akzente separat zu modellieren,
wie dies in 4 vorgeschlagen wurde. In dieser
Lösung
umfasst jede Sequenz 30 in dem Wörterbuch 3 Sprachelemente, zum
Beispiel Phoneme, die durch eines von mehreren Modellen 32, 33 modelliert
wurden. Jedes Phonem ist also in dem Wörterbuch durch zwei Parameter
bestimmt, p welcher das zu verwendende Phonem angibt, und einen
zweiten anderen Parameter, um den assoziierten Satz von Modellen
anzugeben. In der Figur wurde ein Satz von Modellen mit deutschen
Muttersprachlern trainiert, während
der andere Satz mit nicht deutschen Muttersprachlern trainiert wurde.
-
Das
Wörterbuch 3 enthält deshalb
für die meisten
Wörter
ein Modell für
jeden zu berücksichtigenden
Akzent. Offensichtlich erhöht
diese Lösung die
Anzahl von Eintragungen in dem Wörterbuch
und erfordert zahlreiche komplette Sätze von Modellen 32, 33,
die gebaut und trainiert werden müssen. Es ist jedoch allgemein
nicht möglich,
genügend
grosse Sprachsamples für
jeden möglichen
Akzent oder Dialekt zu sammeln. Diese Lösung ist deshalb sehr teuer.
Zusätzlich erhöht die Anzahl
von möglichen
Aussprachen für
jedes Wort oder jede Sequenz in einem Wörterbuch dramatisch die Verarbeitungszeit.
-
Die
bislang beschriebene Lösung
betrifft nur die Sprecher, die eine nicht gebürtige Sprache während einer
kompletten Dialogsession mit einem Spracherkennungssystem verwenden.
Ein anderes Problem entsteht, wenn ein Sprecher sporadisch ein individuelles
fremdes Wort oder ein fremdes Phonem in einer Sequenz von Wörtern spricht,
die zu seiner Muttersprache gehören.
Dies ist oft der Fall im Zusammenhang mit automatisierten Wörterbuchassistenzdiensten
in mehrsprachigen Ländern,
wie beispielsweise der Schweiz oder Kanada. In diesen Ländern hat
jeder linguistische Teil geographische und Familiennamen, die von
einer Vielzahl von linguistischen Originalen kommen. Darüber hinaus
ist im Fall der Schweiz Brauch, die meisten Namen entsprechend ihren
linguistischen Originalen auszusprechen. Der Name „Interlaken" wird durch einen
französischen
Sprecher unter Verwendung einer phonetischen Transkription ausgesprochen.
-
Es
kann jedoch passieren, dass ein notwendiges Phonem, das benötigt wird,
um ein gegebenes Wort auszusprechen, in einer gegebenen Sprache nicht
verfügbar
ist. Ein Beispiel ist das Wort „Guisanplatz"; in diesem Fall
ist der erste Teil des Namens „Guisan" ist ein französischer
Name, während „Platz" ein deutsches Wort
ist. Bestehende Spracherkennungssysteme werden eine Mischung aus
deutschen Phonemen, die durch deutsches Sprachmaterial trainiert
wurden, mit dem französischen
[ã] (wie
in dem französischen
Wort enfant) verwenden, das durch französische Sprachsamples, die durch
französische Sprecher
gesprochen wurden, trainiert wurde. Diese Situation wird in der 5 illustriert,
welche zeigt, dass jede Sequenz 30 in dem Wörterbuch
Phoneme p.DE bzw. p.FR von zwei verschiedenen Sätzen von Modelle verwenden
kann, in dem oben genannten Beispiel einen deutschen Satz von Modellen 34,
der durch deutsche Muttersprachler trainiert wurde, und einen separaten
französischen
Satz von Modellen 35, der durch französische Muttersprachler trainiert wurden.
-
Diese
Modelle werden oft „mehrsprachige Spracherkennungsmodelle" genannt. Ein Wörterbuch,
das diese Modelle verwendet, identifiziert jedes Phonemmodell mit
zwei Parametern:
- 1. Das Phonemmodell p, dass
die Übersetzung des
Klangs zu den Phonemen identifiziert;
- 2. Die Sprache, zu der die Trainingsbeispiele gehören, zum
Beispiel Französisch
(.FR) oder Deutsch (.DE).
-
Das
Phonem [a] wird beispielsweise durch [a].GE für das deutsche Modell des Phonems
[a] identifiziert; und [a].FR'' für das französische Modell des
Phonems [a].
-
Unglücklicherweise
ist dieses Verfahren nicht ganz befriedigend, weil eine Fehlzuordnung durch
die Tatsache eingeführt
wird, dass ein deutscher Sprecher das französische Phonem [ã] in einem
französischen
Wort oder Unterwort nicht wie ein französischer Sprecher aussprechen
wird. Das Phonemmodell des Phonems [ã] von einem Satz von französischen
Modellen, die mit französischen
Sprechern trainiert wurden, werden nicht adäquat die Art und Weise wiedergeben,
wie deutsche Sprecher dieses französische Phonem aussprechen.
-
EP-A1-1
239 459 schlägt
eine Anpassung eines Spracherkenners an die Aussprache eines nicht Muttersprachlers
vor. Um die Erkennungsrate und die Qualität in einem Spracherkennungsverfahrens zu
erhöhen,
wird ein ungefährer
Satz von Ausspracheregeln für
eine allgemeine Aussprache eines allgemeinen Sprechers in einen
gegebenen Ausspracherahmen bestimmt und dann an ein allgemeines Aussprachelexikon
angewandt, um eine sprecherspezifische Anpassung von besagtem allgemeinen Lexikon
durchzuführen.
-
Der
Artikel „An
algorithm for high accuracy name pronunciation by parametric speech
snythesier", Vitali,
computational linguistics, Sept. 1991, USA, vol. 17, no. 3, p. 257-276,
offenbart wie ein Algorithmus für
die hohe Genauigkeit einer Namensaussprache basierend auf einer
Kombination von Krypthoanalysis, Statistic und Linguistic softwaremässig implementiert
wurde.
-
Der
Artikel „Fast
accent identification und accented speech recognition", Liu Wai Kat, et
al., 1999 IEEE International conference on Acoustics, Speech and
Signal Processing, Proceedings, Phoenix, AZ, USA, 15-19.03.1999
piscataway, NJ, USA, p. 221-224, schlägt ein schnelleres Akzentklassifikationsansatz
vor, der Phonemklassenmodelle verwendet.
-
Zusammenfassung der Erfindung
-
Es
ist daher ein Ziel der vorliegenden Erfindung, ein verbessertes,
effizienteres mehrsprachiges Spracherkennungsverfahren zu schaffen.
-
Es
ist ein anderes Ziel der vorliegenden Erfindung, ein mehrsprachiges
Erkennungsverfahren zu schaffen, das die Erkennung von einzelnen
fremden Wörtern,
Unterwörtern
oder sogar Phonemen in einem Satz verbessert. Es ist ein anderes
Ziel der vorliegenden Erfindung, ein mehrsprachiges Erkennungsverfahren
zu schaffen, welches effektiv einzelne individuelle fremde Wörter in
Sätzen
erkennen kann, ohne einen gesamten Satz von nicht gebürtigen Sprachmodellen
zu trainieren und zu speichern.
-
Es
ist ein anderes Ziel der vorliegenden Erfindung, ein mehrsprachiges
Spracherkennungsverfahren zu schaffen, in welchem die Modelle für fremde
Phoneme verbessert sind.
-
Im
Einklang mit einem Ausführungsbeispiel der
vorliegenden Erfindung werden diese Ziele durch ein Verfahren zur
Erkennung einer Sequenz von Sprachelementen, die von einem Sprecher
in einer ersten Sprache ausgesprochen werden, gemäss dem unabhängigen Anspruch
1,
gekennzeichnet dadurch, dass die besagten mehrsprachigen
Sprachelemente von einem Satz von Sprechern der ersten Sprache aufgebaut
werden,
und die besagten originalen akustischen Sprachelementmodelle
und die besagten mehrsprachigen Modelle beide zur Erkennung der
korrespondierenden Sequenzen benutzt werden.
-
In
einem Ausführungsbeispiel
ist die Sequenz aus kurzen Sprachelementen, wie Wörtern, Unterwörtern, Triphonemen
oder kleinen Sätzen
von Wörtern
gemacht, während
jedes Sprachelement zum Beispiel ein Phonem oder ein Triphonem ist. Dies
erlaubt es zum Beispiel, Modelle für deutsche Phoneme oder Modelle
für französische Phoneme
zu verwenden, die aber mit deutschen Sprechern trainiert wurden,
zur Erkennung von einem einzigen Wort oder sogar einem einzelnen
Triphonem.
-
Kurze Beschreibung der Figuren
-
Die
Erfindung wird mit Hilfe der Beschreibung einer spezifischen Ausführungsform,
die in den Figuren illustriert werden, besser verstanden, wobei
-
1 die
generelle Struktur eines Spracherkennungssystems illustriert.
-
2 schematisch
ein Hidden Markov Modell illustriert.
-
3 die
Architektur eines bekannten Spracherkennungssystems, das gemischte
Sprachmodelle verwendet, illustriert.
-
4 die
Architektur eines bekannten Spracherkennungssystems illustriert,
das einen Satz von Sprachmodellen verwendet, die mit gebürtigen Sprechern
trainiert wurden, und einen zweiten Satz von Sprachmodellen einer
zweiten Sprache, wobei mindestens einige der Einträge in dem
Wörterbuch
Modelle von beiden Sätzen
verwenden.
-
5 die
Architektur von einem bekannten Spracherkennungssystems illustriert,
welches einen ersten Satz von Sprachmodellen einer ersten Sprache
verwendet, und einen zweiten Satz von Sprachmodellen einer zweiten
Sprache, wobei mindestens einige der Einträge in dem Wörterbuch Modelle von beiden
Sätzen
verwenden.
-
6 die
Architektur eines Spracherkennungssystems gemäss der Erfindung, welches einen ersten
Satz von Sprachmodellen, die mit gebürtigen Sprechern trainiert
wurden, und einen zweiten Satz von Sprachmodellen, die mit nicht
gebürtigen
Sprechern trainiert wurden, verwendet, wobei mindestens einige Einträge in dem
Wörterbuch
Modelle von beiden Sätzen
verwenden.
-
Wege zur Ausführung der
Erfindung
-
Das
Spracherkennungssystem gemäss
der Erfindung umfasst vorzugsweise eine Sequenz von Verarbeitungsblöcken, wie
in 1 illustriert:
Erstens transformiert ein
Merkmalextraktionsblock 4 Sprachsignal 2 in eine
Repräsentation 6,
die besser für
die nachfolgenden Verarbeitungsblöcke geeignet sind. Sprachsignal 2 können in
einer digitalen Form mit verschiedenen Sampleraten oder in einer
analogen Form vorliegen, in welchem Fall sie zuerst in ein digitales
Sprachsignal umgewandelt werden müssen. Der Merkmalsextraktionsblock
wandelt die Datenübertragungsblöcke eines
digitalen Sprachsignals 2 in Merkmalsvektoren 6 um,
die einen Satz von Werten enthalten, die den Eingangsdatenübertragungsblock
in dem Zeit- und Frequenzbereich wiedergeben.
-
Verschiedene
Vorarbeitungsschritte werden durch den Merkmalsextraktionsblock 4 durchgeführt, enthaltend
Filtern, Vorbetonung, Geräuschkompensation
und Normalisierung. Darüber
hinaus konvertieren die Merkmalsextraktionsblöcke die zeitrelativen Sprachsignale
durch zum Beispiel eine Fast-Fourier-Transformation (FFT), eine
Wellentransformation, einen lineare Voraussagungscode oder eine
Filterbank in den Frequenzbereich. Danach wird oft ein Mapping realisiert,
um psychoakustische Kompensationen in die Zeit-zu-Frequenztransformation
einzuschliessen. Schlussendlich werden oft Nachbearbeitungstechniken
durch die Addition von Abweichungen von erstem und zweitem Grad
angewandt, und weiter werden Normalisierung und Filtern angewandt.
Die berechneten Merkmalsvektoren müssen dekorreliert werden, was
den Musterübereinstimmungsmechanismus
ergibt. Der Merkmalsextraktionsblock liefert einen Strom 6 von
nachfolgenden Merkmalsvektoren, die zu dem Eingangssprachsignal
korrespondieren.
-
Ein
Musterübereinstimmungsblock 8 oder Klassifizierer
ordnet die Merkmalsvektoren in dem Datenstrom 6, die von
dem Merkmalsextraktionsblock 4 geliefert werden, den Zielsprachelementen zu.
In einem Spracherkennungssystem zeigt der Musterübereinstimmungsblock für jeden
Merkmalsvektor, der zu einem Datenübertragungsblock eines Eingangssprachsignals
korrespondiert, die Wahrscheinlichkeit 10 an, dass er mit
verschiedenen Sprachelementen, zum Beispiel Wörter, Unterwörter, Phoneme,
Triphoneme, etc. korrespondiert.
-
Verschiedene
Typen von Musterübereinstimmungsblöcken sind
bekannt, einschliesslich Versteckten Markov Modelle (Hidden Markov
Modelle), die gemischte Gaussfunktionen, Neuronale Netzwerke Hybride
Systeme, Support Vektor Maschinen, etc. verwenden. In den folgenden
Abschnitten werden wir detaillierter den speziellen Fall von Hidden
Markov Modellen beschreiben, obwohl das Verfahren gemäss der Erfindung
auch mit anderen Arten von Musterübereinstimmungsblöcken durchgeführt werden könnte.
-
Ein
Beispiel von Hidden Markov Modellen ist in der 2 gezeigt.
Ein Markov Modell ist eine Maschine mit begrenzten Zuständen, welche
den Zustand einmal in einer Zeiteinheit ändert. Jedes Mal, wenn ein
Zustand i eingegeben wird, wird ein Sprachvektor o mit einer Ausgangswahrscheinlichkeit
b(o) erzeugt. Der Übergang
von Zustand i zu Zustand j hat eine Übergangswahrscheinlichkeit
aij. 2 zeigt ein Beispiel von diesem Vorgang, in dem
sich die sechs Zustandsmodelle durch die Zustandssequenzen 1,2,2,3,4,4,5,6
bewegen, um die Sequenzen o1 bis o6 zu generieren.
-
Die
Wahrscheinlichkeit von einer Sequenz O = o1 bis o6 durch ein gegebenes
Modell, welches sich die Zustandssequenz X bewegt, generiert zu werden,
ist das Produkt der Übergangswahrscheinlichkeit
und der Ausgangwahrscheinlichkeit. In der Praxis wird selbstverständlich nur
die Beobachtungssequenz O gemessen und die grundlegende Sequenz
X wird versteckt. Darum wird das Modell ein Hidden Markov Modell
genannt.
-
Ein
verschiedenes Hidden Markov Modell wird deshalb für jede Sequenz
eines Sprachelements gebaut, welches man zu erkennen wünscht. Die
Liste der Sequenzen, für
welche ein Modell gebaut wurde, wird Lexikon genannt und kann durch
eine Datei, welche Wörterbuch
genannt wird, repräsentiert
werden. Ein Wörterbuch
ist deshalb eine Datei, welche eine Liste von zu erkennenden Sequenzen
und mindestens eine Aussprache, die durch eine Serie von Sprachelementen
dargestellt wird, die mit jeder Sequenz in der Liste assoziiert
ist, enthält.
-
Ein
Dekoderblock 12 bestimmt dann die wahrscheinlichsten Sequenzen 14,
die durch den Sprecher gesprochen werden, was die erfolgreichen Sprachelemente
ergibt und die Wahrscheinlichkeiten 10, die durch den Musterübereinstimmungsblock
geliefert werden, das die Sequenz mit jedem Modell übereinstimmt.
Ein Viterbi-Entschlüsselungssystem kann
für diese
Funktion benutzt werden; diese Suche wird gewöhnlich durch ein Konstraint-Netzwerk 4 erzwungen.
-
6 illustriert
die Architektur eines Spracherkennungssystems gemäss der Erfindung.
Dieses System umfasst ein Spracherkennungsmodul 5. Das
Spracherkennungsmodul 5 kann auf Standardwerkzeugen basieren,
wie zum Beispiel ein HTK Werkzeug, und benutzt eine Vielzahl von
Bibliotheken (nicht dargestellt), um das Interface mit der umgebenden
Welt und für
zusätzliche
Funktionen zu kontrollieren.
-
Das
Erkennungsmodul 5 führt
die Erkennungsaufgabe vorzugsweise mit Sätzen von Hidden Markov Modellen 36, 37 durch.
In dem illustrierten Beispiel sind zwei Sätze von Modellen bereitgestellt. Der
erste Satz definiert durch die Datei 36 enthält Modelle
von deutschen Phonemen trainiert mit deutschen Muttersprachlern.
Der zweite Satz von Phonemen definiert durch die Datei 37 enthält französische Phoneme
trainiert mit deutschen Muttersprachlern. Ein Modell zum Beispiel
in diesem Satz 37 könnte
die gewöhnliche
Aussprache eines französischen
Phonems [ã]
durch einen deutschen Muttersprachler wiedergeben.
-
Diese
Trennung von zwei verschiedenen Modellen in zwei Dateien 36, 37 ist
nur für
illustrative Zwecke; es ist eindeutig, dass diese Sätze in einer einzigen
Datei kombiniert werden könnten,
in verschiedenen Dateien geschrieben werden.
-
In
der Praxis bedeutet dies, dass der ursprüngliche Satz von Modellen der
deutschen Phoneme in der Datei 34 mit einem Satz von Modellen von
französischen
Phonemen, die durch deutsche Sprecher ausgesprochen werden, erweitert
wird.
-
Ein
Wörterbuch 3 zeigt
die Aussprache, die mit einer Vielzahl von Sprachsequenzen assoziiert wurden,
an, zum Beispiel Wörter.
In der Wörterbuchdatei
wird die Aussprache von jedem Sprachelement in verschiedenen Sequenzen
durch drei Parameter identifiziert:
- 1. Das
typische Phonem p
- 2. Die typische Sprache zu der das Phonem gehört, zum
Beispiel Französisch
(.FR).
- 3. Die linguistischen Sprecher, die trainiert wurden, um das
Phonem auszusprechen, zum Beispiel deutsche Sprecher (.DE)
-
Als
ein Beispiel einer Angabe eines Modells in der Wörterbuch wird [a].FR.DE sein,
was bedeutet, dass die gewählten
Phoneme Modelle mit einem französischen
[a] korrespondiert, welches durch einen Satz von deutschen Sprechern
ausgesprochen wird.
-
Ein
Eintrag 30, der mit dem Wort GUISAN in dem Wörterbuch
korrespondiert, würde
zum Beispiel sein
GUISANPLATZ [g].DE.DE, [i].DE.DE, [z].DE.DE, [ã].FR.DE
-
Dieser
Eintrag 30 in das Wörterbuch 3 mischt deshalb
akustische deutsche Standardmodelle [g].DE.DE, [i].DE.DE, [z].DE.DE
mit einem mehrsprachigen Modell vom französischen [ã], welches von deutschen
Muttersprachlern ausgesprochen wird.
-
Das
Wörterbuch
kann automatisch von einem Lexikon generiert werden, welches die
Sprachherkunft von jeder Sequenz anzeigt, zum Beispiel von jedem
Wort. Das Lexikon würde
zum Beispiel einen Eintrag für
das Wort GUISAN enthalten und anzeigen, dass dieses ein französischer
Name ist. Ein Softwaretool kann dann automatisch den oben beschriebenen
Eintrag in das Wörterbuch
bauen, indem deutsche Sprachmodelle für Phoneme, die in Deutsch existieren
und mehrsprachige Sprachmodelle für französische Phoneme ausgewählt werden.
-
Die
zusätzlichen
Sprachmodelle 37, die benötigt werden, können aus
dem Nichts gebaut werden und mit nicht Muttersprachlern trainiert
werden. Um die Kosten zu reduzieren kann ein Sprachmodellanpassungsverfahren
verwendet werden, um bestehende Modelle mit den knappen verfügbaren Daten der
Zielsprache anzupassen. Diese Anpassung kann unter Verwendung bestehender
Werkzeuge oder Verfahren wie MLLR oder MAP durchgeführt werden.
-
Es
sollte beachtet werden, dass in dem Fall von mehrsprachigen Sprachmodellen
die von dem Spracherkennungsmodul verwendete Grammatik spezifisch
zu der linguistischen Herkunft des Sprechers ist. Wenn der Sprecher
zum Beispiel ein deutscher Sprecher ist, setzt sich die Grammatik,
die für die
Erkennung von gemischten Sprachwörter
benötigt
wird, aus deutschen Modellen für
deutsche Phoneme und Deutsche mehrsprachige Modelle für französische Phoneme
zusammen. Wenn das System durch einen französischen Sprecher verwendet
wird, setzt sich die Grammatik aus französischen Modellen von französischen
Phonemen und französischen mehrsprachigen
Modellen von deutschen Phonemen zusammen.
-
Wenn
die Herkunft des Sprechers unbekannt ist, könnte man beide Modelle parallel
erkennen und den grössten
Wahrscheinlichkeitswert nehmen. In diesem Fall wird die Grammatik
beide Versionen Französisch
+ mehrsprachiges Französisch und/oder
Deutsch und mehrsprachiges Deutsch enthalten. Dies hat jedoch die
Nebenwirkung einer erhöhten
Verarbeitungszeit. In einem bevorzugten Ausführungsbeispiel wird die Muttersprache
des Sprechers daher automatisch erkannt, um den bestgeeigneten Satz
von Modellen auszuwählen.
Diese automatische Auswahl kann unter Verwendung der Telefonnummer
des Anrufers (CLI, Anschlusserkennung) oder vorzugsweise mit einem
neuronalen Netzwerk oder Sätzen
von trainierten HMMs durchgeführt
werden.
-
Das
Verfahren gemäss
der Erfindung hat deshalb den Vorteil zur Erkennung von einem einzigen
Eintrag in einem Wörterbuch
Modelle von Sprachelementen von zwei verschiedenen Sprachen zu verwenden,
die aber mit Sprechern einer gemeinsamen Sprache trainiert wurden.
Es ist sogar möglich, Triphonemmodelle
zu verwenden, wobei mindestens ein mehrsprachiges Phonemmodell mit
einem gebürtigen
Phonemmodell gemischt wird.
-
Die
Erfindung bezieht auch auf ein Computerprogrammprodukt, welches
eine Wörterbuchdatei 3 umfasst,
besagte Wörterbuchdatei
enthält
eine Liste von Sprachsequenzen, die erkannt werden können, und
eine Vielzahl von Modellen, die mit jeder Sequenz in der Liste assoziiert
sind, in welchem mindestens eine Sequenz mit einem Modell assoziiert ist,
das auf gebürtigen
Modellen 36, die mit Muttersprachlern einer ersten Sprache
gebaut werden, und mehrsprachigen Modellen 37 für Sprachelemente, die
typisch für
eine zweite Sprache sind, aber von einem Satz von Sprechern der
ersten Sprache gebaut sind, basiert. Besagte Vielzahl von Modellen
kann einen Satz von trainierten Hidden Markov Modellen umfassen.