DE60207784T9

DE60207784T9 - Sprecheranpassung für die Spracherkennung

Info

Publication number: DE60207784T9
Application number: DE60207784T
Authority: DE
Inventors: Luca Santa Barbara Rigazio; Patrick Santa Barbara Nguyen; David Santa Barbara Kryze; Jean-Claude Santa Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-05-24
Filing date: 2002-05-23
Publication date: 2006-12-14
Also published as: EP1262953B1; DE60207784T2; EP1262953A3; US6915259B2; DE60207784D1; EP1262953A2; ATE312398T1; US20030050780A1

Description

HINTERGRUND UND ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein die Spracherkennung. Insbesondere betrifft die Erfindung die Sprecheranpassung in geräuschvollen Umgebungen.
Spracherkennungssysteme lassen sich in zwei Gruppen unterteilen: sprecherunabhängige und sprecherabhängige. Das sprecherunabhängige System wird typischerweise auf Basis eines Schulungsdatenkorpus von einer Mehrzahl Sprecher aufgebaut und das sprecherabhängige System wird mittels eines als Sprecheranpassung bezeichneten Prozesses aufgebaut, bei dem die Sprachmodelle eines sprecherunabhängigen Systems angepasst werden, um für einen bestimmten neuen Sprecher besser zu wirken. Die Sprecheranpassung bringt oft das Problem mit sich, wie zuverlässige Modelle anhand kleiner Mengen Anpassungsdaten von einem neuen Sprecher zu schätzen sind. Beim Anpassen eines sprecherunabhängigen Systems an ein sprecherabhängiges stellt der sich registrierende Benutzer eine Anfangsmenge Registrierungssprache (Anpassungssprache) bereit, aus der die angepassten Modelle aufgebaut werden. Weil das Bereitstellen der Registrierungssprache Zeit in Anspruch nimmt, bevorzugen Benutzer Systeme, die sich bei minimaler Schulung anpassen, oder die in der Lage sind, sich anzupassen, während das System in Gebrauch ist. Die US-A-5664059 offenbart eine Sprecheranpassung mit anfänglicher akustischer Normalisierung.
Es gibt zahlreiche unterschiedliche Sprecheranpassungstechniken, die derzeit weit verbreitete Anwendung finden. Zu ihnen gehören die lineare Maximum-Likelihood-Regression (MLLR) und die Maximum-a-posteriori- (MAP-) Schätzung. Im Allgemeinen sind Anpassungstechniken wie diese erfolgreich, wenn sie unter geräuscharmen Bedingungen angewendet werden. Die Techniken versagen jedoch zunehmend mit ansteigendem Hintergrundgeräuschpegel.
Wir nehmen an, dass ein Grund für das Versagen von Anpassungssystemen darin liegt, dass die Sprecheranpassungsprozesse Informationen über das Umgebungsmodell ignorieren. Wenn die Registrierungssprache bei Vorliegen eines Hintergrundgeräusches bereitgestellt wird, wird das Anpassungssystem daher versuchen, die Sprache und das Hintergeräusch zu kompensieren. Weil das Hintergrundgeräusch unvorhersagbar variieren kann, arbeiten die resultierenden adaptierten Modelle in der Praxis wahrscheinlich sehr mangelhaft.
Gemäß der Erfindung werden ein in Anspruch 1 dargelegtes Verfahren und ein in Anspruch 12 dargelegtes System bereitgestellt.
Die vorliegende Erfindung löst dieses Problem durch Nutzung einer besonderen linearen Näherung des Hintergrundgeräusches, die nach der Merkmalsextrahierung und vor der SprEcheranpassung angewendet wird, um dem Sprecheranpassungssystem die Anpassung der Sprachmodule an den sich registrierenden Benutzer ohne Verzerrung vom Hintergrundgeräuschen zu ermöglichen. Bemerkenswerterweise funktioniert die Technik in der extrahierten Merkmaldomäne. Das heißt, die lineare Näherung des Hintergrundgeräusches wird in der Merkmaldomäne (z. B. in der cepstralen Domäne oder einer anderen statistischen Domäne) angewendet, statt in der Zeitdomäne, die der Eingangs-Registrierungslautäußerung zugeordnet ist. Die derzeit bevorzugte Ausführungsform verwendet eine Jacobische Matrix, um die lineare Näherung des Hintergrundgeräusches zu implementieren. Alternativ können andere lineare Näherungen verwendet werden.
Für ein vollständigeres Verständnis der Erfindung, ihrer Aufgaben und Vorteile wird auf die folgende schriftliche Beschreibung und die beiliegenden Zeichnungen verwiesen.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm eines Spracherkenners, der ein verbessertes Sprecheranpassungssystem gemäß der Erfindung anwendet;
2 ist ein Graph, der die Wortfehlerraten für die Sprecheranpassung und für die gemeinsame Sprecheranpassung und Geräuschkompensation mit unterschiedlichen Verschachtelungslängen zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
1 veranschaulicht eine Ausführungsform der Erfindung in einer Spracherkenneranwendung. Die Anwendung ist dazu bestimmt, eine Sprecheranpassung mit einer Eingangssprache 10 auszuführen, die bei Vorliegen von Hintergrundgeräuschen N₁ bereitgestellt wird. Die Anwendung weist einen in einem gestrichelten Rahmen 12 allgemein dargestellten geräuschkompensierten Erkenner und ein in einem gestrichelten Rahmen 14 allgemein darge stelltes Sprecheranpassungsmodul auf. Der geräuschkompensierte Erkenner führt unter Verwendung einer Komponente 16 zur Merkmalsextrahierung mit dem Eingangssignal (in Gegenwart der Geräusche N₁) eine Merkmalsextrahierung aus. Bei der derzeit bevorzugten Ausführungsform werden durch die Komponente 16 zur Merkmalsextrahierung Cepstral-Koeffzienten extrahiert, um die Cepstral-Domäne- oder Merkmaldomäne-Beobachtungsdaten O_t bereitzustellen. Es ist zu beachten, dass die Beobachtungsdaten als eine Folge von Rahmen gemäß einem vorgegebenen Zeitfenster verarbeitet werden.
Der Erkenner verwendet einen Satz Sprachmodelle 18, die zunächst als sprecherunabhängige Modelle bereitgestellt werden. Die Entwicklung der Modelle erfolgt zur Schulungszeit unter Geräuschbedingungen, die sich wahrscheinlich von denen unterscheiden, die während der Verwendung des Systems auftreten. Daher werden die sprecherunabhängigen Akustikmodelle 18 so behandelt, als wären sie bei Vorliegen von Geräuschen N₀ entwickelt worden. Weil der geräuschkompensierte Erkenner der veranschaulichten Ausführungsform Merkmale extrahiert, um in der cepstralen Domäne zu wirken, sind die Akustikmodelle 18 ebenfalls in der cepstralen Domäne und können daher als C(SI + N₀) ausgedrückt werden.
Weil der geräuschkompensierte Erkenner 12 Akustikmodelle verwendet, die unter der Geräuschbedingung N₀ entwickelt wurden und dann unter der Geräuschbedingung N₁ verwendet werden, muss eine Schätzung der Geräuschpegeldifferenz festgesetzt werden. Dies erfolgt durch das Modul 16 zur Merkmalsextrahierung, das Merkmale aus einem vorsprachlichen Rahmen extrahiert, bevor die Eingangssprachlautäußerung beginnt. Demgemäß kann der Geräuschpegel N₁ als der Geräuschpegel festgelegt werden, der unmittelbar vor der Verwendung des Systems in der umgebenden Umgebung vorhanden ist. Das Modul zur Merkmalsextrahierung berechnet die Geräuschpegeldifferenz (N₁ – N₀) und drückt diese Differenz in der cepstralen Domäne aus. Die Differenz wird zusammen mit den sprecherunabhängigen Akustikmodellen einem linearen Näherungsoperator 20 zugeführt wie in 1 veranschaulicht. Die derzeit bevorzugte Ausführungsform verwendet einen Jacobischen Operator, um die Geräuschdifferenz darzustellen. Auf diese Weise berechnet der lineare Näherungsoperator eine Schätzung der sprecherunabhängigen Akustikmodelle unter der Geräuschbedingung N₁. Es ist zu beachten, dass die Schätzung durch Verwenden der ursprünglichen sprecherunabhängigen Akustikmodelle und Hinzufügen der durch die Jacobische Anpassungsmatrix ausgedrückten Geräuschdifferenzkomponente berechnet wird.
Nach der Umwandlung der sprecherunabhängigen Akustikmodelle von der ersten Geräuschdomäne N₀ in die nachfolgende Geräuschdomäne N₁ ist ein Decodierer 22 nun in der Lage, die Eingangssprache zu decodieren. Insbesondere liefert das Modul 16 zur Merkmalsextrahierung die Eingangssprache (plus Geräusche) als Beobachtungsdaten O_t. Die Beobachtungsdaten werden dem Decodierer 22 zugeführt, der die Beobachtungsdaten unter Verwendung der geräuschkompensierten Akustikmodelle decodiert. Der Decodierer 22 stellt so die Zustandssegmentierung q_t bereit. Die Zustandssegmentierung wird vom Sprecheranpassungsmodul 14 benötigt, wie nachfolgend beschrieben wird.
Es ist zu beachten, dass der geräuschkompensierte Erkenner 12 der dargestellten Ausführungsform den linearen Näherungsoperator (den Jacobischen Operator) verwendet, um die Beobachtungsdaten bei Vorliegen der Geräusche N₁ decodiert. Obwohl dies eine derzeit bevorzugte Form der Erfindung ist, können andere geräuschkompensierte Erkenner verwendet werden. Konkret ist es nicht erforderlich, dass der Jacobische Operator verwendet wird, um die Zustandssegmentierung zu bestimmen. Im Allgemeinen kann jeder Erkenner verwendet werden, der die Eingangssprache bei Vorliegen von Geräuschen zu decodieren vermag.
Das Sprecheranpassungsmodul 14 verwendet einen inversen linearen Näherungsoperator 24, um die Wirkung des Hintergrundgeräusches N₁ vor der Anpassung zu entfernen. Die derzeit bevorzugte Ausführungsform verwendet einen Jacobischen Operator auf Basis einer linearen Näherung des Hintergrundgeräusches. Der inverse lineare Näherungsoperator 24 verarbeitet die Beobachtungsdaten O_t unter Verwendung der vom Decodierer 22 erhaltenen Zustandssegmentierungsinformationen. Das Ergebnis der inversen Näherung ist ein Satz modifizierter Beobachtungsdaten, der zum Entfernen der Wirkungen der Hintergrundgeräusche bereinigt worden ist. Anschließend wird die Sprecheranpassung durch ein Modul 26 ausgeführt.
Im Wesentlichen kann jede Sprecheranpassungstechnik verwendet werden, die mit dem linearen Näherungsoperator kommutativ ist. Das Anpassungsmodul 26 verarbeitet die sprecherunabhängigen Akustikmodelle. In 1 sind die Akustikmodelle als 18' gekennzeichnet erneut wiedergegeben worden, um die Darstellung der Zeichnung zu vereinfachen. Falls gewünscht, kann das System in mehrfacher Hinsicht iterativ betrieben werden. Sobald die sprecherunabhängigen Akustikmodelle durch das Modul 26 angepasst worden sind, können Sie bei 18 verwendet werden, um eine sogar noch genauere Zustandssegmentierung zu extrahieren, die dann verwendet wird, um eine sogar noch genauere inverse lineare Näherungsoperation mit weiter verbesserter Sprecheranpassung auszuführen. Wie nachfolgend ausführlicher beschrieben wird, kann der Jacobische Operator (ein inverser Jacobischer Operator) auch auf eine iterative Weise berechnet werden.
Die von den Modulen 20 und 24 angewendeten linearen Näherungsoperatoren basieren auf einer Näherung erster Ordnung, mit der die Geräuschumgebung zu kompensieren ist, während die Anwendung eines globalen Anpassungsschemas zur Sprecheranpassung ermöglicht wird. Obwohl eine Näherung der ersten Ordnung derzeit bevorzugt wird und gute Ergebnisse liefert, können alternativ Näherungen höherer Ordnungen verwendet werden. Die Erfindung modelliert die Umgebung (Geräuschpegel) mittels eines linearen Modells, das in der Merkmaldomäne (z. B. cepstralen Domäne) angewendet werden kann. Wie nachfolgend veranschaulicht wird, bietet die Verwendung eines linearen Modells einen bedeutenden Vorteil. Weil der Operator linear ist, kann er kommutativ mit einem Sprecheranpassungsoperator angewendet werden, der ebenfalls linear ist. In dieser Hinsicht sind MLLR- und MAP-Sprecheranpassungsoperatoren linear und können daher kommutativ gegenüber dem linearen Modell der Umgebung angewendet werden.
Im Allgemeinen besteht bei der Sprecheranpassung das Problem der Schätzung zuverlässiger Modelle häufig anhand kleiner Mengen vom Benutzer bereitgestellter Sprachdaten. In dieser Hinsicht werden häufig verschiedene sprecheradaptive Algorithmen, einschließlich MLLR und MAP, verwendet. Oft wird eine Kombination von MAP und MLLR ((MAP/MLLR) verwendet. Beim kombinierten Ansatz wird die MLLR zuerst angewendet:
dann wird eine MAP-Glättung angewendet, um die durch die lineare Regression auferlegten Einschränkungen zu lockern:
In den obigen Gleichungen ist μ₀ das sprecherunabhängige Mittel, W ist die Regressionsmatrix, p(O\μ) ist die Wahrscheinlichkeit und p₀(μ\μMLLR) ist die um μ konzentrierte konjugierte Apriori-Wahrscheinlichkeit. Für den MLLR-Schritt wurde eine einzige Regressionsklasse verwendet. Während der gesamten Experimente lieferte die MLLR-Anpassung Ergebnisse nahe MAP|MLLR, jedoch durchweg schlechter. Aus diesem Grund werden nur MAP|MLLR-Ergebnisse berichtet. Es ist zu beachten, dass MLLR- und MAP|MLLR-Anpassungen lineare Operatoren μ ^ = A{O, μ} sind.
Geräuschkompensation
X sei ein Spektralvektor und C(X) = F log (X) sei der cepstrale Operator, wenn F die DCT-Matrix (DCT = diskrete Kosinustransformation) ist und log (X) komponentenweise sein soll. Die Geräuschkompensation der Modellstatistik erster Ordnung kann gemäß C(S + N) = C(C^–1(C(S)) + N) ausgeführt werden, wobei C(S) das saubere Sprach-Cepstrum (oder äquivalent die Gaußschen Mittel) und C(S + N) die dem geschätzten Geräusch N unterliegende Schätzung des Sprach-Cepstrums ist. C(S + N1) ≈ C(S + N0) + J(S, N0)ΔC(N), (1)
wobei N₀, N₁ die Schulungs- und Prüfhintergrundgeräusche, ΔC(N) = C(N₁) – C(N₀), sind, und
eine diagonale Matrix sein soll. Es ist zu beachten, dass das Geräusch zur Schulungszeit von null verschieden sein muss, um zu garantieren, dass die Jacobische Matrix J(S, N₀) vollen Rang aufweist.
Das Ziel ist die Schätzung sprecherangepasster Modelle anhand von geräuschbehafteten Daten. Es wird nur eine Statistik erster Ordnung betrachtet. Durch Verwenden der Erwartung von den Beobachtungen und durch Verwendung der Gleichung (1) ergibt sich: E{O} = C(SD + N1), C(SD + N1) ≈ C(SD + N0) + J(SD, N0)ΔC(N).
Aus der Linearität des Erwartungsoperators E{·} ergibt sich:
Dies bedeutet, dass sprecherabhängige Modelle für die Schulungsumgebung N₀ berechnet werden können, indem die Erwartung der modifizierten Beobachtungen O' = OJ(S_D, N₀)ΔC(N) verwendet werden. Es ist zu beachten, dass das Ergebnis für jeden beliebigen linearen verallgemeinerten Erwartungsoperator gilt, einschließlich des Anpassungsoperators A{O, μ}. Leider wird die Gleichung (3) nicht direkt gelöst (im Allgemeinen), weil S_D benötigt wird, um J(S_D, N₀) zu berechnen, und umgekehrt. C(St+1D + N0) ≈ E{O – J(St+1D , N0)ΔC(N)} ≈ E{O – J(StD , N0)}
Es kann jedoch eine iterative Lösung für Gleichung (3) bereitgestellt werden:
Die Initialisierung sollte auf der besten verfügbaren Schätzung von J(S_D, N₀) basieren. In der Praxis bedeutet dies die Matrix, die den vom letzten Anpassungsinkrement erhaltenen Modellen zugeordnet ist, oder die sprecherunabhängige Matrix für das erste Anpassungsinkrement (S 0 / D = S₁). Der Algorithmus sollte in wenigen Iterationen konvergieren, solange die Annahmen zu (S t+1 / D, N₀) respektiert werden. Wird ferner die stärkere Annahme gemacht, dass J(S 0 / D, N₀) in t konstant ist, folgt, dass J(S_t, N₀) = J(S₁, N₀), dass die Jacobischen Matrizen nicht erneut berechnet werden müssen, und dass Gleichung (3) direkt gelöst werden kann. Diese Annahme würde die rechnerische Komplexität des Algorithmus drastisch verringern, da die Neuberechnung Jacobischer Matrizen sehr kostspielig ist (sie verlangt Potenzierungen, Divisionen und Matrixmultiplizierungen). In Abschnitt 5 wird die praktische Anwendbarkeit dieser Annahmen hinsichtlich von Erkennungsergebnissen beurteilt. Da wir an der Anpassung Gaußscher Mittel von Hidden Markov-Modellen interessiert sind, muss der Erwartungsoperator mittels Erwartungsmaximierung durch Integrieren über die versteckten Zustände q anhand unvollständiger Daten berechnet werden. In der Praxis erfolgt die Näherung durch Berücksichtigung nur des besten Pfades (Viterbi) und Verwendung der der gewinnenden Gauß'schen zugeordneten Jacobischen Matrix für jeden Rahmen, um O' zu berechnen. Die Ausrichtung wird mittels der letzten Akustikmodelle (μ ^^t) berechnet, wobei das Prüfgeräusch mit den letzten Jacobischen Matrizen (Ĵ^t) kompensiert ist.
Zum Testen des vorgeschlagenen Verfahrens wurde eine Datenbank mit vorher aufgezeichneten isolierten Wörtern verwendet. Die Testdatenbank besteht aus 14 Sprechern, die in einem mit 30 MHP (Meilen/h) und 60 Meilen/h fahrenden Auto aufgezeichnet wurden, wobei über insgesamt ungefähr 2 Stunden Sprache jeder Sprecher 150 Wörter pro Sitzung äußerte. Die durchschnittlichen Rauschabstände betragen bei der 30 Meilen/h-Sitzung ungefähr 12 dB und bei der 60 Meilen/h-Sitzung 7 dB. Die Geräuschkompensation wurde auf Basis des während der ersten 25 Rahmen des Satzes geschätzten Geräusches und unter Verwendung modifizierter Jacobischer Matrizen mit einem Geräuschüberschätzungsfaktor α = 2,5 ausgeführt. Die Kompensation wurde für statische und dynamische Koeffizienten ausgeführt. Die cepstrale Mittelanpassung wurde zur Kompensation einer Kanalfehlanpassung optional angewendet. Die Basislinien-Erkennungsergebnisse für den sauberen Entwicklungssatz (clean development set, DEV), den geräuschbehafteten 30 Meilen/h- und 60 Meilen/h-Testsatz sind in Tabelle 1 aufgeführt. Die Ergebnisse ohne Geräuschkompensation sind wegen der großen Fehlanpassung zwischen Schulungs- und Prüfumgebung sehr niedrig, und die Ergebnisse für die Jacobische liegen nahe bei der CMA, weil der Kanal größtenteils stationär ist (die Datenbank wird unter Verwendung desselben Mikrofons aufgezeichnet).
Tabelle 1: Basislinien-Wortfehlerraten ohne Geräuschkompensation (KEINE), mit Jacobischer (JAC) und mit Jacobischer plus cepstraler Mittelanpassung (cepstral mean adaptation, CMA).
Mit stationären Umgebungen beziehen wir uns auf Daten, die bei einer unveränderlichen Geschwindigkeit des Autos erfasst wurden: Das Geräusch des Autos selbst ist ziemlich stationär, und die Geräuschmenge ist innerhalb einer Erkennungssitzung ebenfalls stationär.
Diese Einrichtung kann die Schätzung der Sprecherposition vereinfachen, insbesondere für den Sprecheranpassungsalgorithmus, weil die Störungen des Geräusches stationär sind und über lange Zeiträume gemittelt werden können. In Tabelle 2 sind Erkennungsergebnisse für das vorgeschlagene Verfahren, MAP|MLLR|JAC, und für die MAP|MLLR-Sprecheranpassung aufgeführt. Es wurden eine unüberwachte inkrementale Sprecheranpassung mit Inkrementschritten von 10 Sätzen und eine einzige Iteration für die Schätzung der sprecherangepassten Jacobischen Matrizen Ĵ^t (mehr Iterationen lieferten keine bedeutenden Verbesserungen) verwendet. Die Ergebnisse zeigen, dass sich MAP|MLLR|JAC im Vergleich zu MAP|MLLR unter geräuschvollen Bedingungen wesentlich verbessert (eine relative Fehlerratenverringerung von durchschnittlich 55% bei den 30 Meilen/h und 60 Meilen/h) und sich beim sauberen Entwicklungssatz nur geringfügig verschlechtert.
Tabelle 2: Wortfehlerraten für Sprecheranpassung und für gemeinsame Sprecheranpassung und Geräuschkompensation in stationären Umgebungen.
In Tabelle 3 sind die mit dem MAP|MLLR|JAC-Algorithmus auf Basis der stärkeren Annahme, dass Jacobische Matrizen von der Sprecheranpassung unbeeinflusst sind, erhaltenen Ergebnisse aufgeführt. Obwohl eine Leistungsverschlechterung festzustellen ist, kann der Algorithmus dennoch eine starke Verbesserung gegenüber MAP|MLLR und JAC oder CMA bereitstellen. Diese Erkenntnis mag kontraintuitiv erscheinen, sie ist jedoch zur Verringerung der Komplexität des Algorithmus sehr wichtig. Weitere Untersuchungen sind erforderlich, um zu verstehen, warum diese Näherung unter realen Bedingungen so gut gilt.
Tabelle 3: Wortfehlerraten für gemeinsame Sprecheranpassung und Geräuschkompensation für stationäre Umgebungen ohne die Aktualisierung der Jacobischen Matrizen.
Ergebnisse für nicht stationäre Umgebungen
Wie zuvor betont worden ist, sind Erkennungsexperimente bei homogenen Sitzungen eine ziemliche Vereinfachung realistischer Umgebungen. Bei realen Anwendungen kann sich die Geräuschmenge von Satz zu Satz weitgehend ändern. Indem erzwungen wird, dass die Daten zu einer einzigen Sitzung gehören, helfen wir dem Algorithmus die kombinierten Sprecher- und Umgebungswirkungen zu lernen. Dies kann eine Datenbankverzerrung zugunsten von MAP|MLLR einbringen, da Trennen der Wirkungen bei diesen Daten nicht wirklich entscheidend ist. Zur Behandlung dieses Problems wurden die 30 Meilen/h- und 60-Meilen/h-Daten durch Verschachteln von Sätzen gemischt. Die Verschachtelungslängen als Potenz von zwei, I = 2^k mit k = 0...6, gewählt. Außerdem wurde die Lexikongröße auf 4200 Wörter vergrößert, weil während der zwei Sitzungen verschieden ausgesprochene Wörter gesprochen wurden. Dies macht es schwierig, absolute Erkennungsraten mit früheren Ergebnissen zu vergleichen. In Tabelle 4 sind über Verschachtelungslängen gemittelte Erkennungsergebnisse aufgeführt. Es ist zu beachten, dass MAP|MLLR|JAC eine relative Fehlerratenverringerung von 52% im Vergleich zu MAP|MLLR, 19% im Vergleich zu CMA und 21% im Vergleich zu JAC liefert.
Tabelle 4: Für nicht stationäre Umgebungen simulierte durchschnittliche Wortfehlerraten.
2 zeigt die Erkennungsergebnisse, wobei die Verschachtelungslänge in einer logarithmischen Skala aufgeführt ist. Die Verschachtelungslänge kann als ein Faktor des nicht stationären Zustands für die simulierte Umgebung ausgelegt werden (ein kleines k bewirkt eine weniger stationäre Umgebung). Nicht inkrementelle Verfahren wie JAC oder CMA sind von k nicht betroffen, inkrementelle Verfahren können jedoch im Prinzip beeinflusst werden. Es ist zu beachten, dass MAP|MLLR sehr empfindlich gegen k ist, und dass Wortfehlerraten mit k erheblich zunehmen. Wir glauben, dass sich die Sprecheranpassung (d. h. Modellierung von Sprecher und Umgebung) bei großem k an die stärkeren Umgebungswirkungen überanpasst und Sprecheranpassungsvermögen einbüßt. Dieses unerwünschte Verhalten wird durch die MAP|MLLR|JAC nicht aufgezeigt, die eine von k nahezu unabhängige Leis tung liefert. Dies bestätigt, dass Sprecher und Umgebungswirkungen korrekt getrennt worden sind, und dass diese Trennung in einem robusteren System und in einer besseren Fähigkeit zur Schätzung anhaltender sprecherabhängiger Wirkungen resultiert.

Claims

Verfahren zur Ausführung der Sprecheranpassung anhand von Sprachmodellen, die einem Spracherkenner zugeordnet sind, wobei die Sprachmodelle unter ersten Umgebungsbedingungen erzeugt worden sind, aufweisend: Erfassen von Eingangssprache (10) unter zweiten Umgebungsbedingungen von einem Sprecher, für den die Sprachmodelle anzupassen sind, und Extrahieren von Beobachtungsdaten aus dieser Eingangssprache (10); Decodieren (22) der Beobachtungsdaten, um Zustandssegmentierungsdaten in Zusammenhang mit den Beobachtungsdaten zu ermitteln; gekennzeichnet durch Bereitstellen eines linearen Näherungsoperators, der das Wissen der ersten Umgebungsbedingungen speichert; Verarbeiten (24) der Beobachtungsdaten unter Verwendung des linearen Näherungsoperators und der Zustandssegmentierungsdaten, um die Beobachtungsdaten in kompensierte Beobachtungsdaten umzuwandeln, die den Beobachtungsdaten unter den ersten Umgebungsbedingung näherungsweise entsprechen; Anwenden einer Sprecheranpassungsoperation (26) auf die kompensierten Beobachtungsdaten, um angepasste Sprachmodelle für diesen Sprecher zu erzeugen.
Verfahren nach Anspruch 1, bei dem die Beobachtungsdaten extrahiert werden, indem eine Merkmalsextrahierung mit der Eingangssprache ausgeführt wird.
Verfahren nach Anspruch 1, bei dem die Beobachtungsdaten extrahiert werden, indem Cepstral-Koeffizienten auf Basis der Eingangssprache erzeugt werden.
Verfahren nach Anspruch 1, ferner aufweisend: Bestimmen der Differenz zwischen den ersten und zweiten Umgebungsbedingungen; Verwenden dieser Differenz und des linearen Näherungsoperators, um die Sprachmodelle so zu ändern, dass sie den zweiten Umgebungsbedingungen zumindest näherungsweise entsprechen; und Verwenden der geänderten Sprachmodelle, um den Decodierungsschritt auszuführen.
Verfahren nach Anspruch 1, bei dem der Verarbeitungsschritt ausgeführt wird, indem die Inverse des linearen Näherungsoperators auf die Beobachtungsdaten angewendet wird.
Verfahren nach Anspruch 4, bei dem der Schritt des Änderns der Sprachmodelle vor dem Decodieren ausgeführt wird, indem der lineare Näherungsoperator auf die Sprachmodelle angewendet wird; und bei dem der Verarbeitungsschritt erfolgt, indem die Inverse des linearen Näherungsoperators auf die Beobachtungsdaten angewendet wird.
Verfahren nach Anspruch 1, bei dem die Anpassungsoperation mit dem linearen Näherungsoperator kommutativ ist.
Verfahren nach Anspruch 1, bei dem die Anpassungsoperation die MAP- (Maximum-a-posteriori)-Schätzung anwendet.
Verfahren nach Anspruch 1, bei dem die Anpassungsoperation die MLLR (lineare Maximum-Likelihood-Regression) anwendet.
Verfahren nach Anspruch 1, bei dem der lineare Näherungsoperator eine Jacobische Matrix anwendet.
Verfahren nach Anspruch 1, bei dem der lineare Näherungsoperator eine durch eine lineare Transformation modifizierte Jacobische Matrix anwendet.
Sprecheranpassungssystem, aufweisend: einen Spracherkenner (12), der eine erste Menge Sprachmodelle (18) verwendet, die unter ersten Umgebungsbedingungen erzeugt worden sind, wobei der Spracherkenner (12) einen Eingang hat, über den ein Benutzer Eingangssprache unter zweiten Umgebungsbedingungen bereitstellt, und einen Ausgang, der Beobachtungsdaten entsprechend den zweiten Umgebungsbedingungen bereitstellt; ein Sprecheranpassungsmodul (14), das mit dem Spracherkenner (12) gekoppelt ist, wobei das Sprecheranpassungsmodul einen Sprecheranpassungsprozess mit der ersten Menge Sprachmodelle (18) auf Basis der Beobachtungsdaten ausführt; dadurch gekennzeichnet, dass das Sprecheranpassungsmodul (14) ferner einen linearen Näherungsoperator hat, der das Wissen der ersten Umgebungsbedingungen speichert und die Beobachtungsdaten so angleicht, dass sie den ersten Umgebungsbedingungen entsprechen und dadurch Differenzen zwischen den ersten und zweiten Umgebungsbedingungen kompensieren.
Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner eine Komponente zur Merkmalsextraktion verwendet, um die Beobachtungsdaten zu entwickeln.
Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner einen Decodierer zur Bereitstellung von Zustandssegmentierungsinformationen an das Sprecheranpassungsmodul verwendet.
Anpassungssystem nach Anspruch 12, bei dem die Beobachtungsdaten Cepstral-Koeffizienten sind.
Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner ein geräuschkompensierter Erkenner ist.
Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner eine Komponente zur Merkmalsextraktion verwendet, um ein Maß der Differenz zwischen den ersten und zweiten Umgebungsbedingungen zu entwickeln.
Anpassungssystem nach Anspruch 12, ferner einen zweiten linearen Näherungsoperator aufweisend, der zum Angleichen der ersten Menge Sprachmodelle auf Basis des Maßes der Differenz zwischen den ersten und zweiten Umgebungsbedingungen aktivierbar ist.
Anpassungssystem nach Anspruch 12, bei dem das Anpassungsmodul die MAP- (Maximum-a-posteriori)-Schätzung anwendet.
Anpassungssystem nach Anspruch 12, bei dem das Anpassungsmodul die MLLR (lineare Maximum-Likelihood-Regression anwendet.
Anpassungssystem nach Anspruch 12, bei dem der lineare Näherungsoperator eine Jacobische Matrix anwendet.
Anpassungssystem nach Anspruch 12, bei dem der lineare Näherungsoperator eine durch eine lineare Transformation modifizierte Jacobische Matrix anwendet.