DE60207784T9 - Sprecheranpassung für die Spracherkennung - Google Patents

Sprecheranpassung für die Spracherkennung Download PDF

Info

Publication number
DE60207784T9
DE60207784T9 DE60207784T DE60207784T DE60207784T9 DE 60207784 T9 DE60207784 T9 DE 60207784T9 DE 60207784 T DE60207784 T DE 60207784T DE 60207784 T DE60207784 T DE 60207784T DE 60207784 T9 DE60207784 T9 DE 60207784T9
Authority
DE
Germany
Prior art keywords
observation data
linear
speech
environmental conditions
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60207784T
Other languages
English (en)
Other versions
DE60207784D1 (de
DE60207784T2 (de
Inventor
Luca Santa Barbara Rigazio
Patrick Santa Barbara Nguyen
David Santa Barbara Kryze
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60207784D1 publication Critical patent/DE60207784D1/de
Publication of DE60207784T2 publication Critical patent/DE60207784T2/de
Application granted granted Critical
Publication of DE60207784T9 publication Critical patent/DE60207784T9/de
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Description

  • HINTERGRUND UND ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung betrifft allgemein die Spracherkennung. Insbesondere betrifft die Erfindung die Sprecheranpassung in geräuschvollen Umgebungen.
  • Spracherkennungssysteme lassen sich in zwei Gruppen unterteilen: sprecherunabhängige und sprecherabhängige. Das sprecherunabhängige System wird typischerweise auf Basis eines Schulungsdatenkorpus von einer Mehrzahl Sprecher aufgebaut und das sprecherabhängige System wird mittels eines als Sprecheranpassung bezeichneten Prozesses aufgebaut, bei dem die Sprachmodelle eines sprecherunabhängigen Systems angepasst werden, um für einen bestimmten neuen Sprecher besser zu wirken. Die Sprecheranpassung bringt oft das Problem mit sich, wie zuverlässige Modelle anhand kleiner Mengen Anpassungsdaten von einem neuen Sprecher zu schätzen sind. Beim Anpassen eines sprecherunabhängigen Systems an ein sprecherabhängiges stellt der sich registrierende Benutzer eine Anfangsmenge Registrierungssprache (Anpassungssprache) bereit, aus der die angepassten Modelle aufgebaut werden. Weil das Bereitstellen der Registrierungssprache Zeit in Anspruch nimmt, bevorzugen Benutzer Systeme, die sich bei minimaler Schulung anpassen, oder die in der Lage sind, sich anzupassen, während das System in Gebrauch ist. Die US-A-5664059 offenbart eine Sprecheranpassung mit anfänglicher akustischer Normalisierung.
  • Es gibt zahlreiche unterschiedliche Sprecheranpassungstechniken, die derzeit weit verbreitete Anwendung finden. Zu ihnen gehören die lineare Maximum-Likelihood-Regression (MLLR) und die Maximum-a-posteriori- (MAP-) Schätzung. Im Allgemeinen sind Anpassungstechniken wie diese erfolgreich, wenn sie unter geräuscharmen Bedingungen angewendet werden. Die Techniken versagen jedoch zunehmend mit ansteigendem Hintergrundgeräuschpegel.
  • Wir nehmen an, dass ein Grund für das Versagen von Anpassungssystemen darin liegt, dass die Sprecheranpassungsprozesse Informationen über das Umgebungsmodell ignorieren. Wenn die Registrierungssprache bei Vorliegen eines Hintergrundgeräusches bereitgestellt wird, wird das Anpassungssystem daher versuchen, die Sprache und das Hintergeräusch zu kompensieren. Weil das Hintergrundgeräusch unvorhersagbar variieren kann, arbeiten die resultierenden adaptierten Modelle in der Praxis wahrscheinlich sehr mangelhaft.
  • Gemäß der Erfindung werden ein in Anspruch 1 dargelegtes Verfahren und ein in Anspruch 12 dargelegtes System bereitgestellt.
  • Die vorliegende Erfindung löst dieses Problem durch Nutzung einer besonderen linearen Näherung des Hintergrundgeräusches, die nach der Merkmalsextrahierung und vor der SprEcheranpassung angewendet wird, um dem Sprecheranpassungssystem die Anpassung der Sprachmodule an den sich registrierenden Benutzer ohne Verzerrung vom Hintergrundgeräuschen zu ermöglichen. Bemerkenswerterweise funktioniert die Technik in der extrahierten Merkmaldomäne. Das heißt, die lineare Näherung des Hintergrundgeräusches wird in der Merkmaldomäne (z. B. in der cepstralen Domäne oder einer anderen statistischen Domäne) angewendet, statt in der Zeitdomäne, die der Eingangs-Registrierungslautäußerung zugeordnet ist. Die derzeit bevorzugte Ausführungsform verwendet eine Jacobische Matrix, um die lineare Näherung des Hintergrundgeräusches zu implementieren. Alternativ können andere lineare Näherungen verwendet werden.
  • Für ein vollständigeres Verständnis der Erfindung, ihrer Aufgaben und Vorteile wird auf die folgende schriftliche Beschreibung und die beiliegenden Zeichnungen verwiesen.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm eines Spracherkenners, der ein verbessertes Sprecheranpassungssystem gemäß der Erfindung anwendet;
  • 2 ist ein Graph, der die Wortfehlerraten für die Sprecheranpassung und für die gemeinsame Sprecheranpassung und Geräuschkompensation mit unterschiedlichen Verschachtelungslängen zeigt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • 1 veranschaulicht eine Ausführungsform der Erfindung in einer Spracherkenneranwendung. Die Anwendung ist dazu bestimmt, eine Sprecheranpassung mit einer Eingangssprache 10 auszuführen, die bei Vorliegen von Hintergrundgeräuschen N1 bereitgestellt wird. Die Anwendung weist einen in einem gestrichelten Rahmen 12 allgemein dargestellten geräuschkompensierten Erkenner und ein in einem gestrichelten Rahmen 14 allgemein darge stelltes Sprecheranpassungsmodul auf. Der geräuschkompensierte Erkenner führt unter Verwendung einer Komponente 16 zur Merkmalsextrahierung mit dem Eingangssignal (in Gegenwart der Geräusche N1) eine Merkmalsextrahierung aus. Bei der derzeit bevorzugten Ausführungsform werden durch die Komponente 16 zur Merkmalsextrahierung Cepstral-Koeffzienten extrahiert, um die Cepstral-Domäne- oder Merkmaldomäne-Beobachtungsdaten Ot bereitzustellen. Es ist zu beachten, dass die Beobachtungsdaten als eine Folge von Rahmen gemäß einem vorgegebenen Zeitfenster verarbeitet werden.
  • Der Erkenner verwendet einen Satz Sprachmodelle 18, die zunächst als sprecherunabhängige Modelle bereitgestellt werden. Die Entwicklung der Modelle erfolgt zur Schulungszeit unter Geräuschbedingungen, die sich wahrscheinlich von denen unterscheiden, die während der Verwendung des Systems auftreten. Daher werden die sprecherunabhängigen Akustikmodelle 18 so behandelt, als wären sie bei Vorliegen von Geräuschen N0 entwickelt worden. Weil der geräuschkompensierte Erkenner der veranschaulichten Ausführungsform Merkmale extrahiert, um in der cepstralen Domäne zu wirken, sind die Akustikmodelle 18 ebenfalls in der cepstralen Domäne und können daher als C(SI + N0) ausgedrückt werden.
  • Weil der geräuschkompensierte Erkenner 12 Akustikmodelle verwendet, die unter der Geräuschbedingung N0 entwickelt wurden und dann unter der Geräuschbedingung N1 verwendet werden, muss eine Schätzung der Geräuschpegeldifferenz festgesetzt werden. Dies erfolgt durch das Modul 16 zur Merkmalsextrahierung, das Merkmale aus einem vorsprachlichen Rahmen extrahiert, bevor die Eingangssprachlautäußerung beginnt. Demgemäß kann der Geräuschpegel N1 als der Geräuschpegel festgelegt werden, der unmittelbar vor der Verwendung des Systems in der umgebenden Umgebung vorhanden ist. Das Modul zur Merkmalsextrahierung berechnet die Geräuschpegeldifferenz (N1 – N0) und drückt diese Differenz in der cepstralen Domäne aus. Die Differenz wird zusammen mit den sprecherunabhängigen Akustikmodellen einem linearen Näherungsoperator 20 zugeführt wie in 1 veranschaulicht. Die derzeit bevorzugte Ausführungsform verwendet einen Jacobischen Operator, um die Geräuschdifferenz darzustellen. Auf diese Weise berechnet der lineare Näherungsoperator eine Schätzung der sprecherunabhängigen Akustikmodelle unter der Geräuschbedingung N1. Es ist zu beachten, dass die Schätzung durch Verwenden der ursprünglichen sprecherunabhängigen Akustikmodelle und Hinzufügen der durch die Jacobische Anpassungsmatrix ausgedrückten Geräuschdifferenzkomponente berechnet wird.
  • Nach der Umwandlung der sprecherunabhängigen Akustikmodelle von der ersten Geräuschdomäne N0 in die nachfolgende Geräuschdomäne N1 ist ein Decodierer 22 nun in der Lage, die Eingangssprache zu decodieren. Insbesondere liefert das Modul 16 zur Merkmalsextrahierung die Eingangssprache (plus Geräusche) als Beobachtungsdaten Ot. Die Beobachtungsdaten werden dem Decodierer 22 zugeführt, der die Beobachtungsdaten unter Verwendung der geräuschkompensierten Akustikmodelle decodiert. Der Decodierer 22 stellt so die Zustandssegmentierung qt bereit. Die Zustandssegmentierung wird vom Sprecheranpassungsmodul 14 benötigt, wie nachfolgend beschrieben wird.
  • Es ist zu beachten, dass der geräuschkompensierte Erkenner 12 der dargestellten Ausführungsform den linearen Näherungsoperator (den Jacobischen Operator) verwendet, um die Beobachtungsdaten bei Vorliegen der Geräusche N1 decodiert. Obwohl dies eine derzeit bevorzugte Form der Erfindung ist, können andere geräuschkompensierte Erkenner verwendet werden. Konkret ist es nicht erforderlich, dass der Jacobische Operator verwendet wird, um die Zustandssegmentierung zu bestimmen. Im Allgemeinen kann jeder Erkenner verwendet werden, der die Eingangssprache bei Vorliegen von Geräuschen zu decodieren vermag.
  • Das Sprecheranpassungsmodul 14 verwendet einen inversen linearen Näherungsoperator 24, um die Wirkung des Hintergrundgeräusches N1 vor der Anpassung zu entfernen. Die derzeit bevorzugte Ausführungsform verwendet einen Jacobischen Operator auf Basis einer linearen Näherung des Hintergrundgeräusches. Der inverse lineare Näherungsoperator 24 verarbeitet die Beobachtungsdaten Ot unter Verwendung der vom Decodierer 22 erhaltenen Zustandssegmentierungsinformationen. Das Ergebnis der inversen Näherung ist ein Satz modifizierter Beobachtungsdaten, der zum Entfernen der Wirkungen der Hintergrundgeräusche bereinigt worden ist. Anschließend wird die Sprecheranpassung durch ein Modul 26 ausgeführt.
  • Im Wesentlichen kann jede Sprecheranpassungstechnik verwendet werden, die mit dem linearen Näherungsoperator kommutativ ist. Das Anpassungsmodul 26 verarbeitet die sprecherunabhängigen Akustikmodelle. In 1 sind die Akustikmodelle als 18' gekennzeichnet erneut wiedergegeben worden, um die Darstellung der Zeichnung zu vereinfachen. Falls gewünscht, kann das System in mehrfacher Hinsicht iterativ betrieben werden. Sobald die sprecherunabhängigen Akustikmodelle durch das Modul 26 angepasst worden sind, können Sie bei 18 verwendet werden, um eine sogar noch genauere Zustandssegmentierung zu extrahieren, die dann verwendet wird, um eine sogar noch genauere inverse lineare Näherungsoperation mit weiter verbesserter Sprecheranpassung auszuführen. Wie nachfolgend ausführlicher beschrieben wird, kann der Jacobische Operator (ein inverser Jacobischer Operator) auch auf eine iterative Weise berechnet werden.
  • Die von den Modulen 20 und 24 angewendeten linearen Näherungsoperatoren basieren auf einer Näherung erster Ordnung, mit der die Geräuschumgebung zu kompensieren ist, während die Anwendung eines globalen Anpassungsschemas zur Sprecheranpassung ermöglicht wird. Obwohl eine Näherung der ersten Ordnung derzeit bevorzugt wird und gute Ergebnisse liefert, können alternativ Näherungen höherer Ordnungen verwendet werden. Die Erfindung modelliert die Umgebung (Geräuschpegel) mittels eines linearen Modells, das in der Merkmaldomäne (z. B. cepstralen Domäne) angewendet werden kann. Wie nachfolgend veranschaulicht wird, bietet die Verwendung eines linearen Modells einen bedeutenden Vorteil. Weil der Operator linear ist, kann er kommutativ mit einem Sprecheranpassungsoperator angewendet werden, der ebenfalls linear ist. In dieser Hinsicht sind MLLR- und MAP-Sprecheranpassungsoperatoren linear und können daher kommutativ gegenüber dem linearen Modell der Umgebung angewendet werden.
  • Im Allgemeinen besteht bei der Sprecheranpassung das Problem der Schätzung zuverlässiger Modelle häufig anhand kleiner Mengen vom Benutzer bereitgestellter Sprachdaten. In dieser Hinsicht werden häufig verschiedene sprecheradaptive Algorithmen, einschließlich MLLR und MAP, verwendet. Oft wird eine Kombination von MAP und MLLR ((MAP/MLLR) verwendet. Beim kombinierten Ansatz wird die MLLR zuerst angewendet:
    Figure 00050001
    dann wird eine MAP-Glättung angewendet, um die durch die lineare Regression auferlegten Einschränkungen zu lockern:
    Figure 00050002
  • In den obigen Gleichungen ist μ0 das sprecherunabhängige Mittel, W ist die Regressionsmatrix, p(O\μ) ist die Wahrscheinlichkeit und p0(μ\μMLLR) ist die um μ konzentrierte konjugierte Apriori-Wahrscheinlichkeit. Für den MLLR-Schritt wurde eine einzige Regressionsklasse verwendet. Während der gesamten Experimente lieferte die MLLR-Anpassung Ergebnisse nahe MAP|MLLR, jedoch durchweg schlechter. Aus diesem Grund werden nur MAP|MLLR-Ergebnisse berichtet. Es ist zu beachten, dass MLLR- und MAP|MLLR-Anpassungen lineare Operatoren μ ^ = A{O, μ} sind.
  • Geräuschkompensation
  • X sei ein Spektralvektor und C(X) = F log (X) sei der cepstrale Operator, wenn F die DCT-Matrix (DCT = diskrete Kosinustransformation) ist und log (X) komponentenweise sein soll. Die Geräuschkompensation der Modellstatistik erster Ordnung kann gemäß C(S + N) = C(C–1(C(S)) + N) ausgeführt werden, wobei C(S) das saubere Sprach-Cepstrum (oder äquivalent die Gaußschen Mittel) und C(S + N) die dem geschätzten Geräusch N unterliegende Schätzung des Sprach-Cepstrums ist. C(S + N1) ≈ C(S + N0) + J(S, N0)ΔC(N), (1)
    Figure 00060001
    wobei N0, N1 die Schulungs- und Prüfhintergrundgeräusche, ΔC(N) = C(N1) – C(N0), sind, und
    Figure 00060002
    eine diagonale Matrix sein soll. Es ist zu beachten, dass das Geräusch zur Schulungszeit von null verschieden sein muss, um zu garantieren, dass die Jacobische Matrix J(S, N0) vollen Rang aufweist.
  • Das Ziel ist die Schätzung sprecherangepasster Modelle anhand von geräuschbehafteten Daten. Es wird nur eine Statistik erster Ordnung betrachtet. Durch Verwenden der Erwartung von den Beobachtungen und durch Verwendung der Gleichung (1) ergibt sich: E{O} = C(SD + N1), C(SD + N1) ≈ C(SD + N0) + J(SD, N0)ΔC(N).
  • Aus der Linearität des Erwartungsoperators E{·} ergibt sich:
    Figure 00070001
  • Dies bedeutet, dass sprecherabhängige Modelle für die Schulungsumgebung N0 berechnet werden können, indem die Erwartung der modifizierten Beobachtungen O' = OJ(SD, N0)ΔC(N) verwendet werden. Es ist zu beachten, dass das Ergebnis für jeden beliebigen linearen verallgemeinerten Erwartungsoperator gilt, einschließlich des Anpassungsoperators A{O, μ}. Leider wird die Gleichung (3) nicht direkt gelöst (im Allgemeinen), weil SD benötigt wird, um J(SD, N0) zu berechnen, und umgekehrt. C(St+1D + N0) ≈ E{O – J(St+1D , N0)ΔC(N)} ≈ E{O – J(StD , N0)}
  • Es kann jedoch eine iterative Lösung für Gleichung (3) bereitgestellt werden:
    Figure 00070002
  • Die Initialisierung sollte auf der besten verfügbaren Schätzung von J(SD, N0) basieren. In der Praxis bedeutet dies die Matrix, die den vom letzten Anpassungsinkrement erhaltenen Modellen zugeordnet ist, oder die sprecherunabhängige Matrix für das erste Anpassungsinkrement (S 0 / D = S1). Der Algorithmus sollte in wenigen Iterationen konvergieren, solange die Annahmen zu (S t+1 / D, N0) respektiert werden. Wird ferner die stärkere Annahme gemacht, dass J(S 0 / D, N0) in t konstant ist, folgt, dass J(St, N0) = J(S1, N0), dass die Jacobischen Matrizen nicht erneut berechnet werden müssen, und dass Gleichung (3) direkt gelöst werden kann. Diese Annahme würde die rechnerische Komplexität des Algorithmus drastisch verringern, da die Neuberechnung Jacobischer Matrizen sehr kostspielig ist (sie verlangt Potenzierungen, Divisionen und Matrixmultiplizierungen). In Abschnitt 5 wird die praktische Anwendbarkeit dieser Annahmen hinsichtlich von Erkennungsergebnissen beurteilt. Da wir an der Anpassung Gaußscher Mittel von Hidden Markov-Modellen interessiert sind, muss der Erwartungsoperator mittels Erwartungsmaximierung durch Integrieren über die versteckten Zustände q anhand unvollständiger Daten berechnet werden. In der Praxis erfolgt die Näherung durch Berücksichtigung nur des besten Pfades (Viterbi) und Verwendung der der gewinnenden Gauß'schen zugeordneten Jacobischen Matrix für jeden Rahmen, um O' zu berechnen. Die Ausrichtung wird mittels der letzten Akustikmodelle (μ ^t) berechnet, wobei das Prüfgeräusch mit den letzten Jacobischen Matrizen (Ĵt) kompensiert ist.
  • Zum Testen des vorgeschlagenen Verfahrens wurde eine Datenbank mit vorher aufgezeichneten isolierten Wörtern verwendet. Die Testdatenbank besteht aus 14 Sprechern, die in einem mit 30 MHP (Meilen/h) und 60 Meilen/h fahrenden Auto aufgezeichnet wurden, wobei über insgesamt ungefähr 2 Stunden Sprache jeder Sprecher 150 Wörter pro Sitzung äußerte. Die durchschnittlichen Rauschabstände betragen bei der 30 Meilen/h-Sitzung ungefähr 12 dB und bei der 60 Meilen/h-Sitzung 7 dB. Die Geräuschkompensation wurde auf Basis des während der ersten 25 Rahmen des Satzes geschätzten Geräusches und unter Verwendung modifizierter Jacobischer Matrizen mit einem Geräuschüberschätzungsfaktor α = 2,5 ausgeführt. Die Kompensation wurde für statische und dynamische Koeffizienten ausgeführt. Die cepstrale Mittelanpassung wurde zur Kompensation einer Kanalfehlanpassung optional angewendet. Die Basislinien-Erkennungsergebnisse für den sauberen Entwicklungssatz (clean development set, DEV), den geräuschbehafteten 30 Meilen/h- und 60 Meilen/h-Testsatz sind in Tabelle 1 aufgeführt. Die Ergebnisse ohne Geräuschkompensation sind wegen der großen Fehlanpassung zwischen Schulungs- und Prüfumgebung sehr niedrig, und die Ergebnisse für die Jacobische liegen nahe bei der CMA, weil der Kanal größtenteils stationär ist (die Datenbank wird unter Verwendung desselben Mikrofons aufgezeichnet).
  • Figure 00080001
    Tabelle 1: Basislinien-Wortfehlerraten ohne Geräuschkompensation (KEINE), mit Jacobischer (JAC) und mit Jacobischer plus cepstraler Mittelanpassung (cepstral mean adaptation, CMA).
  • Mit stationären Umgebungen beziehen wir uns auf Daten, die bei einer unveränderlichen Geschwindigkeit des Autos erfasst wurden: Das Geräusch des Autos selbst ist ziemlich stationär, und die Geräuschmenge ist innerhalb einer Erkennungssitzung ebenfalls stationär.
  • Diese Einrichtung kann die Schätzung der Sprecherposition vereinfachen, insbesondere für den Sprecheranpassungsalgorithmus, weil die Störungen des Geräusches stationär sind und über lange Zeiträume gemittelt werden können. In Tabelle 2 sind Erkennungsergebnisse für das vorgeschlagene Verfahren, MAP|MLLR|JAC, und für die MAP|MLLR-Sprecheranpassung aufgeführt. Es wurden eine unüberwachte inkrementale Sprecheranpassung mit Inkrementschritten von 10 Sätzen und eine einzige Iteration für die Schätzung der sprecherangepassten Jacobischen Matrizen Ĵt (mehr Iterationen lieferten keine bedeutenden Verbesserungen) verwendet. Die Ergebnisse zeigen, dass sich MAP|MLLR|JAC im Vergleich zu MAP|MLLR unter geräuschvollen Bedingungen wesentlich verbessert (eine relative Fehlerratenverringerung von durchschnittlich 55% bei den 30 Meilen/h und 60 Meilen/h) und sich beim sauberen Entwicklungssatz nur geringfügig verschlechtert.
  • Figure 00090001
    Tabelle 2: Wortfehlerraten für Sprecheranpassung und für gemeinsame Sprecheranpassung und Geräuschkompensation in stationären Umgebungen.
  • In Tabelle 3 sind die mit dem MAP|MLLR|JAC-Algorithmus auf Basis der stärkeren Annahme, dass Jacobische Matrizen von der Sprecheranpassung unbeeinflusst sind, erhaltenen Ergebnisse aufgeführt. Obwohl eine Leistungsverschlechterung festzustellen ist, kann der Algorithmus dennoch eine starke Verbesserung gegenüber MAP|MLLR und JAC oder CMA bereitstellen. Diese Erkenntnis mag kontraintuitiv erscheinen, sie ist jedoch zur Verringerung der Komplexität des Algorithmus sehr wichtig. Weitere Untersuchungen sind erforderlich, um zu verstehen, warum diese Näherung unter realen Bedingungen so gut gilt.
  • Figure 00090002
    Tabelle 3: Wortfehlerraten für gemeinsame Sprecheranpassung und Geräuschkompensation für stationäre Umgebungen ohne die Aktualisierung der Jacobischen Matrizen.
  • Ergebnisse für nicht stationäre Umgebungen
  • Wie zuvor betont worden ist, sind Erkennungsexperimente bei homogenen Sitzungen eine ziemliche Vereinfachung realistischer Umgebungen. Bei realen Anwendungen kann sich die Geräuschmenge von Satz zu Satz weitgehend ändern. Indem erzwungen wird, dass die Daten zu einer einzigen Sitzung gehören, helfen wir dem Algorithmus die kombinierten Sprecher- und Umgebungswirkungen zu lernen. Dies kann eine Datenbankverzerrung zugunsten von MAP|MLLR einbringen, da Trennen der Wirkungen bei diesen Daten nicht wirklich entscheidend ist. Zur Behandlung dieses Problems wurden die 30 Meilen/h- und 60-Meilen/h-Daten durch Verschachteln von Sätzen gemischt. Die Verschachtelungslängen als Potenz von zwei, I = 2k mit k = 0...6, gewählt. Außerdem wurde die Lexikongröße auf 4200 Wörter vergrößert, weil während der zwei Sitzungen verschieden ausgesprochene Wörter gesprochen wurden. Dies macht es schwierig, absolute Erkennungsraten mit früheren Ergebnissen zu vergleichen. In Tabelle 4 sind über Verschachtelungslängen gemittelte Erkennungsergebnisse aufgeführt. Es ist zu beachten, dass MAP|MLLR|JAC eine relative Fehlerratenverringerung von 52% im Vergleich zu MAP|MLLR, 19% im Vergleich zu CMA und 21% im Vergleich zu JAC liefert.
  • Figure 00100001
    Tabelle 4: Für nicht stationäre Umgebungen simulierte durchschnittliche Wortfehlerraten.
  • 2 zeigt die Erkennungsergebnisse, wobei die Verschachtelungslänge in einer logarithmischen Skala aufgeführt ist. Die Verschachtelungslänge kann als ein Faktor des nicht stationären Zustands für die simulierte Umgebung ausgelegt werden (ein kleines k bewirkt eine weniger stationäre Umgebung). Nicht inkrementelle Verfahren wie JAC oder CMA sind von k nicht betroffen, inkrementelle Verfahren können jedoch im Prinzip beeinflusst werden. Es ist zu beachten, dass MAP|MLLR sehr empfindlich gegen k ist, und dass Wortfehlerraten mit k erheblich zunehmen. Wir glauben, dass sich die Sprecheranpassung (d. h. Modellierung von Sprecher und Umgebung) bei großem k an die stärkeren Umgebungswirkungen überanpasst und Sprecheranpassungsvermögen einbüßt. Dieses unerwünschte Verhalten wird durch die MAP|MLLR|JAC nicht aufgezeigt, die eine von k nahezu unabhängige Leis tung liefert. Dies bestätigt, dass Sprecher und Umgebungswirkungen korrekt getrennt worden sind, und dass diese Trennung in einem robusteren System und in einer besseren Fähigkeit zur Schätzung anhaltender sprecherabhängiger Wirkungen resultiert.

Claims (22)

  1. Verfahren zur Ausführung der Sprecheranpassung anhand von Sprachmodellen, die einem Spracherkenner zugeordnet sind, wobei die Sprachmodelle unter ersten Umgebungsbedingungen erzeugt worden sind, aufweisend: Erfassen von Eingangssprache (10) unter zweiten Umgebungsbedingungen von einem Sprecher, für den die Sprachmodelle anzupassen sind, und Extrahieren von Beobachtungsdaten aus dieser Eingangssprache (10); Decodieren (22) der Beobachtungsdaten, um Zustandssegmentierungsdaten in Zusammenhang mit den Beobachtungsdaten zu ermitteln; gekennzeichnet durch Bereitstellen eines linearen Näherungsoperators, der das Wissen der ersten Umgebungsbedingungen speichert; Verarbeiten (24) der Beobachtungsdaten unter Verwendung des linearen Näherungsoperators und der Zustandssegmentierungsdaten, um die Beobachtungsdaten in kompensierte Beobachtungsdaten umzuwandeln, die den Beobachtungsdaten unter den ersten Umgebungsbedingung näherungsweise entsprechen; Anwenden einer Sprecheranpassungsoperation (26) auf die kompensierten Beobachtungsdaten, um angepasste Sprachmodelle für diesen Sprecher zu erzeugen.
  2. Verfahren nach Anspruch 1, bei dem die Beobachtungsdaten extrahiert werden, indem eine Merkmalsextrahierung mit der Eingangssprache ausgeführt wird.
  3. Verfahren nach Anspruch 1, bei dem die Beobachtungsdaten extrahiert werden, indem Cepstral-Koeffizienten auf Basis der Eingangssprache erzeugt werden.
  4. Verfahren nach Anspruch 1, ferner aufweisend: Bestimmen der Differenz zwischen den ersten und zweiten Umgebungsbedingungen; Verwenden dieser Differenz und des linearen Näherungsoperators, um die Sprachmodelle so zu ändern, dass sie den zweiten Umgebungsbedingungen zumindest näherungsweise entsprechen; und Verwenden der geänderten Sprachmodelle, um den Decodierungsschritt auszuführen.
  5. Verfahren nach Anspruch 1, bei dem der Verarbeitungsschritt ausgeführt wird, indem die Inverse des linearen Näherungsoperators auf die Beobachtungsdaten angewendet wird.
  6. Verfahren nach Anspruch 4, bei dem der Schritt des Änderns der Sprachmodelle vor dem Decodieren ausgeführt wird, indem der lineare Näherungsoperator auf die Sprachmodelle angewendet wird; und bei dem der Verarbeitungsschritt erfolgt, indem die Inverse des linearen Näherungsoperators auf die Beobachtungsdaten angewendet wird.
  7. Verfahren nach Anspruch 1, bei dem die Anpassungsoperation mit dem linearen Näherungsoperator kommutativ ist.
  8. Verfahren nach Anspruch 1, bei dem die Anpassungsoperation die MAP- (Maximum-a-posteriori)-Schätzung anwendet.
  9. Verfahren nach Anspruch 1, bei dem die Anpassungsoperation die MLLR (lineare Maximum-Likelihood-Regression) anwendet.
  10. Verfahren nach Anspruch 1, bei dem der lineare Näherungsoperator eine Jacobische Matrix anwendet.
  11. Verfahren nach Anspruch 1, bei dem der lineare Näherungsoperator eine durch eine lineare Transformation modifizierte Jacobische Matrix anwendet.
  12. Sprecheranpassungssystem, aufweisend: einen Spracherkenner (12), der eine erste Menge Sprachmodelle (18) verwendet, die unter ersten Umgebungsbedingungen erzeugt worden sind, wobei der Spracherkenner (12) einen Eingang hat, über den ein Benutzer Eingangssprache unter zweiten Umgebungsbedingungen bereitstellt, und einen Ausgang, der Beobachtungsdaten entsprechend den zweiten Umgebungsbedingungen bereitstellt; ein Sprecheranpassungsmodul (14), das mit dem Spracherkenner (12) gekoppelt ist, wobei das Sprecheranpassungsmodul einen Sprecheranpassungsprozess mit der ersten Menge Sprachmodelle (18) auf Basis der Beobachtungsdaten ausführt; dadurch gekennzeichnet, dass das Sprecheranpassungsmodul (14) ferner einen linearen Näherungsoperator hat, der das Wissen der ersten Umgebungsbedingungen speichert und die Beobachtungsdaten so angleicht, dass sie den ersten Umgebungsbedingungen entsprechen und dadurch Differenzen zwischen den ersten und zweiten Umgebungsbedingungen kompensieren.
  13. Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner eine Komponente zur Merkmalsextraktion verwendet, um die Beobachtungsdaten zu entwickeln.
  14. Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner einen Decodierer zur Bereitstellung von Zustandssegmentierungsinformationen an das Sprecheranpassungsmodul verwendet.
  15. Anpassungssystem nach Anspruch 12, bei dem die Beobachtungsdaten Cepstral-Koeffizienten sind.
  16. Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner ein geräuschkompensierter Erkenner ist.
  17. Anpassungssystem nach Anspruch 12, bei dem der Spracherkenner eine Komponente zur Merkmalsextraktion verwendet, um ein Maß der Differenz zwischen den ersten und zweiten Umgebungsbedingungen zu entwickeln.
  18. Anpassungssystem nach Anspruch 12, ferner einen zweiten linearen Näherungsoperator aufweisend, der zum Angleichen der ersten Menge Sprachmodelle auf Basis des Maßes der Differenz zwischen den ersten und zweiten Umgebungsbedingungen aktivierbar ist.
  19. Anpassungssystem nach Anspruch 12, bei dem das Anpassungsmodul die MAP- (Maximum-a-posteriori)-Schätzung anwendet.
  20. Anpassungssystem nach Anspruch 12, bei dem das Anpassungsmodul die MLLR (lineare Maximum-Likelihood-Regression anwendet.
  21. Anpassungssystem nach Anspruch 12, bei dem der lineare Näherungsoperator eine Jacobische Matrix anwendet.
  22. Anpassungssystem nach Anspruch 12, bei dem der lineare Näherungsoperator eine durch eine lineare Transformation modifizierte Jacobische Matrix anwendet.
DE60207784T 2001-05-24 2002-05-23 Sprecheranpassung für die Spracherkennung Expired - Fee Related DE60207784T9 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/864,838 US6915259B2 (en) 2001-05-24 2001-05-24 Speaker and environment adaptation based on linear separation of variability sources
US864838 2001-05-24

Publications (3)

Publication Number Publication Date
DE60207784D1 DE60207784D1 (de) 2006-01-12
DE60207784T2 DE60207784T2 (de) 2006-07-06
DE60207784T9 true DE60207784T9 (de) 2006-12-14

Family

ID=25344185

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60207784T Expired - Fee Related DE60207784T9 (de) 2001-05-24 2002-05-23 Sprecheranpassung für die Spracherkennung

Country Status (4)

Country Link
US (1) US6915259B2 (de)
EP (1) EP1262953B1 (de)
AT (1) ATE312398T1 (de)
DE (1) DE60207784T9 (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
CN1453767A (zh) * 2002-04-26 2003-11-05 日本先锋公司 语音识别装置以及语音识别方法
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7174292B2 (en) 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US9571652B1 (en) 2005-04-21 2017-02-14 Verint Americas Inc. Enhanced diarization systems, media and methods of use
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
DE602006018795D1 (de) * 2006-05-16 2011-01-20 Loquendo Spa Kompensation der variabilität zwischen sitzungen zur automatischen extraktion von informationen aus sprache
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
US8798994B2 (en) * 2008-02-06 2014-08-05 International Business Machines Corporation Resource conservative transformation based unsupervised speaker adaptation
JP5423670B2 (ja) * 2008-04-30 2014-02-19 日本電気株式会社 音響モデル学習装置および音声認識装置
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
KR20120054845A (ko) * 2010-11-22 2012-05-31 삼성전자주식회사 로봇의 음성인식방법
GB2493413B (en) 2011-07-25 2013-12-25 Ibm Maintaining and supplying speech models
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US9984678B2 (en) * 2012-03-23 2018-05-29 Microsoft Technology Licensing, Llc Factored transforms for separable adaptation of acoustic models
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9368116B2 (en) 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US10134400B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using acoustic labeling
JP6000094B2 (ja) * 2012-12-03 2016-09-28 日本電信電話株式会社 話者適応化装置、話者適応化方法、プログラム
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US9460722B2 (en) 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9984706B2 (en) 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US9875742B2 (en) 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
US9865256B2 (en) 2015-02-27 2018-01-09 Storz Endoskop Produktions Gmbh System and method for calibrating a speech recognition system to an operating environment
US11538128B2 (en) 2018-05-14 2022-12-27 Verint Americas Inc. User interface for fraud alert management
US10887452B2 (en) 2018-10-25 2021-01-05 Verint Americas Inc. System architecture for fraud detection
EP3987743A1 (de) 2019-06-20 2022-04-27 Verint Americas Inc. Systeme und verfahren zur authentifizierung und betrugserkennung
US11868453B2 (en) 2019-11-07 2024-01-09 Verint Americas Inc. Systems and methods for customer authentication based on audio-of-interest
WO2021112840A1 (en) * 2019-12-04 2021-06-10 Google Llc Speaker awareness using speaker dependent speech model(s)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US5345536A (en) 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
JP2870224B2 (ja) 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
NO179421C (no) * 1993-03-26 1996-10-02 Statoil As Apparat for fordeling av en ström av injeksjonsfluid i adskilte soner i en grunnformasjon
US5664059A (en) 1993-04-29 1997-09-02 Panasonic Technologies, Inc. Self-learning speaker adaptation based on spectral variation source decomposition
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
US5822728A (en) 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
JP3001037B2 (ja) 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion

Also Published As

Publication number Publication date
EP1262953B1 (de) 2005-12-07
US6915259B2 (en) 2005-07-05
ATE312398T1 (de) 2005-12-15
US20030050780A1 (en) 2003-03-13
DE60207784D1 (de) 2006-01-12
DE60207784T2 (de) 2006-07-06
EP1262953A2 (de) 2002-12-04
EP1262953A3 (de) 2004-04-07

Similar Documents

Publication Publication Date Title
DE60207784T9 (de) Sprecheranpassung für die Spracherkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
Gales et al. Mean and variance adaptation within the MLLR framework
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
US6202047B1 (en) Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
DE60212477T2 (de) Spracherkennung mit Kompensation konvolutiver Verzerrung und additiven Rauschens
WO1998011534A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
EP0633559A2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1733384A1 (de) Verfahren zur geräuschreduktion bei einem sprach-eingangssignal
DE602004007223T2 (de) Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen
DE4222916C2 (de) Verfahren zur schnellen Sprecheradaption in einem Spracherkenner für großen Wortschatz

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee