DE60109533T2 - Verfahren zur Rauschadaptierung mittels transformierten Matrizen in der automatischen Spracherkennung - Google Patents

Verfahren zur Rauschadaptierung mittels transformierten Matrizen in der automatischen Spracherkennung Download PDF

Info

Publication number
DE60109533T2
DE60109533T2 DE2001609533 DE60109533T DE60109533T2 DE 60109533 T2 DE60109533 T2 DE 60109533T2 DE 2001609533 DE2001609533 DE 2001609533 DE 60109533 T DE60109533 T DE 60109533T DE 60109533 T2 DE60109533 T2 DE 60109533T2
Authority
DE
Germany
Prior art keywords
noise
module
adaptation
reference model
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE2001609533
Other languages
English (en)
Other versions
DE60109533D1 (de
Inventor
Christophe Cerisara
Luca Santa Barbara Rigazio
Robert Thousand Oaks Bomen
Jean-Claude Santa-Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/628,376 external-priority patent/US6691091B1/en
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60109533D1 publication Critical patent/DE60109533D1/de
Application granted granted Critical
Publication of DE60109533T2 publication Critical patent/DE60109533T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Durchführen von Rauschanpassung in einem Spracherkennungssystem, von der Art, die folgende Schritte umfasst: ein Referenzmodell basierend auf einem Trainingssprachsignal zu generieren; im Referenzmodell Überlagerungsrauschen im Kepstrum-Bereich auszugleichen; und im Referenzmodell Faltungsrauschen im Kepstrum-Bereich auszugleichen.
  • Gegenwärtige automatische Spracherkennungssysteme funktionieren unter Laborbedingungen ziemlich gut, lassen aber schnell nach, wenn sie in realen praktischen Anwendungen eingesetzt werden. Einer der wichtigsten Faktoren, der die Erkennerleistung in realen praktischen Anwendungen beeinflusst, ist das Vorhandensein von Umweltgeräuschen, die das Sprachsignal verfälschen. Eine Anzahl von Verfahren, wie die Spektralsubtraktion oder Parallelmodellzusammenführung, wurden entwickelt, um sich dem Geräuschproblem zuzuwenden. Diese Lösungen sind aber entweder zu eingeschränkt oder rechnerisch zu aufwändig.
  • Ein Vorschlag wurde von Y. H. Chang, W. J. Chung und S. U. Park in ihrer Schrift „Improved Model Parameter Compensation Methods for Noise-robust Speech Recognition" vorgebracht, die Teil der Abhandlungen der 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 1998, Seattle, Washington, USA, 12.–15. Mai, 1998 (XP000854640) sind. Modellparameterkompensationsverfahren wurden auf rauschunanfällige Spracherkennung basierend auf CDHMM untersucht. Ein auf einem modifizierten PMC-Verfahren aufbauendes Modell wurde vorgeschlagen, bei dem der Einstellungsterm in der Modellparameteranpassung in Abhängigkeit von Mischkomponenten von HMM verändert wird, um eine zuverlässigere Modellierung zu erzielen. Es wurde ein zustandsabhängiger Assoziationsfaktor, der die durchschnittliche Parameterveränderlichkeit Gauß'scher Gemische steuert, und die Veränderlichkeit der jeweiligen Gemische dazu hergenommen, die endgültigen optimalen Modellparameter herauszufinden. Darüber hinaus wurde auch die Lösung der Wiederabschätzung von Umweltvariablen bei zusätzlichem Rauschen und Spektrumsverlagerung basierend auf Erwartungs-/Maximierungsalgorithmen (EM-Algorithmen) im Kepstrum-Bereich in Erwägung gezogen. Der Lösungsansatz basierte auf der Approximation der Vektor-Taylorreihe (VTS).
  • Nach der vorliegenden Erfindung wird ein Verfahren zum Durchführen von Rauschanpassung in einem Spracherkennungssystem der oben genannten Art bereitgestellt, das dadurch gekennzeichnet ist, dass eine Vorfaltung zwischen dem Referenzmodell und einem Zielsprachsignal geschätzt wird; die geschätzte Vorfaltung mit einer Kanalanpassungsmatrix umgesetzt wird; und die umgesetzte Vorfaltung im Kepstrum-Bereich zum Referenzmodell hinzugefügt wird.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch die Schritte, Gauß'sche Daten, die dem referenzierten Modell entsprechen, zu mitteln; Zielsprachsegmente, die dem Zielsprachsignal entsprechen, zu mitteln; und einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten zu berechnen.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch die Schritte: Gauß'sche Daten, die dem Referenzmodell entsprechen, zu mitteln; Zielsprachsegmente, die dem Zielsprachsignal entsprechen, zu mitteln; und einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten zu berechnen.
  • Vorzugsweise umfasst das Verfahren darüber hinaus noch den Schritt, jeden Satz des Trainingssprachsignals mit Daten aus einem vorhergehenden Satz anzupassen.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch einen Schritt, die geschätzte Vorfaltung mit einer modifizierten Kanalanpassungsmatrix zu multiplizieren. Vorzugsweise ist die Kanalanpassungsmatrix durch eine Anpassungsgleichung gegeben, wobei die Anpassungsgleichung durch I – Jc gegeben ist, worin Jc eine Rauschanpassungsmatrix ist.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch die Schritte: eine zusätzliche systematische Abweichung zwischen dem Trainingssprachsignal und einem Zielsprachsignal zu schätzen; die geschätzte zusätzliche systematische Abweichung mit einer Rauschanpassungsmatrix umzusetzen; und die umgesetzte zusätzliche systematische Abweichung im Kepstrum-Bereich dem Referenzmodell hinzuzufügen.
  • Nach einem zweiten Aspekt der vorliegenden Erfindung wird ein Rauschanpassungssystem für ein Spracherkennungssystem bereitgestellt, wobei das Anpassungssystem umfasst: einen Referenzmodellgenerator zum Generieren eines Referenzmodells basierend auf einem Trainingssprachsignal; ein Modul für Überlagerungsrauschen, welches Modul mit dem Referenzmodellgenerator gekoppelt ist, wobei das Modul für Überlagerungsrauschen im Referenzmodell Überlagerungsrauschen in einem Kepstrum-Bereich ausgleicht; und ein Modul für Faltungsrauschen, welches Modul mit dem Referenzmodellgenerator gekoppelt ist, wobei das Modul für Faltungsrauschen im Referenzmodell Faltungsrauschen im Kepstrum-Bereich ausgleicht, wobei das Modul für Faltungsrauschen durch ein Vorfaltungsmodul, um eine Vorfaltung zwischen dem Referenzmodell und einem Zielsprachsignal zu schätzen, ein Adaptionsmatrixmodul, um eine Kanalanpassungsmatrix basierend auf dem Trainingssprachsignal zu generieren, wobei das Vorfaltungsmodul die geschätzte Vorfaltung mit der Kanalanpassungsmatrix umsetzt, und ein Summiermodul gekennzeichnet ist, das mit dem Vorfaltungsmodul gekoppelt ist, um die umgesetzte Vorfaltung zum Referenzmodell im Kepstrum-Bereich zu addieren.
  • In einer bevorzugten Ausführungsform umfasst das Modul für Faltungsrauschen darüber hinaus noch: ein Modul für Gauß'sche Ausrichtung, um das Zielsprachsignal in Zielsprachsegmente und Zielruhesegmente zu zerlegen; wobei das Vorfaltungsmodul die Zielsprachsignale und Gauß'schen Daten, die dem Referenzmodell entsprechen, mittelt, wobei das Vorfaltungsmodul darüber hinaus einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten berechnet.
  • Die Erfindung wird nun rein beispielhaft mit Bezug auf die beigefügten Zeichnungen beschrieben:
  • 1 stellt schematisch verschiedene Geräuschzustände dar, die zum Verständnis der Erfindung nützlich sind;
  • 2 ist ein Datenflussdiagramm bei Trainings- sowie Erkennungsphasen, das eine gegenwärtig bevorzugte Implementierung der verbesserten umgesetzten Matrixanpassung darstellt;
  • 3 ist eine logarithmisch-spektrale grafische Darstellung, die eine herkömmliche Jacobi-Anpassung mit einer Parallelmodellkombinationsanpassung (PMC-Anpassung) vergleicht;
  • die 4 und 5 sind α-Anpassungsparameterkurven, welche die Auswirkung verschiedener Werte von α auf die Erkennungsgenauigkeit zeigen;
  • 6 ist ein Blockschema eines Rauschanpassungssystems nach der vorliegenden Erfindung;
  • 7 ist ein Blockschema eines herkömmlichen Rauschmoduls nach einer Ausführungsform der vorliegenden Erfindung;
  • 8 ist eine grafische Darstellung eines Filters, das dazu verwendet wird, den Effekt von Faltungsrauschen gemäß der vorliegenden Erfindung zu simulieren.
  • Das Problem, das die vorliegende Erfindung lösen soll, ist in 1 dargestellt. Beispielsweise sei angenommen, dass das automatische Spracherkennungssystem, wie bei 10 gezeigt, in einer lauten Umgebung wie etwa der Fahrgastzelle eines sich fortbewegenden Fahrzeugs arbeiten muss. Der in der Fahrgastzelle gemessene Geräuschpegel steigt typischerweise vom Rauschen A auf das Rauschen A' an, wenn das Fahrzeug schneller fährt. Obwohl der Geräuschpegel von A auf A' ansteigen kann, bleibt die Beschaffenheit oder Qualität des Rauschens größtenteils dieselbe. In einem fahrenden Fahrzeug verändert sich das Rauschspektrum zum Beispiel typischerweise auf eine vorhersagbare Weise, wenn das Fahrzeug schneller fährt. Windgeräusch steigt in der Amplitude an, behält aber seine größtenteils zufällige Eigenschaft weißen oder pinkfarbenen Rauschens bei. Fahrbahndeckengeräusche (das Geräusch von auf der Fahrbahndecke rollenden Reifen) steigt proportional zur Geschwindigkeitszunahme in der Frequenz an.
  • Unglücklicherweise kann in vielen tatsächlichen praktischen Anwendungen die Beschaffenheit und Qualität des Umgebungsgeräuschs nicht so problemlos vorhergesagt werden wie es die Bedingungen bei 10 in 1 implizieren würden. Betrachtet man beispielsweise ein tragbares Zellulartelefon, so kann dies in einem sich fortbewegenden Fahrzeug verwendet werden, wo es die Auswirkung der bei 10 dargestellten Geräusche erfährt; oder es kann an einer Straßenecke verwendet werden, wo komplett andere Verkehrsgeräusche im Überfluss vorhanden sind; oder es kann in einem Kaufhaus mit wieder einer ganz anderen Geräuschqualität verwendet werden. Diese weitgefächerte Verschiedenartigkeit bei unterschiedlichem Lärm ist in 1 bei 12 dargestellt, wo drei unterschiedliche Geräuschmuster schematisch als Geräusch A, Geräusch B und Geräusch C dargestellt wurden. Die Unvorhersagbarkeit der Geräuschqualität stellte bisher eine signifikante Herausforderung für automatische Spracherkennungssysteme dar, die in diesen verschiedenartigen geräuschvollen Umgebungen Leistung erbringen müssen.
  • 2 stellt eine beispielhafte Ausführungsform der Erfindung in einer Spracherkennungsanwendung dar. Die Spracherkennungsanwendung umfasst einen modellbasierten Erkenner (Recognizer). Die Modelle werden während des Trainings entwickelt und dann später während der Erkennung eingesetzt. In 2 ist die Trainingsphase des Systems allgemein bei 20 dargestellt und die Erkennerphase bei 40. Eingegebene Sprache wird während der Trainingsphase unter Geräuschbedingung A bereitgestellt, wie bei 22 dargestellt ist. Die eingegebene Sprache wird dazu hergenommen, Sprachmodelle zu trainieren, wie bei Schritt 24 angegeben ist, wobei beispielhafte Sprachmodelle schematisch bei 26 dargestellt sind. Beim typischen Eingangssprachsignal gibt es Zeiten, während denen keine Sprache vorhanden ist, wie etwa vor dem Beginn des Sprechens oder nach dem Ende des Sprechens. Diese sprachfreien Abschnitte können dazu verwendet werden, Daten aufzuzeichnen, die für das Referenzrauschen Na stehen, das mit der Geräuschbedingung A zusammenhängt. In 2 wird das Referenzrauschen Na beim Block 28 gespeichert. Falls gewünscht kann das Rauschen modelliert werden (Hintergrundmodell), indem derselbe Trainingsvorgang verwendet wird wie zum Aufbau der Sprachmodelle 26.
  • Nach dem Trainieren der Sprachmodelle wird ein Satz transformierter Matrizes bei Schritt 30 berechnet und bei 32 gespeichert. Diese Matrizes werden während der Erkennung verwendet, um die Sprachmodelle so anzupassen, dass sie unter den Geräuschbedingungen, die während der Erkennung bestehen, eine bessere Leistung erbringen. Der zugrunde liegende Jacobi-Anpassungsprozess geht davon aus, dass die Qualität des Rauschens während der Erkennungszeit ungefähr dieselbe ist wie während der Trainingszeit. Andernfalls kann die klassische Jacobi-Anpassung nur suboptimale Ergebnisse erbringen.
  • Die verbesserte Anpassungstechnik basiert auf der Verwendung eines Satzes transformierter Matrizes, die für den anfänglichen Geräuschzustand Na generiert werden. Die transformierten Matrizes werden dadurch berechnet, dass eine lineare oder nicht lineare Transformation auf den Satz der Jacobi-Matrizes angewandt wird, die für den anfänglichen Geräuschzustand Na entwickelt wurden. Die gegenwärtig bevorzugten Ausführungsformen führen die (sowohl lineare als auch nicht lineare) Transformation durch, indem sie einen α-Anpassungsfaktor wie im nächsten Abschnitt dargelegt anwenden. Obwohl der α-Anpassungsfaktor gegenwärtig bevorzugt wird, kann auch ein Neuronennetz oder eine andere Komponente mit künstlicher Intelligenz zum Durchführen der Transformation verwendet werden.
  • Die Handhabung von Matrizes kann ein rechnerisch höchst aufwändiger Prozess sein. Ein beträchtlicher Aufwandsfaktor ist der Speicherbedarf, der zum Speichern aller Matrizes nötig ist. In einer typischen Ausführungsform können die Sprachmodelle für jeden Eintrag mehrfache verdeckte Markow-Modellzustände verwenden, wobei mit jedem Zustand mehrere Gauß'sche Dichten verbunden sind. Es gäbe somit eine Matrix für jede der Gauß'schen Dichten in jedem der Zustände. Dies könnte zu mehreren hundert Matrizes führen, die gespeichert werden müssten.
  • Die bevorzugte Ausführungsform führt einen Matrixzerlegungsschritt 36 durch, um einen Satz weniger komplexer Jacobi-Matrizes 38 zu generieren. Wie nachstehend noch ausführlicher erläutert wird, verwendet die gegenwärtig bevorzugte Zerlegungstechnik die Hauptkomponentenanalyse (PCA – Principal Component Analysis), um die weniger komplexen transformierten Matrizes aufzubauen.
  • Zum Zeitpunkt der Erkennung wird vom Benutzer bei Schritt 42 Eingabesprache bereitgestellt. Die Eingabesprache wird mit einem Geräuschzustand B assoziiert (der auch als Zielrauschen Nb bezeichnet wird), wie in 44 veranschaulicht ist. Wie zuvor erläutert, kann die herkömmliche Jacobi-Anpassungstechnik suboptimale Ergebnisse hervorbringen, wenn sich der Geräuschzustand B in der Qualität vom zum Trainingszeitpunkt verwendeten Geräuschzustand A unterscheidet. Wir haben jedoch herausgefunden, dass der α-Anpassungsprozess (der durchgeführt wird, wenn die Jacobi- Matrizes während des Trainings festgelegt werden) die Erkennungsleistung unter widrigen Geräuschbedingungen stark verbessert. Ergebnisse unserer Tests sind im nachstehend aufgeführten Beispiel angegeben.
  • Das Zielrauschen Nb, das in 2 bei 44 gezeigt ist, wird aus der Eingabesprache 42 extrahiert und dann dazu verwendet, den Unterschied zum Referenzrauschen Na zu berechnen, wie bei 46 angegeben ist. Neue angepasste Sprachmodelle werden dann berechnet, indem der Rauschunterschied und die weniger komplexen transformierten Matrizes verwendet werden, die während des Trainings entwickelt wurden, wie bei 48 dargestellt ist. Die sich ergebenden angepassten Sprachmodelle 50 werden dann bei 52 hergenommen, um eine Spracherkennung an der Eingabesprache 42 durchzuführen, um den Erkennungsausgang 54 bereitzustellen.
  • Alpha-Anpassung
  • Um besser zu verstehen, wie unsere transformierten oder umgesetzten Matrizes funktionieren, ist es nützlich, die herkömmliche Jacobi-Anpassung zu kennen. Die herkömmliche Jacobi-Anpassung ist mit einer anderen Anpassungsform verwandt, die als Parallelmodellkombination (PMC – Parallel Model Combination) bekannt ist. Herkömmlicher Weise wird die Jacobi-Anpassung als Approximation für PMC verwendet, um die rechnerische Last zu reduzieren, die PMC erfordert. Die PMC ist rechnerisch höchst anspruchsvoll, weil für jede Dichte des Sprachmodells Durchschnittsvektoren in den spektralen Bereich transformiert werden müssen. Dann muss, nachdem der Durchschnittsvektor zum Zielrauschen addiert worden ist, der sich ergebende Vektor zurück in den Kepstrum-Bereich umgesetzt werden. Diese Doppeltransformation, die sich einer Matrixmultiplikation und zweier nichtlinearer Funktionen bedient, ist für gewöhnlich zu zeitaufwändig für eingebettete Systeme.
  • Traditionell wird die Jacobi-Anpassung als PMC-Approximation im Kepstrum-Bereich verwendet. Zu Vergleichszwecken beschreibt die unten wiedergegebene Gleichung 1 die PMC-Berechnung, worin der Großbuchstabe F die Matrix der diskreten Cosinus-Transformation (DCT) darstellt. Gleichung 2 stellt die herkömmliche Jacobi-Anpassungsberechnung dar, die als Approximation der rechnerisch aufwändigeren PMC-Berechnung verwendet wird.
  • GLEICHUNG 1
    • C(S + N) = F·log(exp(F–1·C(S))) + exp(F–1·C(N))
  • GLEICHUNG 2
    Figure 00080001
  • Das Problem bei der Approximation der Jacobi-Anpassung besteht darin, dass sie nur dann von Bestand ist, wenn das Zielrauschen (das während des Systemgebrauchs praktisch auftritt) in der Qualität ähnlich dem Referenzrauschen ist (das während des Systemtrainings vorhanden ist). Die Art des Problems ist in 3 dargestellt, welche die Auswertung im logarithmisch-spektralen Bereich der Parameter lauter Sprache bei Geräuschzunahme grafisch darstellt. Speziell zeigen die grafischen Darstellungen, wie sich die PMC-Anpassung und die herkömmliche Jacobi-Anpassung im logarithmisch-spektralen Bereich vergleichen lassen. In 3 entspricht der schattierte Bereich auf der linken Seite dem Zustand, bei dem das Sprachsignal bei weitem stärker ist als das Rauschen, wohingegen der Bereich auf der rechten Seite Zuständen entspricht, bei denen das Rauschen stärker ist als das Sprachsignal. Befinden sich die Trainings- sowie Testumgebung im selben dieser beiden Bereiche, dann erbringen die Jacobi-Anpassung und PMC ähnliche Leistung. Befindet sich jedoch eine dieser beiden Umgebungen im mittleren Bereich oder liegt in einem anderen Bereich als die andere Umgebung, dann unterscheidet sich die Jacobi-Anpassung von der PMC und unterschätzt in Wirklichkeit immer die Anpassung der Modelle.
  • Wir haben entdeckt, dass die herkömmliche Jacobi-Anpassung durch eine lineare oder nichtlineare Transformation der Jacobi-Matrizes stark verbessert werden kann. Um die lineare oder nichtlineare Transformation durchzuführen, verwenden die bevorzugten Ausführungsformen einen Parameter, den wir α-Anpassungsparameter nennen. Die nachstehende Gleichung 3 stellt den gegenwärtig bevorzugten Einsatz des α-Anpassungsparameters zur Durchführung einer nichtlinearen Transformation dar. Gleichung 4 zeigt einen alternativen Einsatz des Parameters zur Durchführung einer linearen Transformation.
  • Wie vorstehend angemerkt, sind, obwohl die Verwendung eines α-Anpassungsparameters gegenwärtig bevorzugt wird, auch andere Transformationstechniken möglich. Zum Beispiel kann ein Neuronennetz oder eine andere Komponente mit künstlicher Intelligenz verwendet werden, um die Jacobi-Matrizes für den Ausgangsgeräuschzustand zu transformieren. Eine andere Transformationstechnik läuft darauf hinaus, einen ersten α-Anpassungsparameter oder -faktor auf die Eingangssprache und einen zweiten α-Anpassungsparameter oder -faktor auf das Rauschen anzuwenden. Andere Varianten sind auch möglich.
  • GLEICHUNG 3
    Figure 00090001
  • GLEICHUNG 4
    Figure 00090002
  • Mit Bezug auf Gleichung 3 funktioniert der α-Anpassungsparameter wie folgt. Wenn das Referenzrauschen nahe an Null und α nicht zu groß ist, dann sind die beiden (bei der x-Koordinate N bzw. αN berechneten) Tangenten horizontal. Wenn das Referenzrauschen sehr groß ist, werden die beiden Tangenten der Linie y = x entsprechen. Wenn das Referenzrauschen zum mittleren Bereich von 3 gehört, wird das neue Gefälle der Tangente größer sein als es die herkömmliche Jacobi-Anpassungskurve erbracht hätte.
  • Der Einsatz des α-Anpassungsparameters in Gleichung 3 führt zu einer nichtlinearen Transformation der Matrizes. Zähler sowohl als auch Nenner werden mit dem Parameter multipliziert, wodurch ein nichtlinearer Transformationseffekt entsteht. In Gleichung 4 wird der α-Anpassungsparameter mit dem sich ergebenden Zähler-/Nennerquotienten gegenmultipliziert, wodurch ein linearer Transformationseffekt entsteht.
  • In beiden Fällen besteht der Haupteffekt des α-Anpassungsparameters darin, den zu den Sprachmodellen hinzukommenden systematischen Anpassungsfehler zu verstärken. Dies ist nützlich, weil es den Nachteil der herkömmlichen Jacobi-Anpassung berichtigt, die Auswirkung von Rauschen zu unterschätzen. In einem späteren Abschnitt dieses Dokuments werden wir noch unsere Versuchsergebnisse vorstellen, welche die Verbesserungen zeigen, die mit der Verwendung des α-Anpassungsparameters möglich sind.
  • Auswahl des α-Anpassungsparameters
  • Theoretisch hängt der optimale Wert des α-Anpassungsparameters von der Umgebung ab: der Wert für α sollte umso größer sein, je größer der Versatz zwischen Zielrauschen und Referenzrauschen ist. Wir haben jedoch entdeckt, dass der α-Anpassungsparameter bei weitem stabiler ist als es die Theorie hätte ahnen lassen. Wenn er zum Generieren transformierter Matrizes als Ersatz für die herkömmliche Jacobi-Anpassung verwendet wird, ist die Schwankung bei der Spracherkennungsgenauigkeit für geringe Werte von α niedrig, steigt an für mittlere Werte von α, und wird wieder niedrig, wenn α über einen bestimmten Punkt hinaus zunimmt. Dieses Phänomen ist auf den Verlauf der Kurve von 3 zurückzuführen. Konkret wird das Gefälle der Tangente nur zwischen 0 und 1 schwanken, wie auch immer der Wert von α auch sein mag.
  • Um diesen Punkt zu klären haben wir eine Versuchsreihe für Codeelemente in widrigen Umgebungen durchgeführt. Zwölf kontextunabhängige Modelle von Codeelementen wurden aufgebaut: Zahlen von 1 bis 9 plus Modelle für „o" und „Null", plus ein Modell für Stille bzw. Ruhe. Die Stille wurde durch ein verdecktes Markow-Modell (HMM) mit fünf Zuständen modelliert. Die übrigen Modelle verwendeten fünfzehn Zustände. Jeder Zustand der HMMs nutzt vier Gauß'sche Dichten. Der zum Training der Modelle verwendete Trainingssatz umfasste 3803 Sequenzen von Codeelementen, die von 80 Sprechern gesprochen wurden. Der Trainingssatz wurde unter Laborbedingungen ohne Geräusch aufgezeichnet. Die 4 und 5 stellen die Genauigkeitsschwankung dar, wenn sich α in einem Bereich von 1 bis 4 verändert. Die Daten wurden basierend auf sechs unterschiedlichen akustischen Umgebungen generiert:
    • • Dem Bewertungskörper, der unter Reinheitsbedingungen aufgezeichnet wird.
    • • Demselben Körper, zusätzlich mit Autogeräusch mit einem Rauschabstand von 10 dB.
    • • Demselben Körper, zusätzlich mit Autogeräusch mit einem Rauschabstand von 0 dB.
    • • Demselben Körper, zusätzlich mit Weißrauschen mit einem Rauschabstand von 15 dB.
    • • Dem Versuchskörper, aufgezeichnet in einem Auto bei 30 Meilen/h.
    • • Einem weiteren Versuchskörper, aufgezeichnet in einem Auto bei 60 Meilen/h.
  • Mit Bezug auf die 4 und 5 ist zu sehen, dass, wie auch immer die akustische Umgebung sein mag, die Genauigkeitsschwankung für verschiedene Werte von α im Bereich von α = 2,4 bis α = 3,6 sehr gering ist. Dies zeigt, dass α einen stabilen Bereich hat, der sich in einer praktischen Ausführungsform der Erfindung geeignet nutzen lässt. Obwohl wir gegenwärtig einen α-Anpassungsparameter zwischen ca. 2,4 bis 3,6 bevorzugen, ist dies lediglich repräsentativ für einen möglichen stabilen Bereich. Allgemein können andere Werte von α mit vorteilhaften Ergebnissen verwendet werden. Anders ausgedrückt ist die Abnahme der Genauigkeit zwischen dem wirklichen „optimalen" Wert von α und irgendeinem anderen Wert von α, der in einem bestimmten Bereich (z.B. 2,4–3,6) gewählt werden kann, sehr gering. Unsere Daten zeigen, dass die Abnahme der Genauigkeit vom „optimalen" Punkt weniger als drei Prozent beträgt. Dies macht aus unserer verbesserten Jacobi-Anpassung ein sehr robustes Verfahren.
  • Reduzierung der Anzahl an Dimensionen zur Senkung des rechnerischen Aufwands
  • Wie vorstehend festgestellt, erlegt die Jacobi-Anpassung, obwohl sie rechnerisch weniger aufwändig ist als PMC, dem Erkennungssystem, insbesondere bei eingebetteten Systemen, immer noch eine ziemlich zu Buche schlagende Belastung auf.
  • Wir haben nämlich festgestellt, dass jede transformierte Matrix durch die folgende Gleichung 5 ausgedrückt werden kann: GLEICHUNG 5
    Figure 00120001
    eine Diagonalmatrix mit den Dimensionen NFilt × NFilt ist, worin Nfilt die Anzahl der Filter ist, die in der spektralen Filterbank verwendet werden.
  • Auf diese Weise kann jede transformierte Matrix als die gewichtete Summe von Nfilt kanonischen Matrizes ausgedrückt werden, die tatsächlich eine Basis des Raums sind, zu dem die Jacobi-Matrizes gehören. Diese kanonischen Matrizes sind definiert durch: Ji = F·diag(i)·F–1 worin diag(i) auf eine Nfilt × Nfilt Diagonalmatrix mit überall 0 aber 1 an der Position i verweist.
  • Jede transformierte Matrix kann somit ausgedrückt werden als:
  • GLEICHUNG 6
    Figure 00120002
  • Somit genügt es, anstatt Nd Matrizes zu speichern (wobei Nd die Gesamtanzahl von Dichten in allen Sprachmodellen ist), Nfilt kanonische Matrizes plus Nd mal Nfilt Koeffizienten γi zu speichern. Dies senkt den Speicherbedarf erheblich.
  • Dennoch kann die Lösung weiter verbessert werden, denn sie erhöht die Zeitkomplexität des Algorithmus: wenn nämlich all die transformierten Matrizes gespeichert werden, kann Gleichung 2 direkt auf alle Dichten angewandt werden, was auf Kosten des Aufwands einer Nd-Matrixmultiplikation geht.
  • Wird die zweite Lösung gewählt, wird der rechte Teil der Gleichung 2 zu:
  • Figure 00130001
  • In dieser Gleichung besteht der Aufwand in Nfilt Matrixadditionen und einer Nfilt Matrixmultiplikation mit einem Skalar: dies muss für jede Dichte wiederholt werden. Der Gesamtaufwand beträgt somit 2·Nd·Nfilt Matrixoperationen.
  • Wenn keine zusätzliche Rechnerzeit aufgewendet werden soll, muss die Anzahl der kanonischen Matrizes reduziert werden.
  • Die gegenwärtig bevorzugte Technik zum Reduzieren der Dimension eines Raumes besteht in der Durchführung einer Hauptkomponentenanalyse (PCA) an dem Satz von Elementen, die zu diesem Raum gehören. Wir haben deshalb zuerst all die Vektoren
    Figure 00130002
    berechnet und eine Einzelwertzerlegung an diesem Satz Vektoren vorgenommen. Die sich ergebenden kanonischen Vektoren wurden zur Berechnung der Nfilt kanonischen Jacobi-Matrizes
    Figure 00130003
    verwendet, die in der absteigenden Reihenfolge ihrer Eigenwerte sortiert wurden.
  • Die Verwendung der wie vorstehend beschriebenen Hauptkomponentenanalyse kann eine erhebliche Verbesserung bei der Reduzierung der rechnerischen Belastung erbringen. Experimente haben gezeigt, dass es möglich ist, die Anzahl verwertbarer kanonischer Matrizes auf fünf Matrizes zu senken. Es kann sogar eine weitere Reduktion möglich sein. Die Reduzierung der Anzahl von Matrizes senkt den Platzbedarf sowie die Rechnerzeit, die zur Durchführung der Anpassung benötigt wird. Zum besseren Verständnis der Verbesserung, die durch die Reduzierung der Anzahl von Dimensionen (Hauptkomponentenanalyse) erzielt wird, vergleicht Tabelle I den Anpassungsprozess für die transformierte Matrix mit und ohne dabei die Hauptkomponentenanalyse einzusetzen.
  • TABELLE 1
    Figure 00140001
  • In der obigen Tabelle 1 gibt die erste Spalte die Anzahl von Dimensionen an, d.h. die Anzahl der kanonischen Matrizes. Die nächste Spalte gibt den verwendeten α-Anpassungswert an. Die übrigen Spalten geben den Prozentsatz der Erkennungsgenauigkeit und die damit verbundene erforderliche Rechnerzeit (die kumulierte Zeit der Anpassung über die gesamte Datenbank in Mikrosekunden) für die folgenden drei Umgebungsbedingungen an: rein (kein Geräusch), Fahrzeug bei 30 Meilen pro Stunde und Fahrzeug bei 60 Meilen pro Stunde.
  • Versuchsergebnisse
  • Die vorstehend beschriebenen Rauschanpassungstechniken wurden unter verschiedenen Geräuschbedingungen getestet. Die Ergebnisse unserer Tests sind in diesem Abschnitt wiedergegeben. Um das Anpassungssystem zu testen wurde ein Spracherkenner für ein Fahrzeugnavigationssystem verwendet. Natürlich sind die hier beschriebenen Anpassungstechniken nicht auf Fahrzeugnavigation oder irgendeine andere Erkennungsaufgabe beschränkt. Fahrzeugnavigation wurde für unsere Tests gewählt, weil die Geräuschbedingungen in einem fahrenden Fahrzeug mit unterschiedlichen Fahrzeuggeschwindigkeiten ziemlich stark schwanken können. Deshalb wurde ein Test in einer Fahrzeugumgebung als gutes Maß für die Fähigkeiten des Anpassungssystems gewählt.
  • Der Versuchsaufbau für diese Experimente ist derselbe wie vorstehend beschrieben. Es wurden drei Testsätze aufgebaut: (1) mit einem Bewertungssatz, der aus 462 Sequenzen von Codeelementen bestand, die (anders als beim Trainingssatz) von 20 Sprechern gesprochen wurden, die unter denselben Bedingungen wie den im Trainingssatz verwendeten aufgezeichnet wurden; (2) bestehend aus 947 Sequenzen von Codeelementen, die von verschiedenen Sprechern gesprochen und in einem Auto bei 30 Meilen pro Stunde aufgezeichnet wurden; (3) bestehend aus 475 Sequenzen von fünf Codeelementen, die von denselben Sprechern gesprochen aber im Auto bei 60 Meilen pro Stunde aufgezeichnet wurden.
  • Die Erkennung wurde unter Verwendung einer Einfachschleifengrammatik mit gleichen Übergangsmöglichkeiten für alle Zahlen („o"- und „Null"-Modelle mit derselben Zahl) und Stille durchgeführt. Die Genauigkeit wurde an zehn Zahlen berechnet, nachdem die Sprachpausen in den erkannten Sätzen entfernt wurden.
  • Für dieses erste Experiment wurde das Signal zu einer Sequenz von Vektoren von neun PLP-Koeffizienten (einschließlich Restfehler) plus neun Delta-Koeffizienten codiert. Wenn sie ausgeführt wurde, wurde die Anpassung nur auf die Mittelwerte der ersten neun statischen Koeffizienten angewandt. Zur Anpassung wurde das Zielrauschen unter Verwendung der ersten 30 Rahmen jedes Satzes berechnet.
  • Die in Tabelle II unten wiedergegebenen Ergebnisse vergleichen die Leistung der verdeckten Markow-Modelle (HMM) ohne Anpassung mit den Ergebnissen, die unter Verwendung der Parallelmodellkombination (PMC) und der herkömmlichen Jacobi-Anpassung (JA) erhalten wurden. Tabelle II zeigt somit, wie sowohl die Parallelmodellkombination als auch die Jacobi-Anpassung die Erkennungsleistung beim Vorhandensein von Rauschen verbessern. Tabelle II zeigt aber nicht die Leistung der Anpassung transformierter Matrizes unter Verwendung der α-Anpassung. Diese Tabelle ist dargelegt, um als Grundlinie zu dienen, vor deren Hintergrund die Anpassungstechnik transformierter Matrizes verständlicher wird.
  • TABELLE II
    Figure 00150001
  • Figure 00160001
  • TABELLE III
    Figure 00160002
  • Tabelle III zeigt die Vergleichsleistung der Parallelmodellkombination sowie der Jacobi-Anpassung mit und ohne den alpha-Faktor. In Tabelle III ist die transformierte Matrixanpassung mit α-Anpassung als „α-TM" bezeichnet. Zu Vergleichszwecken wurde der alpha-Faktor auch in der Parallelmodellkombinationstechnik angewendet, wie in der mit „α-PMC" bezeichneten Reihe gezeigt ist.
  • Beim Vergleich der Ergebnisse in Tabelle III ist festzuhalten, dass die verbesserte transformierte Matrixanpassung (α-TM) beim Vorhandensein von Rauschen eine deutlich bessere Leistung erbringt als die standardmäßige Jacobi-Anpassung (JA). Während der alpha-Faktor die Leistung der PMC-Anpassung nicht wesentlich verschlechterte, brachte er aber auch keine signifikante Verbesserung.
  • Die Ergebnisse unserer Experimente zeigen, dass die Technik der transformierten Matrixanpassung, die den α-Anpassungsfaktor einsetzt, erheblich bessere Resultate ergibt als die standardmäßige Jacobi-Anpassung. Da darüber hinaus die transformierte Matrixanpassung an sich rechnerisch weniger aufwändig ist als PMC, wird sie zu einem idealen Kandidaten für eingebettete Erkennungssysteme, die keine große Verarbeitungsleistung oder keinen großen Speicher haben. Solche Anwendungen umfassen beispielsweise Zellulartelefonerkennungs- und Fahrzeugnavigationssysteme und andere Verbraucherprodukte.
  • Zusätzlich können durch die hier beschriebenen Techniken zum Reduzieren der Anzahl der Dimensionen noch weitere Verbesserungen in der Systemleistung gewonnen werden. Kombiniert mit der transformierten Matrixanpassung ist das Ergebnis ein kompaktes, effizientes und robustes Anpassungssystem, das in vielen Erkennungsanwendungen gute Dienste leisten wird.
  • Weitere Ausführungsformen
  • Es ist klar, dass, während die vorstehende Erläuterung die Vorteile der α-Jacobi-Anpassung für Überlagerungsrauschen demonstriert, ähnliche Vorteile auch im Hinblick auf Faltungsrauschen erzielt werden können. Zu Beginn ist es wichtig, festzuhalten, dass in der Praxis alle Sprachsignale nicht nur durch Überlagerungsrauschen, sondern auch durch Faltungsrauschen (oder Kanalrauschen) verfälscht werden. Die klassische Gleichung, die das sich ergebende Signal im spektralen Bereich darstellt, ist folgende: S' = HS + Nworin S die gesprochene Sprache, S' das sich ergebende Signal, H das Kanalrauschen und N das Überlagerungsrauschen ist. In den Kepstrum-Bereich überschrieben, wird diese Gleichung zu: C(S') = C(HS + N)
  • Wenn man Htar und Ntar als Zielfaltungs- und Überlagerungsrauschen (d.h. zum Testzeitpunkt geschätzt) definiert und Href und Nref als Referenzfaltungs- und Überlagerungsrauschen (d.h. geschätzt zum Trainingszeitpunkt), dann kann man berechnen:
  • Figure 00180001
  • Die Jacobi-Approximation (oder α-Jacabi-Approximation) kann dann auf den zweiten Term der Summe angewandt werden:
    Figure 00180002
    Figure 00190001
    die Rauschanpassungsmatrix des Sprachvektors S bezeichnet.
  • Somit ergibt sich
  • GLEICHUNG 7
    • C(HtarS + Ntar) = (1 – Jc)(C(Htar) – C(Href) + C(HrefS + Nref) + Jc(C(Ntar) – C(Nref))
  • Der erste Term (1 – Jc)(C(Htar) – (C(Href))stellt die Vorfaltung (C(Htar) – C(Href))dar, die durch eine Kanalanpassungsmatrix (1 – Jc)transformiert wird.
  • Es ist wichtig, festzuhalten, dass die Transformation von der Vorfaltung ist, wie sie sich im Kepstrum-Bereich darstellt.
  • Der dritte Term Jc(C(Ntar) – C(Nref))stellt die hinzukommende systematische Abweichung dar, die durch eine Rauschanpassungsmatrix Jc transformiert wurde. Der zweite Term C(HrefS + Nref)stellt ein Modell des Referenzsignals im Kepstrum-Bereich dar.
  • Nunmehr ist mit Bezug auf 6 ein Rauschanpassungssystem 60 gezeigt, das zur Durchführung einer Rauschanpassung in einem (nicht gezeigten) Spracherkennungssystem in der Lage ist. Allgemein verwendet das Rauschanpassungssystem 60 ein von einem Sprecher 62 in einer Trainingsumgebung 64 kommendes Trainingssprachsignal 75 und ein vom Sprecher 62 in einer Erkennungsumgebung 66 kommendes Zielsprachsignal 79. Es ist gezeigt, dass das Trainingssprachsignal 75 eine Komponente Faltungsrauschen Href aufweist, die sich aus dem Trainingskanal 72 ergibt, und eine Komponente Überlagerungsrauschen Nref, die in das Summierglied 74 eingeht. Ähnlich besitzt das Zielsprachsignal 79 eine Komponente Faltungsrauschen Htar, die sich aus dem Erkennungskanal 76 ergibt, und eine Komponente Überlagerungsrauschen Ntar, die in das Summierglied 78 eingeht.
  • Die Kanäle 72, 76 haben typischerweise verschiedene Signalverarbeitungsvorrichtungen wie Mikrofone, Telefonleitungen, usw. eingebaut, wobei die Schwierigkeit mit der Rauschanpassung dann auftritt, wenn der Erkennungskanal 76 andere Eigenschaften hat als der Trainingskanal 72. In solchen Fällen unterscheidet sich die Komponente Zielfaltungsrauschen Htar von der Komponente Referenzfaltungsrauschen Href. Ein primäres Ziel der vorliegenden Erfindung ist es, das Referenzmodell so anzupassen, dass es für eine solche Vorfaltung verantwortlich ist.
  • Das Anpassungssystem 60 besitzt einen Referenzmodellgenerator 68, ein Modul 80 für Überlagerungsrauschen und ein Modul 82 für Faltungsrauschen. Der Referenzmodellgenerator 68 generiert ein Referenzmodell 70 basierend auf dem Trainingssprachsignal 75. Das Referenzmodell 70 kann ein HMM, ein Gauß'sches Mischmodell (GMM) oder irgend ein anderes Sprachsignal sein, das sich zu Zwecken der vorliegenden Erfindung trainieren lässt. Es ist zu sehen, dass das Modul 80 für Überlagerungsrauschen mit dem Referenzmodellgenerator 68 verbunden ist und im Referenzmodell 70 Überlagerungsrauschen im Kepstrum-Bereich ausgleicht. Das Modul 82 für Faltungsrauschen ist mit dem Referenzmodellgenerator 68 verbunden und gleicht im Referenzmodell 70 Faltungsrauschen im Kepstrum-Bereich aus.
  • Obwohl Gleichung 7 beschreibt, wie die Modelle für sowohl Überlagerungs- als auch Kanalrauschen anzupassen sind, wird doch eine Schätzung von C(Htar) – C(Href)benötigt. Solch eine Schätzung wird für gewöhnlich dadurch berechnet, dass der Unterschied zwischen den Kepstrum-Vektoren der Ziel- und Referenzsprachsignale 79, 75 gemittelt wird. Diese Schätzung wird auch im hinlänglich bekannten Algorithmus Cepstral Mean Subtraction (CMS) eingesetzt, der in M. Westphal, „The use of cepstral means in conversational speech recognition", EUROSPEECH ,97, Rhodos, Griechenland, 1997 beschrieben ist. Wir nehmen nachstehend auf den in Gleichung 7 definierten Ausgleichsalgorithmus durch den Begriff „Cepstral Mean Adaptation" oder CMA Bezug. Tatsächlich ist CMA in dem Sinne CMS sehr ähnlich, als dieser Algorithmus versucht, die Mittelwerte der Referenz- und Testsignale einander anzupassen. Nichtsdestoweniger bestehen mehrere Unterschiede zwischen diesen Verfahren.
    • • CMS wird direkt auf das Signal angewendet, wohingegen CMA auf die Modelle angewendet wird;
    • • CMS wird sowohl auf die Referenz- als auch Zielsignale angewendet, wohingegen CMA nur auf die Referenzmodelle angewendet wird;
    • • CMS gleicht nur das Faltungsrauschen aus, wohingegen CMA auch Überlagerungs- sowie Kanalrauschen berücksichtigt.
  • Nunmehr ist mit Bezug auf 7 ein Lösungsansatz gezeigt, um Faltungsrauschen im Referenzmodell für Faltungsrauschen im Kepstrum-Bereich (als Teil des gemeinsamen Ausgleichs) auszugleichen. Auf diese Weise stellt das Modul 82 für Faltungsrauschen eine Schätzung der Vorfaltung bereit und gleicht das Referenzmodell mit dieser Schätzung an. Das Ergebnis ist ein faltungsangepasstes Modell 96. Das faltungsangepasste Modell 96 kann dann durch das Modul 80 für Überlagerungsrauschen bearbeitet werden, um im Referenzmodell 70 sowohl Überlagerungs- als auch Faltungsrauschen voll auszugleichen. Im Speziellen umfasst eine Ausführungsform des Moduls 82 für Faltungsrauschen ein Vorfaltungsmodul 84, um die Vorfaltung zwischen dem Referenzmodell 70 und dem Zielsprachsignal 79 zu schätzen. Ein Anpassungsmatrixmodul 86 generiert eine Kanalanpassungsmatrix 88 basierend auf dem Trainingssprachsignal. Die Kanalanpassungsmatrix 88 ist im Wesentlichen eine modifizierte Rauschanpassungsmatrix 1 – Jc. Es ist wichtig festzuhalten, dass Jc entweder eine standardmäßige Jacobi-Matrix oder eine wie vorstehend beschriebene α-Jacobi-Matrix sein kann. Das Vorfaltungsmodul 84 setzt die geschätzte Vorfaltung mit der Kanalanpassungsmatrix 88 um. Das Modul 82 für Faltungsrauschen umfasst darüber hinaus ein Summiermodul 90, das mit dem Vorfaltungsmodul 84 gekoppelt ist, um die umgesetzte Vorfaltung zum Referenzmodell 70 im Kepstrum-Bereich zu addieren.
  • Berechnung der Vorfaltung
  • Um die Vorfaltung zu schätzen, ist davon auszugehen, dass die Gauß'sche Ausrichtung zwischen den Referenzmodellen und dem Signal bekannt ist. Es werden zwei mögliche Lösungsansätze zur Berechnung der Vorfaltung beschrieben, die auf dieser Annahme beruhen:
  • I. Erster Lösungsansatz
  • Wenn angenommen wird, dass HtarS ≻ ≻ Ntar, dann ist es möglich, die Segmente des Signals zu mitteln, die Spracheinheiten entsprechen, um
    Figure 00220001
    zu erhalten.
  • Ähnlich sollte es möglich sein, den Term Ĉ(Sref)zu berechnen, indem dasselbe Referenzsignal, d.h. reine Signal, gemittelt wird. Allerdings ist dieses Signal im Allgemeinen nicht verfügbar, da nur das geräuschhaltige Signal (Zielsignal) bekannt ist. Dann muss dieses Referenzsignal geschätzt werden. Solch eine Schätzung kann mit dem Einsatz einer Gauß'schen Ausrichtung zwischen den Modellen und dem Signal erhalten werden. Deshalb stellt für jeden Rahmen die Gauß'sche Dichte, die mit dem Zielrahmen C(HtarSt) ausgerichtet ist, den entsprechenden Referenzrahmen C(HrefSt) dar. Dann ist es möglich,
    Figure 00230001
    zu berechnen.
  • Indem die beiden vorstehenden Gleichungen subtrahiert werden, wird
  • GLEICHUNG 8
    • C(Htar) – C(Href) = Ĉ(Star) – Ĉ(Sref)erhalten.
  • Um in der Praxis die systematische Kanalabweichung zu berechnen, wie sie durch obige Gleichung angegeben ist, braucht man die Gauß'sche Ausrichtung des aktuellen Satzes, wie er vom Erkenner wiedergegeben wird. Um den Einsatz eines Zweifachdurchlauferkennungssystems zu vermeiden, haben wir uns dazu entschlossen, den aktuellen Satz mit der systematischen Anpassungsabweichung, die auf der vorherigen berechnet wurde, anzupassen. Dies macht das System für eine Veränderung der Umgebung empfindlicher, als dies beispielsweise der Fall wäre, wenn ein anderer Sprecher den vorhergehenden und aktuellen Satz aussprechen würde. Dennoch besteht der Vorteil dieser Approximation darin, dass die Anpassung immer noch sehr schnell ist und nur einen einzelnen Erkennungsdurchlauf nötig macht.
  • Somit kann das Modul 82 für Faltungsrauschen darüber hinaus ein Modul 92 für Gauß'sche Ausrichtung 92 umfassen, um das Zielsprachsignal in Zielsprachsegmente und Zielruhesegmente zu zerlegen. Während die Segmentierungsfunktion typischerweise im Spracherkenner enthalten ist, wird sie hier zu Erläuterungszwecken als Teil des Moduls 82 für Faltungsrauschen beschrieben. Die besondere Anordnung vieler der hier beschriebenen Komponenten kann nämlich variieren, ohne dass dabei von der Beschaffenheit und dem Umfang der Erfindung abgewichen würde. Das Vorfaltungsmodul 84 mittelt deshalb die Zielsprachsignale und Gauß'schen Daten, die dem Referenzmodell 70 entsprechen. Das Vorfaltungsmodul berechnet darüber hinaus einen Unterschied zwischen dem Mittelwert für die Gauß'schen Daten und dem Mittelwert für die Zielsprachsegmente. Das Ergebnis ist eine Vorfaltung C(Htar) – C(Href)die nach der Transformation durch die Kanalanpassungsmatrix zum Referenzmodell 70 im Kepstrum-Bereich addiert werden kann.
  • II. Lösungsansatz
  • Eine bevorzugte, inkrementelle Lösung zum Schätzen der Vorfaltung ermöglicht es, das Zielrauschen Ntar zu berücksichtigen. Dieses Verfahren nutzt eine vorhergehende Schätzung der Vorfaltung (die beispielsweise am vorherigen Satz berechnet wird) und verbessert diese Schätzung, indem sie das Signal des aktuellen Satzes verwendet. Die Vorfaltung wird deshalb inkrementell von einem Satz zum nächsten geschätzt und verbessert sich wahrscheinlich so lange, solange sich der Sprecher oder die Umgebung nicht verändert.
  • Das Mitteln des Signals der Sprachsegmente des aktuellen Satzes führt zu:
  • Figure 00240001
  • Am vorhergehenden Satz wurden die angepassten Modelle
    Figure 00240002
    bereits geschätzt. Es ist dann möglich, den Mittelwert der Referenzrahmen unter Verwendung dieses Modellsatzes zu berechnen:
  • Figure 00250001
  • Eine Subtraktion der beiden vorstehenden Gleichungen ergibt die systematische Kanalabweichung, die durch Gleichung 8 dargestellt ist. Mit diesem Verfahren müssen wir annehmen, dass die Ziel- und Referenzkanäle des ersten Satzes identisch sind.
  • EXPERIMENTELLE ERGEBNISSE
  • Nunmehr ist mit Bezug auf 8 die Form des Filters, das zur Simulierung des Effekts eines Faltungsrauschens zu Versuchszwecken verwendet wird, in der grafischen Darstellung 94 gezeigt. Der vorstehend beschriebene zweite Lösungsansatz wurde für die folgenden Simulationen gewählt.
  • Tabelle 4 demonstriert die Ergebnisse der vorliegenden Erfindung, wenn sowohl Überlagerungs- als auch Kanalrauschanpassung verwendet werden.
  • TABELLE IV
    Figure 00250002
  • Das in der letzten Zeile von Tabelle 4 wiedergegebene Ergebnis ist die Genauigkeit der vorliegenden Erfindung ohne irgendein Kanalausgleichsverfahren an der anfänglichen Datenbank (kein Ausgleich des Faltungsrauschens). Diese Genauigkeit ist somit die Obergrenze, die erreicht werden kann, wenn ein „ideales" Kanalausgleichsverfahren eingesetzt wird. Die Ergebnisse zeigen, dass unser System nicht weit von der besten erzielbaren Genauigkeit entfernt ist, was die Approximationen, die während der Entwicklung dieses Verfahrens durchgeführt wurden, als gültig untermauert.
  • Es ist wichtig, festzuhalten, dass der vorstehende zusammengefasste Lösungsansatz sich vieler der Vorteile erfreut, die mit der α-Jacobi-Anpassung verbunden sind, die nur für den Ausgleich von Überlagerungsrauschen beschrieben wurde. Wie bereits erläutert, wurzelt die α-Jacobi-Anpassung im Jacobi-Anpassungsalgorithmus. Die α-Jacobi-Anpassung unterscheidet sich durch die Art und Weise von der Jacobi-Anpassung, mit der die Approximation durchgeführt wird: letztere nutzt die lineare Funktion, die PMC unter Trainingsbedingungen am besten approximiert, wohingegen erstere eine lineare Funktion experimentell berechnet, die PMC für einen ausgewählten Satz möglicher Testbedingungen besser approximiert. Im Ergebnis erbringt die α-Jacobi-Anpassung bei realen Testbedingungen eine bessere Leistung als die Jacobi-Anpassung.
  • Wir haben dann die Zeit- und Speicherkomplexität dieses Algorithmus um mehr als die Hälfte gesenkt, indem unter Verwendung der Hauptkomponentenanalyse PCA die Anzahl erforderlicher Transformationsmatrizes reduziert wurden, ohne dabei die Erkennungsergebnisse zu verschlechtern.

Claims (8)

  1. Verfahren zum Durchführen von Rauschanpassung für Spracherkennung, wobei das Verfahren die folgenden Schritte umfasst: ein Referenzmodell (70) basierend auf einem Trainingssprachsignal (75) zu generieren; im Referenzmodell (70) Überlagerungsrauschen im Kepstrum-Bereich auszugleichen; und im Referenzmodell Faltungsrauschen im Kepstrum-Bereich auszugleichen, dadurch gekennzeichnet, dass eine Vorfaltung zwischen dem Referenzmodell (70) und einem Zielsprachsignal (79) geschätzt wird; die geschätzte Vorfaltung mit einer Kanalanpassungsmatrix (88) umzusetzen; und die umgesetzte Vorfaltung im Kepstrum-Bereich zum Referenzmodell hinzuzufügen.
  2. Verfahren nach Anspruch 1, darüber hinaus noch die folgenden Schritte umfassend: Gauß'sche Daten, die dem Referenzmodell entsprechen, zu mitteln; Zielsprachsegmente, die dem Zielsprachsignal entsprechen, zu mitteln; und einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten zu berechnen.
  3. Verfahren nach Anspruch 2, darüber hinaus noch den folgenden Schritt umfassend, jeden Satz des Trainingssprachsignals mit Daten aus einem vorhergehenden Satz anzupassen.
  4. Verfahren nach Anspruch 1, darüber hinaus noch den folgenden Schritt umfassend, die geschätzte Vorfaltung mit einer modifizierten Kanalanpassungsmatrix zu multiplizieren.
  5. Verfahren nach Anspruch 4, bei dem die Kanalanpassungsmatrix eine Anpassungsmatrix bekommt, die durch I – Jc gegeben ist, worin Jc eine Rauschanpassungsmatrix ist.
  6. Verfahren nach Anspruch 4, bei dem die Anpassungsmatrix durch eine Anpassungsgleichung gegeben ist, wobei die Anpassungsgleichung durch
    Figure 00280001
    gegeben ist, worin C den Kepstrum-Bereich, Href das Faltungsrauschen im Trainingssprachsignal, S den Sprachvektor und Nref das Überlagerungsrauschen im Trainingssprachsignal darstellt.
  7. Rauschanpassungssystem für ein Spracherkennungssystem, wobei das Anpassungssystem umfasst: einen Referenzmodellgenerator (68) zum Generieren eines Referenzmodells (70) basierend auf einem Trainingssprachsignal (75); ein Modul (80) für Überlagerungsrauschen, welches Modul mit dem Referenzmodellgenerator (68) gekoppelt ist, wobei das Modul für Überlagerungsrauschen im Referenzmodell Überlagerungsrauschen in einem Kepstrum-Bereich ausgleicht; und ein Modul (82) für Faltungsrauschen, welches Modul mit dem Referenzmodellgenerator (68) gekoppelt ist, wobei das Modul für Faltungsrauschen im Referenzmodell Faltungsrauschen im Kepstrum-Bereich ausgleicht, wobei das Modul für Faltungsrauschen durch ein Vorfaltungsmodul (84), um eine Vorfaltung zwischen dem Referenzmodell (70) und einem Zielsprachsignal (75) zu schätzen, ein Adaptionsmatrixmodul (86), um eine Kanalanpassungsmatrix (88) basierend auf dem Trainingssprachsignal (75) zu generieren, wobei das Vorfaltungsmodul (84) die geschätzte Vorfaltung mit der Kanalanpassungsmatrix (88) umsetzt, und ein Summiermodell (90) gekennzeichnet ist, das mit dem Vorfaltungsmodul (84) gekoppelt ist, um die umgesetzte Vorfaltung zum Referenzmodell (70) im Kepstrum-Bereich zu addieren.
  8. Rauschanpassungssystem nach Anspruch 7, bei dem das Modul für Faltungsrauschen darüber hinaus noch umfasst: ein Modul für Gauß'sche Ausrichtung, um das Zielsprachsignal in Zielsprachsegmente und Zielruhesegmente zu zerlegen; wobei das Modul für Vorfaltung die Zielsprachsignale und Gauß'schen Daten, die dem Referenzmodell entsprechen, mittelt, wobei das Vorfaltungsmodul darüber hinaus einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten berechnet.
DE2001609533 2000-07-31 2001-07-24 Verfahren zur Rauschadaptierung mittels transformierten Matrizen in der automatischen Spracherkennung Expired - Lifetime DE60109533T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/628,376 US6691091B1 (en) 2000-04-18 2000-07-31 Method for additive and convolutional noise adaptation in automatic speech recognition using transformed matrices
US628376 2000-07-31

Publications (2)

Publication Number Publication Date
DE60109533D1 DE60109533D1 (de) 2005-04-28
DE60109533T2 true DE60109533T2 (de) 2006-04-13

Family

ID=24518611

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2001609533 Expired - Lifetime DE60109533T2 (de) 2000-07-31 2001-07-24 Verfahren zur Rauschadaptierung mittels transformierten Matrizen in der automatischen Spracherkennung

Country Status (3)

Country Link
EP (1) EP1178465B1 (de)
JP (1) JP2002049388A (de)
DE (1) DE60109533T2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089182B2 (en) * 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
US9009039B2 (en) 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
CN102426837B (zh) * 2011-12-30 2013-10-16 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
CN111951805A (zh) * 2020-07-10 2020-11-17 华为技术有限公司 一种文本数据处理方法及装置

Also Published As

Publication number Publication date
JP2002049388A (ja) 2002-02-15
EP1178465A2 (de) 2002-02-06
EP1178465A3 (de) 2002-04-10
DE60109533D1 (de) 2005-04-28
EP1178465B1 (de) 2005-03-23

Similar Documents

Publication Publication Date Title
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE60207784T9 (de) Sprecheranpassung für die Spracherkennung
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10041512A1 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE4031638C2 (de)
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE10047724A1 (de) Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP

8320 Willingness to grant licences declared (paragraph 23)