DE60109533T2

DE60109533T2 - Verfahren zur Rauschadaptierung mittels transformierten Matrizen in der automatischen Spracherkennung

Info

Publication number: DE60109533T2
Application number: DE2001609533
Authority: DE
Inventors: Christophe Cerisara; Luca Santa Barbara Rigazio; Robert Thousand Oaks Bomen; Jean-Claude Santa-Barbara Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 2000-07-31
Filing date: 2001-07-24
Publication date: 2006-04-13
Anticipated expiration: 2021-07-25
Also published as: JP2002049388A; EP1178465A2; EP1178465A3; DE60109533D1; EP1178465B1

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Durchführen von Rauschanpassung in einem Spracherkennungssystem, von der Art, die folgende Schritte umfasst: ein Referenzmodell basierend auf einem Trainingssprachsignal zu generieren; im Referenzmodell Überlagerungsrauschen im Kepstrum-Bereich auszugleichen; und im Referenzmodell Faltungsrauschen im Kepstrum-Bereich auszugleichen.
Gegenwärtige automatische Spracherkennungssysteme funktionieren unter Laborbedingungen ziemlich gut, lassen aber schnell nach, wenn sie in realen praktischen Anwendungen eingesetzt werden. Einer der wichtigsten Faktoren, der die Erkennerleistung in realen praktischen Anwendungen beeinflusst, ist das Vorhandensein von Umweltgeräuschen, die das Sprachsignal verfälschen. Eine Anzahl von Verfahren, wie die Spektralsubtraktion oder Parallelmodellzusammenführung, wurden entwickelt, um sich dem Geräuschproblem zuzuwenden. Diese Lösungen sind aber entweder zu eingeschränkt oder rechnerisch zu aufwändig.
Ein Vorschlag wurde von Y. H. Chang, W. J. Chung und S. U. Park in ihrer Schrift „Improved Model Parameter Compensation Methods for Noise-robust Speech Recognition" vorgebracht, die Teil der Abhandlungen der 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 1998, Seattle, Washington, USA, 12.–15. Mai, 1998 (XP000854640) sind. Modellparameterkompensationsverfahren wurden auf rauschunanfällige Spracherkennung basierend auf CDHMM untersucht. Ein auf einem modifizierten PMC-Verfahren aufbauendes Modell wurde vorgeschlagen, bei dem der Einstellungsterm in der Modellparameteranpassung in Abhängigkeit von Mischkomponenten von HMM verändert wird, um eine zuverlässigere Modellierung zu erzielen. Es wurde ein zustandsabhängiger Assoziationsfaktor, der die durchschnittliche Parameterveränderlichkeit Gauß'scher Gemische steuert, und die Veränderlichkeit der jeweiligen Gemische dazu hergenommen, die endgültigen optimalen Modellparameter herauszufinden. Darüber hinaus wurde auch die Lösung der Wiederabschätzung von Umweltvariablen bei zusätzlichem Rauschen und Spektrumsverlagerung basierend auf Erwartungs-/Maximierungsalgorithmen (EM-Algorithmen) im Kepstrum-Bereich in Erwägung gezogen. Der Lösungsansatz basierte auf der Approximation der Vektor-Taylorreihe (VTS).
Nach der vorliegenden Erfindung wird ein Verfahren zum Durchführen von Rauschanpassung in einem Spracherkennungssystem der oben genannten Art bereitgestellt, das dadurch gekennzeichnet ist, dass eine Vorfaltung zwischen dem Referenzmodell und einem Zielsprachsignal geschätzt wird; die geschätzte Vorfaltung mit einer Kanalanpassungsmatrix umgesetzt wird; und die umgesetzte Vorfaltung im Kepstrum-Bereich zum Referenzmodell hinzugefügt wird.
In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch die Schritte, Gauß'sche Daten, die dem referenzierten Modell entsprechen, zu mitteln; Zielsprachsegmente, die dem Zielsprachsignal entsprechen, zu mitteln; und einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten zu berechnen.
In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch die Schritte: Gauß'sche Daten, die dem Referenzmodell entsprechen, zu mitteln; Zielsprachsegmente, die dem Zielsprachsignal entsprechen, zu mitteln; und einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten zu berechnen.
Vorzugsweise umfasst das Verfahren darüber hinaus noch den Schritt, jeden Satz des Trainingssprachsignals mit Daten aus einem vorhergehenden Satz anzupassen.
In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch einen Schritt, die geschätzte Vorfaltung mit einer modifizierten Kanalanpassungsmatrix zu multiplizieren. Vorzugsweise ist die Kanalanpassungsmatrix durch eine Anpassungsgleichung gegeben, wobei die Anpassungsgleichung durch I – J_c gegeben ist, worin J_c eine Rauschanpassungsmatrix ist.
In einer bevorzugten Ausführungsform umfasst das Verfahren darüber hinaus noch die Schritte: eine zusätzliche systematische Abweichung zwischen dem Trainingssprachsignal und einem Zielsprachsignal zu schätzen; die geschätzte zusätzliche systematische Abweichung mit einer Rauschanpassungsmatrix umzusetzen; und die umgesetzte zusätzliche systematische Abweichung im Kepstrum-Bereich dem Referenzmodell hinzuzufügen.
Nach einem zweiten Aspekt der vorliegenden Erfindung wird ein Rauschanpassungssystem für ein Spracherkennungssystem bereitgestellt, wobei das Anpassungssystem umfasst: einen Referenzmodellgenerator zum Generieren eines Referenzmodells basierend auf einem Trainingssprachsignal; ein Modul für Überlagerungsrauschen, welches Modul mit dem Referenzmodellgenerator gekoppelt ist, wobei das Modul für Überlagerungsrauschen im Referenzmodell Überlagerungsrauschen in einem Kepstrum-Bereich ausgleicht; und ein Modul für Faltungsrauschen, welches Modul mit dem Referenzmodellgenerator gekoppelt ist, wobei das Modul für Faltungsrauschen im Referenzmodell Faltungsrauschen im Kepstrum-Bereich ausgleicht, wobei das Modul für Faltungsrauschen durch ein Vorfaltungsmodul, um eine Vorfaltung zwischen dem Referenzmodell und einem Zielsprachsignal zu schätzen, ein Adaptionsmatrixmodul, um eine Kanalanpassungsmatrix basierend auf dem Trainingssprachsignal zu generieren, wobei das Vorfaltungsmodul die geschätzte Vorfaltung mit der Kanalanpassungsmatrix umsetzt, und ein Summiermodul gekennzeichnet ist, das mit dem Vorfaltungsmodul gekoppelt ist, um die umgesetzte Vorfaltung zum Referenzmodell im Kepstrum-Bereich zu addieren.
In einer bevorzugten Ausführungsform umfasst das Modul für Faltungsrauschen darüber hinaus noch: ein Modul für Gauß'sche Ausrichtung, um das Zielsprachsignal in Zielsprachsegmente und Zielruhesegmente zu zerlegen; wobei das Vorfaltungsmodul die Zielsprachsignale und Gauß'schen Daten, die dem Referenzmodell entsprechen, mittelt, wobei das Vorfaltungsmodul darüber hinaus einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten berechnet.
Die Erfindung wird nun rein beispielhaft mit Bezug auf die beigefügten Zeichnungen beschrieben:
1 stellt schematisch verschiedene Geräuschzustände dar, die zum Verständnis der Erfindung nützlich sind;
2 ist ein Datenflussdiagramm bei Trainings- sowie Erkennungsphasen, das eine gegenwärtig bevorzugte Implementierung der verbesserten umgesetzten Matrixanpassung darstellt;
3 ist eine logarithmisch-spektrale grafische Darstellung, die eine herkömmliche Jacobi-Anpassung mit einer Parallelmodellkombinationsanpassung (PMC-Anpassung) vergleicht;
die 4 und 5 sind α-Anpassungsparameterkurven, welche die Auswirkung verschiedener Werte von α auf die Erkennungsgenauigkeit zeigen;
6 ist ein Blockschema eines Rauschanpassungssystems nach der vorliegenden Erfindung;
7 ist ein Blockschema eines herkömmlichen Rauschmoduls nach einer Ausführungsform der vorliegenden Erfindung;
8 ist eine grafische Darstellung eines Filters, das dazu verwendet wird, den Effekt von Faltungsrauschen gemäß der vorliegenden Erfindung zu simulieren.
Das Problem, das die vorliegende Erfindung lösen soll, ist in 1 dargestellt. Beispielsweise sei angenommen, dass das automatische Spracherkennungssystem, wie bei 10 gezeigt, in einer lauten Umgebung wie etwa der Fahrgastzelle eines sich fortbewegenden Fahrzeugs arbeiten muss. Der in der Fahrgastzelle gemessene Geräuschpegel steigt typischerweise vom Rauschen A auf das Rauschen A' an, wenn das Fahrzeug schneller fährt. Obwohl der Geräuschpegel von A auf A' ansteigen kann, bleibt die Beschaffenheit oder Qualität des Rauschens größtenteils dieselbe. In einem fahrenden Fahrzeug verändert sich das Rauschspektrum zum Beispiel typischerweise auf eine vorhersagbare Weise, wenn das Fahrzeug schneller fährt. Windgeräusch steigt in der Amplitude an, behält aber seine größtenteils zufällige Eigenschaft weißen oder pinkfarbenen Rauschens bei. Fahrbahndeckengeräusche (das Geräusch von auf der Fahrbahndecke rollenden Reifen) steigt proportional zur Geschwindigkeitszunahme in der Frequenz an.
Unglücklicherweise kann in vielen tatsächlichen praktischen Anwendungen die Beschaffenheit und Qualität des Umgebungsgeräuschs nicht so problemlos vorhergesagt werden wie es die Bedingungen bei 10 in 1 implizieren würden. Betrachtet man beispielsweise ein tragbares Zellulartelefon, so kann dies in einem sich fortbewegenden Fahrzeug verwendet werden, wo es die Auswirkung der bei 10 dargestellten Geräusche erfährt; oder es kann an einer Straßenecke verwendet werden, wo komplett andere Verkehrsgeräusche im Überfluss vorhanden sind; oder es kann in einem Kaufhaus mit wieder einer ganz anderen Geräuschqualität verwendet werden. Diese weitgefächerte Verschiedenartigkeit bei unterschiedlichem Lärm ist in 1 bei 12 dargestellt, wo drei unterschiedliche Geräuschmuster schematisch als Geräusch A, Geräusch B und Geräusch C dargestellt wurden. Die Unvorhersagbarkeit der Geräuschqualität stellte bisher eine signifikante Herausforderung für automatische Spracherkennungssysteme dar, die in diesen verschiedenartigen geräuschvollen Umgebungen Leistung erbringen müssen.
2 stellt eine beispielhafte Ausführungsform der Erfindung in einer Spracherkennungsanwendung dar. Die Spracherkennungsanwendung umfasst einen modellbasierten Erkenner (Recognizer). Die Modelle werden während des Trainings entwickelt und dann später während der Erkennung eingesetzt. In 2 ist die Trainingsphase des Systems allgemein bei 20 dargestellt und die Erkennerphase bei 40. Eingegebene Sprache wird während der Trainingsphase unter Geräuschbedingung A bereitgestellt, wie bei 22 dargestellt ist. Die eingegebene Sprache wird dazu hergenommen, Sprachmodelle zu trainieren, wie bei Schritt 24 angegeben ist, wobei beispielhafte Sprachmodelle schematisch bei 26 dargestellt sind. Beim typischen Eingangssprachsignal gibt es Zeiten, während denen keine Sprache vorhanden ist, wie etwa vor dem Beginn des Sprechens oder nach dem Ende des Sprechens. Diese sprachfreien Abschnitte können dazu verwendet werden, Daten aufzuzeichnen, die für das Referenzrauschen N_a stehen, das mit der Geräuschbedingung A zusammenhängt. In 2 wird das Referenzrauschen N_a beim Block 28 gespeichert. Falls gewünscht kann das Rauschen modelliert werden (Hintergrundmodell), indem derselbe Trainingsvorgang verwendet wird wie zum Aufbau der Sprachmodelle 26.
Nach dem Trainieren der Sprachmodelle wird ein Satz transformierter Matrizes bei Schritt 30 berechnet und bei 32 gespeichert. Diese Matrizes werden während der Erkennung verwendet, um die Sprachmodelle so anzupassen, dass sie unter den Geräuschbedingungen, die während der Erkennung bestehen, eine bessere Leistung erbringen. Der zugrunde liegende Jacobi-Anpassungsprozess geht davon aus, dass die Qualität des Rauschens während der Erkennungszeit ungefähr dieselbe ist wie während der Trainingszeit. Andernfalls kann die klassische Jacobi-Anpassung nur suboptimale Ergebnisse erbringen.
Die verbesserte Anpassungstechnik basiert auf der Verwendung eines Satzes transformierter Matrizes, die für den anfänglichen Geräuschzustand N_a generiert werden. Die transformierten Matrizes werden dadurch berechnet, dass eine lineare oder nicht lineare Transformation auf den Satz der Jacobi-Matrizes angewandt wird, die für den anfänglichen Geräuschzustand N_a entwickelt wurden. Die gegenwärtig bevorzugten Ausführungsformen führen die (sowohl lineare als auch nicht lineare) Transformation durch, indem sie einen α-Anpassungsfaktor wie im nächsten Abschnitt dargelegt anwenden. Obwohl der α-Anpassungsfaktor gegenwärtig bevorzugt wird, kann auch ein Neuronennetz oder eine andere Komponente mit künstlicher Intelligenz zum Durchführen der Transformation verwendet werden.
Die Handhabung von Matrizes kann ein rechnerisch höchst aufwändiger Prozess sein. Ein beträchtlicher Aufwandsfaktor ist der Speicherbedarf, der zum Speichern aller Matrizes nötig ist. In einer typischen Ausführungsform können die Sprachmodelle für jeden Eintrag mehrfache verdeckte Markow-Modellzustände verwenden, wobei mit jedem Zustand mehrere Gauß'sche Dichten verbunden sind. Es gäbe somit eine Matrix für jede der Gauß'schen Dichten in jedem der Zustände. Dies könnte zu mehreren hundert Matrizes führen, die gespeichert werden müssten.
Die bevorzugte Ausführungsform führt einen Matrixzerlegungsschritt 36 durch, um einen Satz weniger komplexer Jacobi-Matrizes 38 zu generieren. Wie nachstehend noch ausführlicher erläutert wird, verwendet die gegenwärtig bevorzugte Zerlegungstechnik die Hauptkomponentenanalyse (PCA – Principal Component Analysis), um die weniger komplexen transformierten Matrizes aufzubauen.
Zum Zeitpunkt der Erkennung wird vom Benutzer bei Schritt 42 Eingabesprache bereitgestellt. Die Eingabesprache wird mit einem Geräuschzustand B assoziiert (der auch als Zielrauschen N_b bezeichnet wird), wie in 44 veranschaulicht ist. Wie zuvor erläutert, kann die herkömmliche Jacobi-Anpassungstechnik suboptimale Ergebnisse hervorbringen, wenn sich der Geräuschzustand B in der Qualität vom zum Trainingszeitpunkt verwendeten Geräuschzustand A unterscheidet. Wir haben jedoch herausgefunden, dass der α-Anpassungsprozess (der durchgeführt wird, wenn die Jacobi- Matrizes während des Trainings festgelegt werden) die Erkennungsleistung unter widrigen Geräuschbedingungen stark verbessert. Ergebnisse unserer Tests sind im nachstehend aufgeführten Beispiel angegeben.
Das Zielrauschen N_b, das in 2 bei 44 gezeigt ist, wird aus der Eingabesprache 42 extrahiert und dann dazu verwendet, den Unterschied zum Referenzrauschen N_a zu berechnen, wie bei 46 angegeben ist. Neue angepasste Sprachmodelle werden dann berechnet, indem der Rauschunterschied und die weniger komplexen transformierten Matrizes verwendet werden, die während des Trainings entwickelt wurden, wie bei 48 dargestellt ist. Die sich ergebenden angepassten Sprachmodelle 50 werden dann bei 52 hergenommen, um eine Spracherkennung an der Eingabesprache 42 durchzuführen, um den Erkennungsausgang 54 bereitzustellen.
Alpha-Anpassung
Um besser zu verstehen, wie unsere transformierten oder umgesetzten Matrizes funktionieren, ist es nützlich, die herkömmliche Jacobi-Anpassung zu kennen. Die herkömmliche Jacobi-Anpassung ist mit einer anderen Anpassungsform verwandt, die als Parallelmodellkombination (PMC – Parallel Model Combination) bekannt ist. Herkömmlicher Weise wird die Jacobi-Anpassung als Approximation für PMC verwendet, um die rechnerische Last zu reduzieren, die PMC erfordert. Die PMC ist rechnerisch höchst anspruchsvoll, weil für jede Dichte des Sprachmodells Durchschnittsvektoren in den spektralen Bereich transformiert werden müssen. Dann muss, nachdem der Durchschnittsvektor zum Zielrauschen addiert worden ist, der sich ergebende Vektor zurück in den Kepstrum-Bereich umgesetzt werden. Diese Doppeltransformation, die sich einer Matrixmultiplikation und zweier nichtlinearer Funktionen bedient, ist für gewöhnlich zu zeitaufwändig für eingebettete Systeme.
Traditionell wird die Jacobi-Anpassung als PMC-Approximation im Kepstrum-Bereich verwendet. Zu Vergleichszwecken beschreibt die unten wiedergegebene Gleichung 1 die PMC-Berechnung, worin der Großbuchstabe F die Matrix der diskreten Cosinus-Transformation (DCT) darstellt. Gleichung 2 stellt die herkömmliche Jacobi-Anpassungsberechnung dar, die als Approximation der rechnerisch aufwändigeren PMC-Berechnung verwendet wird.
GLEICHUNG 1

C(S + N) = F·log(exp(F–1·C(S))) + exp(F–1·C(N))

GLEICHUNG 2
Das Problem bei der Approximation der Jacobi-Anpassung besteht darin, dass sie nur dann von Bestand ist, wenn das Zielrauschen (das während des Systemgebrauchs praktisch auftritt) in der Qualität ähnlich dem Referenzrauschen ist (das während des Systemtrainings vorhanden ist). Die Art des Problems ist in 3 dargestellt, welche die Auswertung im logarithmisch-spektralen Bereich der Parameter lauter Sprache bei Geräuschzunahme grafisch darstellt. Speziell zeigen die grafischen Darstellungen, wie sich die PMC-Anpassung und die herkömmliche Jacobi-Anpassung im logarithmisch-spektralen Bereich vergleichen lassen. In 3 entspricht der schattierte Bereich auf der linken Seite dem Zustand, bei dem das Sprachsignal bei weitem stärker ist als das Rauschen, wohingegen der Bereich auf der rechten Seite Zuständen entspricht, bei denen das Rauschen stärker ist als das Sprachsignal. Befinden sich die Trainings- sowie Testumgebung im selben dieser beiden Bereiche, dann erbringen die Jacobi-Anpassung und PMC ähnliche Leistung. Befindet sich jedoch eine dieser beiden Umgebungen im mittleren Bereich oder liegt in einem anderen Bereich als die andere Umgebung, dann unterscheidet sich die Jacobi-Anpassung von der PMC und unterschätzt in Wirklichkeit immer die Anpassung der Modelle.
Wir haben entdeckt, dass die herkömmliche Jacobi-Anpassung durch eine lineare oder nichtlineare Transformation der Jacobi-Matrizes stark verbessert werden kann. Um die lineare oder nichtlineare Transformation durchzuführen, verwenden die bevorzugten Ausführungsformen einen Parameter, den wir α-Anpassungsparameter nennen. Die nachstehende Gleichung 3 stellt den gegenwärtig bevorzugten Einsatz des α-Anpassungsparameters zur Durchführung einer nichtlinearen Transformation dar. Gleichung 4 zeigt einen alternativen Einsatz des Parameters zur Durchführung einer linearen Transformation.
Wie vorstehend angemerkt, sind, obwohl die Verwendung eines α-Anpassungsparameters gegenwärtig bevorzugt wird, auch andere Transformationstechniken möglich. Zum Beispiel kann ein Neuronennetz oder eine andere Komponente mit künstlicher Intelligenz verwendet werden, um die Jacobi-Matrizes für den Ausgangsgeräuschzustand zu transformieren. Eine andere Transformationstechnik läuft darauf hinaus, einen ersten α-Anpassungsparameter oder -faktor auf die Eingangssprache und einen zweiten α-Anpassungsparameter oder -faktor auf das Rauschen anzuwenden. Andere Varianten sind auch möglich.
GLEICHUNG 3
GLEICHUNG 4
Mit Bezug auf Gleichung 3 funktioniert der α-Anpassungsparameter wie folgt. Wenn das Referenzrauschen nahe an Null und α nicht zu groß ist, dann sind die beiden (bei der x-Koordinate N bzw. αN berechneten) Tangenten horizontal. Wenn das Referenzrauschen sehr groß ist, werden die beiden Tangenten der Linie y = x entsprechen. Wenn das Referenzrauschen zum mittleren Bereich von 3 gehört, wird das neue Gefälle der Tangente größer sein als es die herkömmliche Jacobi-Anpassungskurve erbracht hätte.
Der Einsatz des α-Anpassungsparameters in Gleichung 3 führt zu einer nichtlinearen Transformation der Matrizes. Zähler sowohl als auch Nenner werden mit dem Parameter multipliziert, wodurch ein nichtlinearer Transformationseffekt entsteht. In Gleichung 4 wird der α-Anpassungsparameter mit dem sich ergebenden Zähler-/Nennerquotienten gegenmultipliziert, wodurch ein linearer Transformationseffekt entsteht.
In beiden Fällen besteht der Haupteffekt des α-Anpassungsparameters darin, den zu den Sprachmodellen hinzukommenden systematischen Anpassungsfehler zu verstärken. Dies ist nützlich, weil es den Nachteil der herkömmlichen Jacobi-Anpassung berichtigt, die Auswirkung von Rauschen zu unterschätzen. In einem späteren Abschnitt dieses Dokuments werden wir noch unsere Versuchsergebnisse vorstellen, welche die Verbesserungen zeigen, die mit der Verwendung des α-Anpassungsparameters möglich sind.
Auswahl des α-Anpassungsparameters
Theoretisch hängt der optimale Wert des α-Anpassungsparameters von der Umgebung ab: der Wert für α sollte umso größer sein, je größer der Versatz zwischen Zielrauschen und Referenzrauschen ist. Wir haben jedoch entdeckt, dass der α-Anpassungsparameter bei weitem stabiler ist als es die Theorie hätte ahnen lassen. Wenn er zum Generieren transformierter Matrizes als Ersatz für die herkömmliche Jacobi-Anpassung verwendet wird, ist die Schwankung bei der Spracherkennungsgenauigkeit für geringe Werte von α niedrig, steigt an für mittlere Werte von α, und wird wieder niedrig, wenn α über einen bestimmten Punkt hinaus zunimmt. Dieses Phänomen ist auf den Verlauf der Kurve von 3 zurückzuführen. Konkret wird das Gefälle der Tangente nur zwischen 0 und 1 schwanken, wie auch immer der Wert von α auch sein mag.
Um diesen Punkt zu klären haben wir eine Versuchsreihe für Codeelemente in widrigen Umgebungen durchgeführt. Zwölf kontextunabhängige Modelle von Codeelementen wurden aufgebaut: Zahlen von 1 bis 9 plus Modelle für „o" und „Null", plus ein Modell für Stille bzw. Ruhe. Die Stille wurde durch ein verdecktes Markow-Modell (HMM) mit fünf Zuständen modelliert. Die übrigen Modelle verwendeten fünfzehn Zustände. Jeder Zustand der HMMs nutzt vier Gauß'sche Dichten. Der zum Training der Modelle verwendete Trainingssatz umfasste 3803 Sequenzen von Codeelementen, die von 80 Sprechern gesprochen wurden. Der Trainingssatz wurde unter Laborbedingungen ohne Geräusch aufgezeichnet. Die 4 und 5 stellen die Genauigkeitsschwankung dar, wenn sich α in einem Bereich von 1 bis 4 verändert. Die Daten wurden basierend auf sechs unterschiedlichen akustischen Umgebungen generiert:

• Dem Bewertungskörper, der unter Reinheitsbedingungen aufgezeichnet wird.
• Demselben Körper, zusätzlich mit Autogeräusch mit einem Rauschabstand von 10 dB.
• Demselben Körper, zusätzlich mit Autogeräusch mit einem Rauschabstand von 0 dB.
• Demselben Körper, zusätzlich mit Weißrauschen mit einem Rauschabstand von 15 dB.
• Dem Versuchskörper, aufgezeichnet in einem Auto bei 30 Meilen/h.
• Einem weiteren Versuchskörper, aufgezeichnet in einem Auto bei 60 Meilen/h.

Mit Bezug auf die 4 und 5 ist zu sehen, dass, wie auch immer die akustische Umgebung sein mag, die Genauigkeitsschwankung für verschiedene Werte von α im Bereich von α = 2,4 bis α = 3,6 sehr gering ist. Dies zeigt, dass α einen stabilen Bereich hat, der sich in einer praktischen Ausführungsform der Erfindung geeignet nutzen lässt. Obwohl wir gegenwärtig einen α-Anpassungsparameter zwischen ca. 2,4 bis 3,6 bevorzugen, ist dies lediglich repräsentativ für einen möglichen stabilen Bereich. Allgemein können andere Werte von α mit vorteilhaften Ergebnissen verwendet werden. Anders ausgedrückt ist die Abnahme der Genauigkeit zwischen dem wirklichen „optimalen" Wert von α und irgendeinem anderen Wert von α, der in einem bestimmten Bereich (z.B. 2,4–3,6) gewählt werden kann, sehr gering. Unsere Daten zeigen, dass die Abnahme der Genauigkeit vom „optimalen" Punkt weniger als drei Prozent beträgt. Dies macht aus unserer verbesserten Jacobi-Anpassung ein sehr robustes Verfahren.
Reduzierung der Anzahl an Dimensionen zur Senkung des rechnerischen Aufwands
Wie vorstehend festgestellt, erlegt die Jacobi-Anpassung, obwohl sie rechnerisch weniger aufwändig ist als PMC, dem Erkennungssystem, insbesondere bei eingebetteten Systemen, immer noch eine ziemlich zu Buche schlagende Belastung auf.
Wir haben nämlich festgestellt, dass jede transformierte Matrix durch die folgende Gleichung 5 ausgedrückt werden kann: GLEICHUNG 5
eine Diagonalmatrix mit den Dimensionen NFilt × NFilt ist, worin Nfilt die Anzahl der Filter ist, die in der spektralen Filterbank verwendet werden.
Auf diese Weise kann jede transformierte Matrix als die gewichtete Summe von Nfilt kanonischen Matrizes ausgedrückt werden, die tatsächlich eine Basis des Raums sind, zu dem die Jacobi-Matrizes gehören. Diese kanonischen Matrizes sind definiert durch: Ji = F·diag(i)·F–1 worin diag(i) auf eine Nfilt × Nfilt Diagonalmatrix mit überall 0 aber 1 an der Position i verweist.
Jede transformierte Matrix kann somit ausgedrückt werden als:
GLEICHUNG 6
Somit genügt es, anstatt Nd Matrizes zu speichern (wobei Nd die Gesamtanzahl von Dichten in allen Sprachmodellen ist), Nfilt kanonische Matrizes plus Nd mal Nfilt Koeffizienten γ_i zu speichern. Dies senkt den Speicherbedarf erheblich.
Dennoch kann die Lösung weiter verbessert werden, denn sie erhöht die Zeitkomplexität des Algorithmus: wenn nämlich all die transformierten Matrizes gespeichert werden, kann Gleichung 2 direkt auf alle Dichten angewandt werden, was auf Kosten des Aufwands einer Nd-Matrixmultiplikation geht.
Wird die zweite Lösung gewählt, wird der rechte Teil der Gleichung 2 zu:
In dieser Gleichung besteht der Aufwand in Nfilt Matrixadditionen und einer Nfilt Matrixmultiplikation mit einem Skalar: dies muss für jede Dichte wiederholt werden. Der Gesamtaufwand beträgt somit 2·Nd·Nfilt Matrixoperationen.
Wenn keine zusätzliche Rechnerzeit aufgewendet werden soll, muss die Anzahl der kanonischen Matrizes reduziert werden.
Die gegenwärtig bevorzugte Technik zum Reduzieren der Dimension eines Raumes besteht in der Durchführung einer Hauptkomponentenanalyse (PCA) an dem Satz von Elementen, die zu diesem Raum gehören. Wir haben deshalb zuerst all die Vektoren
berechnet und eine Einzelwertzerlegung an diesem Satz Vektoren vorgenommen. Die sich ergebenden kanonischen Vektoren wurden zur Berechnung der Nfilt kanonischen Jacobi-Matrizes
verwendet, die in der absteigenden Reihenfolge ihrer Eigenwerte sortiert wurden.
Die Verwendung der wie vorstehend beschriebenen Hauptkomponentenanalyse kann eine erhebliche Verbesserung bei der Reduzierung der rechnerischen Belastung erbringen. Experimente haben gezeigt, dass es möglich ist, die Anzahl verwertbarer kanonischer Matrizes auf fünf Matrizes zu senken. Es kann sogar eine weitere Reduktion möglich sein. Die Reduzierung der Anzahl von Matrizes senkt den Platzbedarf sowie die Rechnerzeit, die zur Durchführung der Anpassung benötigt wird. Zum besseren Verständnis der Verbesserung, die durch die Reduzierung der Anzahl von Dimensionen (Hauptkomponentenanalyse) erzielt wird, vergleicht Tabelle I den Anpassungsprozess für die transformierte Matrix mit und ohne dabei die Hauptkomponentenanalyse einzusetzen.
TABELLE 1
In der obigen Tabelle 1 gibt die erste Spalte die Anzahl von Dimensionen an, d.h. die Anzahl der kanonischen Matrizes. Die nächste Spalte gibt den verwendeten α-Anpassungswert an. Die übrigen Spalten geben den Prozentsatz der Erkennungsgenauigkeit und die damit verbundene erforderliche Rechnerzeit (die kumulierte Zeit der Anpassung über die gesamte Datenbank in Mikrosekunden) für die folgenden drei Umgebungsbedingungen an: rein (kein Geräusch), Fahrzeug bei 30 Meilen pro Stunde und Fahrzeug bei 60 Meilen pro Stunde.
Versuchsergebnisse
Die vorstehend beschriebenen Rauschanpassungstechniken wurden unter verschiedenen Geräuschbedingungen getestet. Die Ergebnisse unserer Tests sind in diesem Abschnitt wiedergegeben. Um das Anpassungssystem zu testen wurde ein Spracherkenner für ein Fahrzeugnavigationssystem verwendet. Natürlich sind die hier beschriebenen Anpassungstechniken nicht auf Fahrzeugnavigation oder irgendeine andere Erkennungsaufgabe beschränkt. Fahrzeugnavigation wurde für unsere Tests gewählt, weil die Geräuschbedingungen in einem fahrenden Fahrzeug mit unterschiedlichen Fahrzeuggeschwindigkeiten ziemlich stark schwanken können. Deshalb wurde ein Test in einer Fahrzeugumgebung als gutes Maß für die Fähigkeiten des Anpassungssystems gewählt.
Der Versuchsaufbau für diese Experimente ist derselbe wie vorstehend beschrieben. Es wurden drei Testsätze aufgebaut: (1) mit einem Bewertungssatz, der aus 462 Sequenzen von Codeelementen bestand, die (anders als beim Trainingssatz) von 20 Sprechern gesprochen wurden, die unter denselben Bedingungen wie den im Trainingssatz verwendeten aufgezeichnet wurden; (2) bestehend aus 947 Sequenzen von Codeelementen, die von verschiedenen Sprechern gesprochen und in einem Auto bei 30 Meilen pro Stunde aufgezeichnet wurden; (3) bestehend aus 475 Sequenzen von fünf Codeelementen, die von denselben Sprechern gesprochen aber im Auto bei 60 Meilen pro Stunde aufgezeichnet wurden.
Die Erkennung wurde unter Verwendung einer Einfachschleifengrammatik mit gleichen Übergangsmöglichkeiten für alle Zahlen („o"- und „Null"-Modelle mit derselben Zahl) und Stille durchgeführt. Die Genauigkeit wurde an zehn Zahlen berechnet, nachdem die Sprachpausen in den erkannten Sätzen entfernt wurden.
Für dieses erste Experiment wurde das Signal zu einer Sequenz von Vektoren von neun PLP-Koeffizienten (einschließlich Restfehler) plus neun Delta-Koeffizienten codiert. Wenn sie ausgeführt wurde, wurde die Anpassung nur auf die Mittelwerte der ersten neun statischen Koeffizienten angewandt. Zur Anpassung wurde das Zielrauschen unter Verwendung der ersten 30 Rahmen jedes Satzes berechnet.
Die in Tabelle II unten wiedergegebenen Ergebnisse vergleichen die Leistung der verdeckten Markow-Modelle (HMM) ohne Anpassung mit den Ergebnissen, die unter Verwendung der Parallelmodellkombination (PMC) und der herkömmlichen Jacobi-Anpassung (JA) erhalten wurden. Tabelle II zeigt somit, wie sowohl die Parallelmodellkombination als auch die Jacobi-Anpassung die Erkennungsleistung beim Vorhandensein von Rauschen verbessern. Tabelle II zeigt aber nicht die Leistung der Anpassung transformierter Matrizes unter Verwendung der α-Anpassung. Diese Tabelle ist dargelegt, um als Grundlinie zu dienen, vor deren Hintergrund die Anpassungstechnik transformierter Matrizes verständlicher wird.
TABELLE II
TABELLE III
Tabelle III zeigt die Vergleichsleistung der Parallelmodellkombination sowie der Jacobi-Anpassung mit und ohne den alpha-Faktor. In Tabelle III ist die transformierte Matrixanpassung mit α-Anpassung als „α-TM" bezeichnet. Zu Vergleichszwecken wurde der alpha-Faktor auch in der Parallelmodellkombinationstechnik angewendet, wie in der mit „α-PMC" bezeichneten Reihe gezeigt ist.
Beim Vergleich der Ergebnisse in Tabelle III ist festzuhalten, dass die verbesserte transformierte Matrixanpassung (α-TM) beim Vorhandensein von Rauschen eine deutlich bessere Leistung erbringt als die standardmäßige Jacobi-Anpassung (JA). Während der alpha-Faktor die Leistung der PMC-Anpassung nicht wesentlich verschlechterte, brachte er aber auch keine signifikante Verbesserung.
Die Ergebnisse unserer Experimente zeigen, dass die Technik der transformierten Matrixanpassung, die den α-Anpassungsfaktor einsetzt, erheblich bessere Resultate ergibt als die standardmäßige Jacobi-Anpassung. Da darüber hinaus die transformierte Matrixanpassung an sich rechnerisch weniger aufwändig ist als PMC, wird sie zu einem idealen Kandidaten für eingebettete Erkennungssysteme, die keine große Verarbeitungsleistung oder keinen großen Speicher haben. Solche Anwendungen umfassen beispielsweise Zellulartelefonerkennungs- und Fahrzeugnavigationssysteme und andere Verbraucherprodukte.
Zusätzlich können durch die hier beschriebenen Techniken zum Reduzieren der Anzahl der Dimensionen noch weitere Verbesserungen in der Systemleistung gewonnen werden. Kombiniert mit der transformierten Matrixanpassung ist das Ergebnis ein kompaktes, effizientes und robustes Anpassungssystem, das in vielen Erkennungsanwendungen gute Dienste leisten wird.
Weitere Ausführungsformen
Es ist klar, dass, während die vorstehende Erläuterung die Vorteile der α-Jacobi-Anpassung für Überlagerungsrauschen demonstriert, ähnliche Vorteile auch im Hinblick auf Faltungsrauschen erzielt werden können. Zu Beginn ist es wichtig, festzuhalten, dass in der Praxis alle Sprachsignale nicht nur durch Überlagerungsrauschen, sondern auch durch Faltungsrauschen (oder Kanalrauschen) verfälscht werden. Die klassische Gleichung, die das sich ergebende Signal im spektralen Bereich darstellt, ist folgende: S' = HS + Nworin S die gesprochene Sprache, S' das sich ergebende Signal, H das Kanalrauschen und N das Überlagerungsrauschen ist. In den Kepstrum-Bereich überschrieben, wird diese Gleichung zu: C(S') = C(HS + N)
Wenn man H_tar und N_tar als Zielfaltungs- und Überlagerungsrauschen (d.h. zum Testzeitpunkt geschätzt) definiert und H_ref und N_ref als Referenzfaltungs- und Überlagerungsrauschen (d.h. geschätzt zum Trainingszeitpunkt), dann kann man berechnen:
Die Jacobi-Approximation (oder α-Jacabi-Approximation) kann dann auf den zweiten Term der Summe angewandt werden:

die Rauschanpassungsmatrix des Sprachvektors S bezeichnet.
Somit ergibt sich
GLEICHUNG 7

C(HtarS + Ntar) = (1 – Jc)(C(Htar) – C(Href) + C(HrefS + Nref) + Jc(C(Ntar) – C(Nref))

Der erste Term (1 – Jc)(C(Htar) – (C(Href))stellt die Vorfaltung (C(Htar) – C(Href))dar, die durch eine Kanalanpassungsmatrix (1 – Jc)transformiert wird.
Es ist wichtig, festzuhalten, dass die Transformation von der Vorfaltung ist, wie sie sich im Kepstrum-Bereich darstellt.
Der dritte Term Jc(C(Ntar) – C(Nref))stellt die hinzukommende systematische Abweichung dar, die durch eine Rauschanpassungsmatrix J_c transformiert wurde. Der zweite Term C(HrefS + Nref)stellt ein Modell des Referenzsignals im Kepstrum-Bereich dar.
Nunmehr ist mit Bezug auf 6 ein Rauschanpassungssystem 60 gezeigt, das zur Durchführung einer Rauschanpassung in einem (nicht gezeigten) Spracherkennungssystem in der Lage ist. Allgemein verwendet das Rauschanpassungssystem 60 ein von einem Sprecher 62 in einer Trainingsumgebung 64 kommendes Trainingssprachsignal 75 und ein vom Sprecher 62 in einer Erkennungsumgebung 66 kommendes Zielsprachsignal 79. Es ist gezeigt, dass das Trainingssprachsignal 75 eine Komponente Faltungsrauschen H_ref aufweist, die sich aus dem Trainingskanal 72 ergibt, und eine Komponente Überlagerungsrauschen N_ref, die in das Summierglied 74 eingeht. Ähnlich besitzt das Zielsprachsignal 79 eine Komponente Faltungsrauschen H_tar, die sich aus dem Erkennungskanal 76 ergibt, und eine Komponente Überlagerungsrauschen N_tar, die in das Summierglied 78 eingeht.
Die Kanäle 72, 76 haben typischerweise verschiedene Signalverarbeitungsvorrichtungen wie Mikrofone, Telefonleitungen, usw. eingebaut, wobei die Schwierigkeit mit der Rauschanpassung dann auftritt, wenn der Erkennungskanal 76 andere Eigenschaften hat als der Trainingskanal 72. In solchen Fällen unterscheidet sich die Komponente Zielfaltungsrauschen H_tar von der Komponente Referenzfaltungsrauschen H_ref. Ein primäres Ziel der vorliegenden Erfindung ist es, das Referenzmodell so anzupassen, dass es für eine solche Vorfaltung verantwortlich ist.
Das Anpassungssystem 60 besitzt einen Referenzmodellgenerator 68, ein Modul 80 für Überlagerungsrauschen und ein Modul 82 für Faltungsrauschen. Der Referenzmodellgenerator 68 generiert ein Referenzmodell 70 basierend auf dem Trainingssprachsignal 75. Das Referenzmodell 70 kann ein HMM, ein Gauß'sches Mischmodell (GMM) oder irgend ein anderes Sprachsignal sein, das sich zu Zwecken der vorliegenden Erfindung trainieren lässt. Es ist zu sehen, dass das Modul 80 für Überlagerungsrauschen mit dem Referenzmodellgenerator 68 verbunden ist und im Referenzmodell 70 Überlagerungsrauschen im Kepstrum-Bereich ausgleicht. Das Modul 82 für Faltungsrauschen ist mit dem Referenzmodellgenerator 68 verbunden und gleicht im Referenzmodell 70 Faltungsrauschen im Kepstrum-Bereich aus.
Obwohl Gleichung 7 beschreibt, wie die Modelle für sowohl Überlagerungs- als auch Kanalrauschen anzupassen sind, wird doch eine Schätzung von C(Htar) – C(Href)benötigt. Solch eine Schätzung wird für gewöhnlich dadurch berechnet, dass der Unterschied zwischen den Kepstrum-Vektoren der Ziel- und Referenzsprachsignale 79, 75 gemittelt wird. Diese Schätzung wird auch im hinlänglich bekannten Algorithmus Cepstral Mean Subtraction (CMS) eingesetzt, der in M. Westphal, „The use of cepstral means in conversational speech recognition", EUROSPEECH ,97, Rhodos, Griechenland, 1997 beschrieben ist. Wir nehmen nachstehend auf den in Gleichung 7 definierten Ausgleichsalgorithmus durch den Begriff „Cepstral Mean Adaptation" oder CMA Bezug. Tatsächlich ist CMA in dem Sinne CMS sehr ähnlich, als dieser Algorithmus versucht, die Mittelwerte der Referenz- und Testsignale einander anzupassen. Nichtsdestoweniger bestehen mehrere Unterschiede zwischen diesen Verfahren.

• CMS wird direkt auf das Signal angewendet, wohingegen CMA auf die Modelle angewendet wird;
• CMS wird sowohl auf die Referenz- als auch Zielsignale angewendet, wohingegen CMA nur auf die Referenzmodelle angewendet wird;
• CMS gleicht nur das Faltungsrauschen aus, wohingegen CMA auch Überlagerungs- sowie Kanalrauschen berücksichtigt.

Nunmehr ist mit Bezug auf 7 ein Lösungsansatz gezeigt, um Faltungsrauschen im Referenzmodell für Faltungsrauschen im Kepstrum-Bereich (als Teil des gemeinsamen Ausgleichs) auszugleichen. Auf diese Weise stellt das Modul 82 für Faltungsrauschen eine Schätzung der Vorfaltung bereit und gleicht das Referenzmodell mit dieser Schätzung an. Das Ergebnis ist ein faltungsangepasstes Modell 96. Das faltungsangepasste Modell 96 kann dann durch das Modul 80 für Überlagerungsrauschen bearbeitet werden, um im Referenzmodell 70 sowohl Überlagerungs- als auch Faltungsrauschen voll auszugleichen. Im Speziellen umfasst eine Ausführungsform des Moduls 82 für Faltungsrauschen ein Vorfaltungsmodul 84, um die Vorfaltung zwischen dem Referenzmodell 70 und dem Zielsprachsignal 79 zu schätzen. Ein Anpassungsmatrixmodul 86 generiert eine Kanalanpassungsmatrix 88 basierend auf dem Trainingssprachsignal. Die Kanalanpassungsmatrix 88 ist im Wesentlichen eine modifizierte Rauschanpassungsmatrix 1 – J_c. Es ist wichtig festzuhalten, dass J_c entweder eine standardmäßige Jacobi-Matrix oder eine wie vorstehend beschriebene α-Jacobi-Matrix sein kann. Das Vorfaltungsmodul 84 setzt die geschätzte Vorfaltung mit der Kanalanpassungsmatrix 88 um. Das Modul 82 für Faltungsrauschen umfasst darüber hinaus ein Summiermodul 90, das mit dem Vorfaltungsmodul 84 gekoppelt ist, um die umgesetzte Vorfaltung zum Referenzmodell 70 im Kepstrum-Bereich zu addieren.
Berechnung der Vorfaltung
Um die Vorfaltung zu schätzen, ist davon auszugehen, dass die Gauß'sche Ausrichtung zwischen den Referenzmodellen und dem Signal bekannt ist. Es werden zwei mögliche Lösungsansätze zur Berechnung der Vorfaltung beschrieben, die auf dieser Annahme beruhen:
I. Erster Lösungsansatz
Wenn angenommen wird, dass H_tarS ≻ ≻ N_tar, dann ist es möglich, die Segmente des Signals zu mitteln, die Spracheinheiten entsprechen, um
zu erhalten.
Ähnlich sollte es möglich sein, den Term Ĉ(Sref)zu berechnen, indem dasselbe Referenzsignal, d.h. reine Signal, gemittelt wird. Allerdings ist dieses Signal im Allgemeinen nicht verfügbar, da nur das geräuschhaltige Signal (Zielsignal) bekannt ist. Dann muss dieses Referenzsignal geschätzt werden. Solch eine Schätzung kann mit dem Einsatz einer Gauß'schen Ausrichtung zwischen den Modellen und dem Signal erhalten werden. Deshalb stellt für jeden Rahmen die Gauß'sche Dichte, die mit dem Zielrahmen C(H_tarS_t) ausgerichtet ist, den entsprechenden Referenzrahmen C(H_refS_t) dar. Dann ist es möglich,
zu berechnen.
Indem die beiden vorstehenden Gleichungen subtrahiert werden, wird
GLEICHUNG 8

C(Htar) – C(Href) = Ĉ(Star) – Ĉ(Sref)erhalten.

Um in der Praxis die systematische Kanalabweichung zu berechnen, wie sie durch obige Gleichung angegeben ist, braucht man die Gauß'sche Ausrichtung des aktuellen Satzes, wie er vom Erkenner wiedergegeben wird. Um den Einsatz eines Zweifachdurchlauferkennungssystems zu vermeiden, haben wir uns dazu entschlossen, den aktuellen Satz mit der systematischen Anpassungsabweichung, die auf der vorherigen berechnet wurde, anzupassen. Dies macht das System für eine Veränderung der Umgebung empfindlicher, als dies beispielsweise der Fall wäre, wenn ein anderer Sprecher den vorhergehenden und aktuellen Satz aussprechen würde. Dennoch besteht der Vorteil dieser Approximation darin, dass die Anpassung immer noch sehr schnell ist und nur einen einzelnen Erkennungsdurchlauf nötig macht.
Somit kann das Modul 82 für Faltungsrauschen darüber hinaus ein Modul 92 für Gauß'sche Ausrichtung 92 umfassen, um das Zielsprachsignal in Zielsprachsegmente und Zielruhesegmente zu zerlegen. Während die Segmentierungsfunktion typischerweise im Spracherkenner enthalten ist, wird sie hier zu Erläuterungszwecken als Teil des Moduls 82 für Faltungsrauschen beschrieben. Die besondere Anordnung vieler der hier beschriebenen Komponenten kann nämlich variieren, ohne dass dabei von der Beschaffenheit und dem Umfang der Erfindung abgewichen würde. Das Vorfaltungsmodul 84 mittelt deshalb die Zielsprachsignale und Gauß'schen Daten, die dem Referenzmodell 70 entsprechen. Das Vorfaltungsmodul berechnet darüber hinaus einen Unterschied zwischen dem Mittelwert für die Gauß'schen Daten und dem Mittelwert für die Zielsprachsegmente. Das Ergebnis ist eine Vorfaltung C(Htar) – C(Href)die nach der Transformation durch die Kanalanpassungsmatrix zum Referenzmodell 70 im Kepstrum-Bereich addiert werden kann.
II. Lösungsansatz
Eine bevorzugte, inkrementelle Lösung zum Schätzen der Vorfaltung ermöglicht es, das Zielrauschen N_tar zu berücksichtigen. Dieses Verfahren nutzt eine vorhergehende Schätzung der Vorfaltung (die beispielsweise am vorherigen Satz berechnet wird) und verbessert diese Schätzung, indem sie das Signal des aktuellen Satzes verwendet. Die Vorfaltung wird deshalb inkrementell von einem Satz zum nächsten geschätzt und verbessert sich wahrscheinlich so lange, solange sich der Sprecher oder die Umgebung nicht verändert.
Das Mitteln des Signals der Sprachsegmente des aktuellen Satzes führt zu:
Am vorhergehenden Satz wurden die angepassten Modelle
bereits geschätzt. Es ist dann möglich, den Mittelwert der Referenzrahmen unter Verwendung dieses Modellsatzes zu berechnen:
Eine Subtraktion der beiden vorstehenden Gleichungen ergibt die systematische Kanalabweichung, die durch Gleichung 8 dargestellt ist. Mit diesem Verfahren müssen wir annehmen, dass die Ziel- und Referenzkanäle des ersten Satzes identisch sind.
EXPERIMENTELLE ERGEBNISSE
Nunmehr ist mit Bezug auf 8 die Form des Filters, das zur Simulierung des Effekts eines Faltungsrauschens zu Versuchszwecken verwendet wird, in der grafischen Darstellung 94 gezeigt. Der vorstehend beschriebene zweite Lösungsansatz wurde für die folgenden Simulationen gewählt.
Tabelle 4 demonstriert die Ergebnisse der vorliegenden Erfindung, wenn sowohl Überlagerungs- als auch Kanalrauschanpassung verwendet werden.
TABELLE IV
Das in der letzten Zeile von Tabelle 4 wiedergegebene Ergebnis ist die Genauigkeit der vorliegenden Erfindung ohne irgendein Kanalausgleichsverfahren an der anfänglichen Datenbank (kein Ausgleich des Faltungsrauschens). Diese Genauigkeit ist somit die Obergrenze, die erreicht werden kann, wenn ein „ideales" Kanalausgleichsverfahren eingesetzt wird. Die Ergebnisse zeigen, dass unser System nicht weit von der besten erzielbaren Genauigkeit entfernt ist, was die Approximationen, die während der Entwicklung dieses Verfahrens durchgeführt wurden, als gültig untermauert.
Es ist wichtig, festzuhalten, dass der vorstehende zusammengefasste Lösungsansatz sich vieler der Vorteile erfreut, die mit der α-Jacobi-Anpassung verbunden sind, die nur für den Ausgleich von Überlagerungsrauschen beschrieben wurde. Wie bereits erläutert, wurzelt die α-Jacobi-Anpassung im Jacobi-Anpassungsalgorithmus. Die α-Jacobi-Anpassung unterscheidet sich durch die Art und Weise von der Jacobi-Anpassung, mit der die Approximation durchgeführt wird: letztere nutzt die lineare Funktion, die PMC unter Trainingsbedingungen am besten approximiert, wohingegen erstere eine lineare Funktion experimentell berechnet, die PMC für einen ausgewählten Satz möglicher Testbedingungen besser approximiert. Im Ergebnis erbringt die α-Jacobi-Anpassung bei realen Testbedingungen eine bessere Leistung als die Jacobi-Anpassung.
Wir haben dann die Zeit- und Speicherkomplexität dieses Algorithmus um mehr als die Hälfte gesenkt, indem unter Verwendung der Hauptkomponentenanalyse PCA die Anzahl erforderlicher Transformationsmatrizes reduziert wurden, ohne dabei die Erkennungsergebnisse zu verschlechtern.

Claims

Verfahren zum Durchführen von Rauschanpassung für Spracherkennung, wobei das Verfahren die folgenden Schritte umfasst: ein Referenzmodell (70) basierend auf einem Trainingssprachsignal (75) zu generieren; im Referenzmodell (70) Überlagerungsrauschen im Kepstrum-Bereich auszugleichen; und im Referenzmodell Faltungsrauschen im Kepstrum-Bereich auszugleichen, dadurch gekennzeichnet, dass eine Vorfaltung zwischen dem Referenzmodell (70) und einem Zielsprachsignal (79) geschätzt wird; die geschätzte Vorfaltung mit einer Kanalanpassungsmatrix (88) umzusetzen; und die umgesetzte Vorfaltung im Kepstrum-Bereich zum Referenzmodell hinzuzufügen.
Verfahren nach Anspruch 1, darüber hinaus noch die folgenden Schritte umfassend: Gauß'sche Daten, die dem Referenzmodell entsprechen, zu mitteln; Zielsprachsegmente, die dem Zielsprachsignal entsprechen, zu mitteln; und einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten zu berechnen.
Verfahren nach Anspruch 2, darüber hinaus noch den folgenden Schritt umfassend, jeden Satz des Trainingssprachsignals mit Daten aus einem vorhergehenden Satz anzupassen.
Verfahren nach Anspruch 1, darüber hinaus noch den folgenden Schritt umfassend, die geschätzte Vorfaltung mit einer modifizierten Kanalanpassungsmatrix zu multiplizieren.
Verfahren nach Anspruch 4, bei dem die Kanalanpassungsmatrix eine Anpassungsmatrix bekommt, die durch I – J_c gegeben ist, worin J_c eine Rauschanpassungsmatrix ist.
Verfahren nach Anspruch 4, bei dem die Anpassungsmatrix durch eine Anpassungsgleichung gegeben ist, wobei die Anpassungsgleichung durch
gegeben ist, worin C den Kepstrum-Bereich, H_ref das Faltungsrauschen im Trainingssprachsignal, S den Sprachvektor und N_ref das Überlagerungsrauschen im Trainingssprachsignal darstellt.
Rauschanpassungssystem für ein Spracherkennungssystem, wobei das Anpassungssystem umfasst: einen Referenzmodellgenerator (68) zum Generieren eines Referenzmodells (70) basierend auf einem Trainingssprachsignal (75); ein Modul (80) für Überlagerungsrauschen, welches Modul mit dem Referenzmodellgenerator (68) gekoppelt ist, wobei das Modul für Überlagerungsrauschen im Referenzmodell Überlagerungsrauschen in einem Kepstrum-Bereich ausgleicht; und ein Modul (82) für Faltungsrauschen, welches Modul mit dem Referenzmodellgenerator (68) gekoppelt ist, wobei das Modul für Faltungsrauschen im Referenzmodell Faltungsrauschen im Kepstrum-Bereich ausgleicht, wobei das Modul für Faltungsrauschen durch ein Vorfaltungsmodul (84), um eine Vorfaltung zwischen dem Referenzmodell (70) und einem Zielsprachsignal (75) zu schätzen, ein Adaptionsmatrixmodul (86), um eine Kanalanpassungsmatrix (88) basierend auf dem Trainingssprachsignal (75) zu generieren, wobei das Vorfaltungsmodul (84) die geschätzte Vorfaltung mit der Kanalanpassungsmatrix (88) umsetzt, und ein Summiermodell (90) gekennzeichnet ist, das mit dem Vorfaltungsmodul (84) gekoppelt ist, um die umgesetzte Vorfaltung zum Referenzmodell (70) im Kepstrum-Bereich zu addieren.
Rauschanpassungssystem nach Anspruch 7, bei dem das Modul für Faltungsrauschen darüber hinaus noch umfasst: ein Modul für Gauß'sche Ausrichtung, um das Zielsprachsignal in Zielsprachsegmente und Zielruhesegmente zu zerlegen; wobei das Modul für Vorfaltung die Zielsprachsignale und Gauß'schen Daten, die dem Referenzmodell entsprechen, mittelt, wobei das Vorfaltungsmodul darüber hinaus einen Unterschied zwischen dem Mittelwert bei den Gauß'schen Daten und dem Mittelwert bei den Zielsprachsegmenten berechnet.