DE60100637T2 - Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung - Google Patents

Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung Download PDF

Info

Publication number
DE60100637T2
DE60100637T2 DE60100637T DE60100637T DE60100637T2 DE 60100637 T2 DE60100637 T2 DE 60100637T2 DE 60100637 T DE60100637 T DE 60100637T DE 60100637 T DE60100637 T DE 60100637T DE 60100637 T2 DE60100637 T2 DE 60100637T2
Authority
DE
Germany
Prior art keywords
matrices
noise
jacobi
transformation
adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60100637T
Other languages
English (en)
Other versions
DE60100637D1 (de
Inventor
Christophe Cerisara
Luca Rigazio
Robert Boman
Jean-Claude Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE60100637D1 publication Critical patent/DE60100637D1/de
Publication of DE60100637T2 publication Critical patent/DE60100637T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

  • HINTERGRUND UND ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung betrifft automatische Spracherkennungssysteme im Allgemeinen. Sie betrifft insbesondere Verfahren zur Anpassung des Erkennungsgeräts zur Verbesserung seiner Leistung in der Gegenwart von Geräuschen.
  • Gegenwärtige automatische Spracherkennungssysteme bewähren sich ziemlich gut im Labor, versagen aber schnell bei Anwendung in der Wirklichkeit. Einer der wichtigsten Einflussfaktoren für die Leistung des Erkennungsgeräts in der Wirklichkeit sind Umweltgeräusche, die das Sprachsignal verfälschen. Zur Lösung des Geräuschproblems wurde eine Reihe von Methoden entwickelt, darunter Spektralsubtraktion oder die Kombination von Parallelmodellen. Diese Lösungen erwiesen sich jedoch entweder als zu begrenzt oder als rechnerisch zu aufwendig.
  • Vor Kurzem wurde eine Jacobimethode zur Anpassung an sich überlagernde Geräusche vorgeschlagen, die von Geräusch A in Geräusch B übergehen. US-Patent 6,026,359, Yamaguchi beschreibt zum Beispiel einen derartigen Plan zur Modellanpassung in der Mustererkennung auf der Basis der Speicherung von Jacobimatrizen einer Taylorschen Erweiterung, die Modellparameter ausdrückt. Wenn diese Methode jedoch wirksam sein soll, müssen Geräusch A und Geräusch B bezüglich ihres Charakters und ihres Pegels ziemlich gleichartig sein. Das Jacobiverfahren bewährt sich wahrscheinlich gut, wenn Geräusch A im Innenraum eines gegebenen Fahrzeugs gemessen wird, das mit einer Geschwindigkeit von 30 Meilen pro Stunde auf einer ebenen Straße fährt, und Geräusch B ähnlich ist, d.h. zum Beispiel im selben Fahrzeug auf der selbem Straße bei einer Geschwindigkeit von 45 Meilen pro Stunde gemessen wird.
  • Das bekannte Jacobiverfahren beginnt zu scheitern, wenn Geräusch A und B weiter voneinander entfernt sind, zum Beispiel wenn Geräusch A im obigen Fahrzeug bei 30 Meilen pro Stunde und Geräusch B im Fahrzeug mit offenen Fenstern oder bei 60 Meilen pro Stunde gemessen wird.
  • Dieser Nachteil der Jacobimethode zur Geräuschanpassung begrenzt ihre Zweckmäßigkeit in vielen praktischen Anwendungsbereichen, da sich das Geräusch, das möglicherweise zur Zeit der Prüfung (beim Gebrauch des Systems) vorhanden sein wird, zur Schulungszeit oft nur schwer vorhersehen lässt. Außerdem lassen sich Jacobiverfahren zur Geräuschanpassung in vielen Bereichen nur begrenzt verbessern, da der damit verbundene rechnerische Aufwand (Verarbeitungszeit und/oder Speicherbedarf) diese Verfahren unpraktisch macht.
  • Die vorliegende Erfindung befasst sich mit obigem Nachteil. Anstelle von Jacobimatrizen setzt die Erfindung transformierte Jacobimatrizen ein, die in der Form einer Jacobimatrix gleichen, aber andere Werte beinhalten. Die transformierten Matrizen machen die Tatsache wett, dass die Geräusche zur Schulungszeit und zur Erkennungszeit sehr unterschiedlich sein können. Das gegenwärtig bevorzugte Ausführungsbeispiel der erfindungsgemäßen Methode bewirkt eine lineare und nichtlineare Transformation unter Anwendung eines α-Anpassungsparameters zur Entwicklung der transformierten Matrizen. Der Transformationsprozess kann auch mit anderen linearen und nichtlinearen Mitteln bewirkt werden, zum Beispiel mit Hilfe eines Neuralnetzes oder eines anderen Mechanismus der künstlichen Intelligenz. Zur Beschleunigung des Rechenvorgangs können die auf diese Weise entstandenen transformierten Matrizen durch ein Verfahren zur Reduktion der Anzahl der Dimensionen, zum Beispiel durch Analyse der Hauptkomponenten, reduziert werden.
  • Zum besseren Verständnis der Erfindung, ihrer Zielsetzung und Vorteile wird auf die nachstehende Beschreibung und die beiliegenden Zeichnungen verwiesen.
  • KURZBESCHIREIBUNG DER ZEICHNUNGEN
  • 1 ist eine schematische Darstellung von verschiedenen Geräuschzuständen, die das Verständnis der Endung fördern soll.
  • 2 ist ein Ablaufdiagramm der Schidungs- und Erkennungsphasen und veranschaulicht eine gegenwärtig bevorzugte Ausführungsform der verbesserten Anpassung der transformierten Matrizen.
  • 3 ist eine logarithmische Spektralkurve zum Vergleich der herkömmlichen Jacobianpassung mit der Kombination von Parallelmodellen (PMC).
  • 4 und 5 sind α-Anpassungsparameterkurven, die den Einfluss von verschiedenen α-Werten auf die Erkennungsgenauigkeit veranschaulichen.
  • BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIEILS
  • 1 veranschaulicht das Problem, das die vorliegende Erfindung lösen soll. Wie bei 10 gezeigt wird zum Beispiel angenommen, dass das automatische Spracherkennungssystem in einer geräuschvollen Umgebung, zum Beispiel im Innenraum eines in Bewegung befindlichen Fahrzeugs, funktionieren muss. Der im Innenraum gemessene Geräuschpegel steigt im typischen Fall bei Beschleunigung des Fahrzeugs von Geräusch A auf Geräusch A'. Obzwar der Geräuschpegel von A auf A' steigen kann, bleibt der Charakter oder die Qualität des Geräusches weitgehend gleich. Im Fahrzeug ändert sich zum Beispiel im typischen Fall das Geräuschspektrum bei Beschleunigung auf eine voraussagbare Weise. Die Amplitude des Windgeräusches nimmt zu, aber im Charakter bleibt es weitgehend weißes oder rosa Rauschen. Die Frequenz der Fahrbahngeräusche (Geräusch der auf der Straße rollenden Reifen) nimmt proportional zur Geschwindigkeitserhöhung zu.
  • Leider lassen sich in der Wirklichkeit der Charakter und die Qualität des Umweltgeräusches oft nicht so leicht voraussagen, wie die Zustände bei 10 in 1 anzudeuten scheinen. Überlegen wir uns zum Beispiel das Mobiltelefon. Es kann in einem in Fahrt befindlichen Fahrzeug verwendet werden, wo die bei 10 gezeigten Geräusche anfallen, oder aber an einer Straßenecke, wo ganz andere Verkehrsgeräusche im Überfluss vorhanden sind, oder aber in einem Einkaufszentrum, wo wieder ganz andere Geräusche zu hören sind. Diese Vielfalt der Geräuschqualitäten wird in 1 bei 12 veranschaulicht, wo unterschiedliche Geräuschmuster schematisch als Geräusch A, Geräusch B oder Geräusch C dargestellt sind. Die Tatsache, dass sich diese Geräuschqualitäten nicht voraussagen lassen, war bisher ein erhebliches Problem für Spracherkennungssysteme, die sich in einer verschiedenen Geräuschen ausgesetzten Umgebung bewähren müssen.
  • 2 zeigt ein Ausführungsbeispiel der Erfindung im Einsatz bei der Spracherkennung. Dabei kommt ein Erkennungsgerät auf Modellbasis zur Anwendung. Die Modelle werden während der Schulung entwickelt und kommen später bei der Erkennung zur Anwendung. Die Schulungsphase des Systems wird in 2 allgemein bei 20 gezeigt, die Erkennungsphase bei 40. Die Eingabesprache wird während der Schulungsphase wie bei 22 gezeigt im Geräuschzustand A erstellt. Die Eingabesprache dient wie bei Schritt 24 gezeigt zur Schulung von Sprachmodellen, die bei 26 schematisch dargestellt sind. Im typischen Eingangssprachsignal gibt es gelegentlich Sprachpausen, zum Beispiel vor dem Beginn oder nach dem Ende des Sprechens. Diese sprachfreien Abschnitte können zur Aufzeichnung von Daten benutzt werden, die für das mit Geräuschzustand A verbundene Bezugsgeräusch Na bezeichnend sind. In 2 wird das Bezugsgeräusch Na in Block 28 gespeichert. Falls erwünscht, kann das Geräusch unter Anwendung des Schulungsverfahrens, das beim Aufbau der Sprachmodelle 26 verwendet wird, modelliert werden (Hintergrundmodell).
  • Nach der Schulung der Sprachmodelle wird in Schritt 30 ein Satz von transformierten Matrizen berechnet und bei 32 gespeichert. Diese Matrizen passen bei der Erkennung die Sprachmodelle so an, dass sie in den bei der Erkennung anfallenden Geräuschzuständen mehr leisten. Das grundlegende Jacobiverfahren zur Anpassung geht von der Voraussetzung aus, dass die Geräuschqualität zur Erkennungszeit ungefähr die selbe ist wie zur Schulungszeit. Anderenfalls hat die klassische Jacobianpassung nicht gerade optimale Ergebnisse.
  • Das verbesserte Anpassungsverfahren beruht auf der Anwendung eines Satzes von transformierten Matrizen, die für den ursprünglichen Geräuschzustand Na generiert wurden. Zur Berechnung der transformierten Matrizen wird ein Satz der für den ursprünglichen Geräuschzustand Na entwickelten Matrizen einer linearen oder nichtlinearen Transformation unterzogen. Die gegenwärtig bevorzugten Ausführungsbeispiele bewirken die Transformation (sowohl linear als auch nichtlinear) durch Anwendung eines im nächsten Abschnitt dargelegten α-Anpassungsfaktors. Während zur Zeit der α-Anpassungsfaktor vorgezogen wird, kann die Transformation aber auch durch ein Neuralnetz oder eine andere Art der künstlichen Intelligenz bewirkt werden.
  • Die Manipulation von Matrizen kann rechnerisch sehr aufwendig sein. Ein wichtiger Kostenfaktor ist der zum Speichern aller Matrizen benötigte Speicherplatz. In einem typischen Ausführungsbeispiel können die Sprachmodelle für jede Eingabe in das Lexikon mehrfache verdeckte Markow-Modellzustände zum Einsatz bringen, die jeweils mit mehreren Gaußschen Dichtewerten verbunden sind. Es würde also für alle Gaußschen Werte in jedem Zustand je eine Matrix geben. In diesem Fall müssten mehrere Hunderte von Matrizen gespeichert werden.
  • Das bevorzugte Ausführungsbeispiel umfasst einen Schritt 36 der Matrizenauflösung zur Erstellung eines weniger komplexen Satzes von Jacobimatrizen 38. Wie weiter unten ausführlicher dargelegt wird, bringt das gegenwärtig bevorzugte Auflösungsverfahren beim Aufbau der weniger komplexen transformierten Matrizen die Analyse der Hauptkomponenten (PCA) zur Anwendung.
  • Zur Erkennungszeit liegt die Eingabesprache vom Benutzer in Schritt 42 vor. Die Eingabesprache ist wie bei 44 gezeigt mit einem Geräuschzustand B (auch als Zielgeräusch Nb bezeichnet) verbunden. Wie bereits gesagt erzielt das traditionelle Jacobiverfahren zur Anpassung nicht gerade optimale Ergebnisse, wenn Geräuschzustand Beine andere Qualität hat als der bei der Schulung benutzte Geräuschzustand A. Es hat sich jedoch herausgestellt, dass das α-Anpassungsverfahren (das bei der Definition der Matrizen während der Schulung zur Anwendung kommt) die Erkennungsleistung bei ungünstigen Geräuschzuständen erheblich verbessert. Die Ergebnisse unserer Versuche werden im untenstehenden Beispiel dargelegt.
  • Das in 2 bei 44 gezeigte Zielgeräusch Nb wird von der Eingabesprache abgeleitet und dann wie bei 46 angedeutet zur Berechnung des Unterschiedes vom Bezugsgeräusch Na eingesetzt. Daraufhin werden wie bei 48 gezeigt neue angepasste Sprachmodelle unter Anwendung dieses Geräuschunterschiedes und der bei der Schulung entwickelten reduzierten transformierten Matrizen berechnet. Die dabei entstehenden angepassten Sprachmodelle 50 werden dann zur Spracherkennung auf die Eingabesprache 42 angewendet, um die Erkennungsausgabe 54 zu liefern.
  • Alpha-Anpassung
  • Zum besseren Verständnis der Funktion unserer transformierten Matrizen ist die Kenntnis der herkömmlichen Jacobianpassung zu empfehlen. Die herkömmliche Jacobianpassung ist mit einem anderen Anpassungsverfahren verwandt, das unter der Bezeichnung Kombination von Parallelmodellen (PMC) bekannt ist. Traditionell kommt die Jacobianpassung als Approximation für PMC zur Anwendung, um den mit PMC verbundenen Rechenbedarf zu verringern. PMC ist rechnerisch sehr aufwendig, da für jede Dichte des Sprachmodells Mittelvektoren in die Spektraldomäne transformiert werden müssen. Nach dem Hinzuaddieren des Mittelvektors zum Zielgeräusch muss der Ergebnisvektor dann wieder in die Cepstraldomäne zurück transformiert werden. Diese doppelte Transformation, bei der eine Matrixmultiplikation und zwei nichtlineare Funktionen zur Anwendung kommen, ist gewöhnlich für eingebaute Systeme zu zeitraubend.
  • Traditionell kommt die Jacobianpassung in der Cepstraldomäne als Approximation für PMC zur Anwendung. Zum Vergleich beschreibt die untenstehende Gleichung 1 die PMC Berechnung, wobei F die Matrix der diskreten Kosinus-Transformation (DCT) ist. Gleichung 2 stellt die traditionelle Jacobianpassungsberechnung dar, die als Approximation der rechnerisch aufwendigeren . PMC Berechnung zur Anwendung kommt.
  • GLEICHUNG 1
    Figure 00060001
  • GLEICHUNG 2
    Figure 00070001
  • Die Approximation der Jacobianpassung hat den Nachteil, dass sie nur gilt, wenn das Zielgeräusch (beim Gebrauch des Systems) dem Bezugsgeräusch (bei der Schulung) ähnlich ist. Dieses Problem wird in 3 veranschaulicht, das die Auswertung der geräuschvollen Sprachparameter bei zunehmendem Geräusch in der logarithmischen Spektraldomäne in Kurvenform darstellt. Die Kurven vergleichen in der logarithmischen Spektraldomäne spezifisch die PMC Anpassung und die herkömmliche Jacobianpassung. Der schattierte Bereich links in 3 entspricht dem Zustand, in dem das Sprachsignal wesentlich stärker ist als das Geräusch, während der Bereich rechts den Zuständen entspricht, in denen das Geräusch stärker ist als das Sprachsignal. Wenn Schulungs- und Versuchsbedingungen in diesen beiden Bereichen gleich sind, gleicht die Leistung der Jacobianpassung der des PMC Systems. Wenn jedoch eine dieser Bedingungen im mittleren Bereich oder in einem anderen Bereich als die andere Bedingung liegt, unterscheidet sich die Jacobianpassung von PMC und unterschätzt in der Tat immer die Anpassung der Modelle.
  • Wir haben entdeckt, dass die herkömmliche Jacobianpassung durch lineare oder nichtlineare Transformation der Jacobimatrizen erheblich verbessert werden kann. Um die lineare oder nichtlineare Transformation zu bewirken, setzen die bevorzugten Ausführungsbeispiele einen Parameter ein, den wir einen α-Anpassungsparameter nennen können. Gleichung 3 veranschaulicht die gegenwärtig bevorzugte Anwendung des α-Anpassungsparameters zur Bewirkung einer nichtlinearen Transformation. Gleichung 4 veranschaulicht eine andere Anwendung des Parameters zur Bewirkung einer linearen Transformation. Wie oben festgestellt, wird zur Zeit zwar ein α-Anpassungsparameter für die Transformation vorgezogen, aber andere Transformationsverfahren sind ebenfalls möglich. Bei der Transformation von Jacobimatrizen für den anfänglichen Geräuschzustand kann zum Beispiel ein Neuralnetz oder eine andere An der künstlichen Intelligenz zur Anwendung kommen. Ein weiteres Transformationsverfahren legt einen ersten α-Anpassungsparameter oder -faktor an die Eingabesprache und einen zweiten α-Anpassungsparameter oder -faktor an das Geräusch an. Andere Variationen sind ebenfalls möglich.
  • GLEICHUNG 3
    Figure 00080001
  • GLEICHUNG 4
    Figure 00080002
  • In Gleichung 3 funktioniert der α-Anpassungsparameter wie folgt: Wenn das Bezugsgeräusch nahezu null ist, und wenn α nicht zu groß ist, sind beide Tangenten (berechnet bei der X-Koordinate N bzw. αN) waagerecht. Wenn das Bezugsgeräusch bedeutend ist, entsprechen beide Tangenten der Linie Y=x. Wenn das Bezugsgeräusch in den mittleren Bereich von 3 fällt, wird die Tangente steiler als die von der herkömmlichen Jacobianpassungskurve erzeugte.
  • Aus der Anwendung des α-Anpassungsparameters in Gleichung 3 ergibt sich eine nichtlineare Transformation der Matrizen. Da sowohl der Zähler als auch der Nenner mit dem Parameter multipliziert wird, entsteht eine nichtlineare Transformationswirkung. In Gleichung 4 wird der α-Anpassungsparameter gegen den Quotienten aus Zähler und Nenner multipliziert, wodurch eine lineare Transformationswirkung entsteht.
  • In beiden Fällen ist die Hauptwirkung des α-Anpassungsparameters die Steigerung der Anpassungsausrichtung der Sprachmodelle. Das ist zweckmäßig, denn es berichtigt die Neigung der herkömmlichen Jacobianpassung zur Unterschätzung der Auswirkungen des Geräusches. In einem späteren Abschnitt der vorliegenden Schrift werden wir unsere Versuchsergebnisse darlegen. Diese zeigen die Verbesserungen, die sich mit dem α-Anpassungsparameter bewerkstelligen lassen.
  • Auswahl des α-Anpassungsparameters
  • Theoretisch hängt der optimale Wert des α-Anpassungsparameters von der Umgebung ab: α sollte bei größerem Unterschied zwischen Ziel- und Bezugsgeräusch größer sein. Wir haben jedoch entdeckt, dass der α-Anpassungsparameter wesentlich stabiler ist als die Theorie andeutet. Bei Einsatz zur Generierung von transformierten Matrizen anstelle der herkömmlichen Jacobianpassung schwankt die Genauigkeit der Spracherkennung bei kleinen α-Werten nur geringfügig, etwas stärker bei mittleren α-Werten und dann wieder weniger bei Anstieg des α-Wertes über einen gewissen Punkt hinaus. Dieses Phänomen ist der Form der Kurve in 3 zuzuschreiben. Ungeachtet des α-Wertes schwankt die Schräge der Tangente im spezifischen Fall lediglich zwischen 0 und 1.
  • Zur Klärung dieses Punktes haben wir einen Satz von Experimenten für Ziffernerkennung in ungünstigen Umweltbedingungen entwickelt. Zwölf kontextunabhängige Ziffernmodelle wurden aufgebaut, nämlich die Ziffern 1 bis 9 sowie Modelle für „o" und „null" plus ein Modell für Schweigen. Schweigen wurde mit Hilfe eines verdeckten Markow-Modells (HMM) mit fünf Zuständen modelliert. Bei den übrigen Modellen kamen fünfzehn Zustände zur Anwendung. Jeder Zustand aller HMM setzt vier Gaußsche Dichten ein. Der Schulungssatz für die Modelle bestand aus 3803 Ziffernfolgen, die von 80 Sprechern ausgesprochen wurden. Der Schulungssatz wurde im geräuschlosen Labor aufgenommen. 4 und 5 zeigen die Genauigkeitsschwankungen, wenn α im Bereich 1 bis 4 variiert. Die Daten wurden auf der Basis von sechs verschiedenen akustischen Umweltbedingungen generiert:
    • – Validationskorpus, in Reinbedingungen aufgenommen
    • – Selber Korpus, mit Autogeräusch mit 10 dB Rauschabstand
    • – Selber Korpus, mit Autogeräusch mit 0 dB Rauschabstand
    • – Selber Korpus, mit Autogeräusch mit 15 dB Rauschabstand
    • – Prüfkorpus, in einem Wagen bei 30 Meilen pro Stunde aufgenommen
    • – Weiterer Prüfkorpus, in einem Wagen bei 60 Meilen pro Stunde aufgenommen
  • Mit Bezugnahme auf 4 und 5 lässt sich erkennen, dass die Genauigkeit ungeachtet der akustischen Umweltbedingungen bei verschiedenen α- Werten im Bereich α = 2,4 bis α = 3,6 nur ganz wenig schwankt. Das beweist, dass α einen stabilen Bereich hat, der in einem praktischen Ausführungsbeispiel der Erfindung gut genutzt werden kann. Während wir zur Zeit einen α-Anpassungs parameter zwischen ca. 2,4 und 3,6 vorziehen, versteht sich, dass dies nur für einen möglichen stabilen Bereich repräsentativ ist. Im Allgemeinen können auch andere α- Werte mit guten Ergebnissen zur Anwendung kömmen. Anders ausgedrückt, die Genauigkeit nimmt zwischen dem wahren „optimalen" α-Wert und einem anderen in einem bestimmten Bereich gewählten α-Wert (z.B. 2,4 bis 3,6) kaum ab. Unsere Daten zeigen, dass die Genauigkeit vom „optimalen" Punkt aus um weniger als drei Prozent abnimmt. Unsere verbesserte Jacobianpassung ist also eine sehr robuste Methode.
  • Reduktion der Anzahl der Dimensionen zur Verringerung des rechnerischen Aufwands
  • Obwohl die Jacobianpassung wie bereits gesagt rechnerisch weniger aufwendig ist als PMC, belastet sie das Erkennungssystem, insbesondere bei eingebauten Systemen, dennoch ziemlich schwer.
  • Wie wir gesehen haben, kann jede transformierte Matrix durch die folgende Gleichung 5 ausgedrückt werden.
  • GLEICHUNG 5
    Figure 00100001
  • Hierbei ist
    Figure 00100002
    eine Diagonalmatrix mit den Dimensionen NFiltXNFilt, wobei NFilt die Anzahl der in der Spektralfiltergruppe zur Anwendung kommenden Filter ist.
  • Jede transformierte Matrix kann also als die gewichtete Summe von NFilt kanonischen Matrizen ausgedrückt werden, die in der Tat eine Basis des Raums bilden, zu welchem die Jacobimatrizen gehören. Diese kanonischen Matrizen werden definiert durch: Ji = F·diag(i)·F–1 wobei sich diag(i) auf eine diagonale NfiltxNFilt-Matrix bezieht, bei der überall 0 ist; aber 1 in Position i.
  • Jede transformierte Matrix lässt sich daher wie folgt ausdrücken: GLEICHUNG 6
    Figure 00110001
  • Es müssen also nicht Nd Matrizen gespeichert werden (wobei Nd die Gesamtzahl der Dichten in allen Sprachmodellen ist), sondern nur NFilt kanonische Matrizen plus Nd mal NFilt Koeffizienten γi. Das reduziert den Speicherbedarf erheblich.
  • Diese Lösung kann jedoch weiter verbessert werden, da sie die Zeitkomplexität des Algorithmus verstärkt. Wenn alle transformierten Matrizen gespeichert sind, kann Gleichung 2 direkt auf alle Dichten angewandt werden, was Nd Matrixmultiplikation kostet.
  • Wenn die zweite Lösung gewählt wird, wird der rechte Teil von Gleichung 2:
    Figure 00120001
  • In dieser Gleichung sind die Kosten NFilt Matrixadditionen und NFilt Matrixmultiplikation mit einem Skalar. Das muss für jede Dichte wiederholt werden. Die Gesamtkosten betragen daher 2·Nd·NFilt Matrix Operationen.
  • Wenn wir ohne zusätzliche Rechenzeit auskommen wollen, muss die Zahl der kanonischen Matrizen reduziert werden.
  • Das gegenwärtig bevorzugte Verfahren zur Reduzierung der Dimension eines Raums ist die Anwendung einer Analyse der Hauptkomponenten auf den zum betreffenden Raum gehörenden Satz von Elementen. Wir haben also zuerst alle Vektoren
    Figure 00120002
    berechnet und eine eindeutige Auflösung dieses Vektorsatzes bewerkstelligt. Die daraus entstehenden kanonischen Vektoren wurden zur Berechnung der NFilt kanonischen Jacobimatrizen
    Figure 00120003
    eingesetzt, die in der fallenden Reihenfolge ihrer Eigenwerte sortiert wurden.
  • Die oben beschriebene Analyse der Hauptkomponenten kann den Rechenbedarf erheblich verringern. Experimente haben erwiesen, dass die Anzahl der zweckmäßigen kanonischen Matrizen auf fünf Matrizen herabgesetzt werden kann.
  • Weitere Reduktionen sind ggf. möglich. Durch die Reduktion der Anzahl der Matrizen wird sowohl der Raumbedarf als auch die für die Anpassung erforderliche Rechenzeit verriingert. Zum besseren Verständnis der Verbesserungen, die sich aus der Reduktion der Anzahl der Dimensionen (Analyse der Hauptkomponenten) ergeben, vergleicht Tabelle I das Anpassungsverfahren auf der Basis von transformierten Matrizen mit und ohne Anwendung der Analyse der Hauptkomponenten.
  • TABELLE I
  • Figure 00130001
  • Die erste Spalte der obigen Tabelle I bezeichnet die Anzahl der Dimensionen, d.h. die Anzahl der kanonischen Matrizen. Die nächste Spalte bezeichnen den zur Anwendung kommenden α-Anpassungswert. Die übrigen Spalten geben die Erkennungsgenauigkeit in Prozent und die nötige Rechenzeit (Summenwert der Anpassung über die ganze Datenbank in Mikrosekunden) für die Umweltbedingungen rein (kein Geräusch), Fahrzeug mit 30 Meilen pro Stunde und Fahrzeug mit 60 Meilen pro Stunde an.
  • Versuchsergebnisse
  • Die oben beschriebenen Geräuschanpassungsverfahren wurden in verschiedenen Geräuschzuständen erprobt. Die Ergebnisse unserer Versuche sind in diesem Abschnitt dargelegt. Zur Prüfung des Anpassungssystems wurde ein Spracherkennungsgerät für ein Fahrzeugnavigationssystem verwendet. Die hier beschriebenen Anpassungsverfahren sind natürlich nicht auf Fahrzeugnavigation oder andere spezifische Erkennungsaufgaben beschränkt. Für unsere Versuche wurde die Fahrzeugnavigation deshalb gewählt, weil die Geräuschzustände in einem in Fahrt befindlichen Fahrzeug bei verschiedenen Geschwindigkeiten stark variieren können. Das Anpassungssystem wurde also in der Umwelt eines Fahrzeugs erprobt, da dies als ein gutes Maß für sein Leistungspotential anerkannt wurde.
  • Diese Experimente wurden wie bereits geschrieben eingerichtet. Aufgebaut wurden drei Versuchssätze: (1) ein Validationssatz bestehend aus 462 von 20 Sprechern ausgesprochenen Ziffernfolgen (zum Unterschied vom Schulungssatz), der in den selben Verhältnissen aufgenommen wurde wie der Schulungssatz; (2) 947 von verschiedenen Sprechern ausgesprochene und in einem Wagen bei 30 Meilen pro Stunde aufgenommene Ziffernfolgen; (3) 475 von den selben Sprechern ausgesprochene aus je fünf Ziffern bestehende Ziffernfolgen, diesmal jedoch im Wagen bei 60 Meilen pro Stunde aufgenommen.
  • Bei der Erkennung kam eine einfache Schleifengrammatik mit gleichen Übergangswahrscheinlichkeiten für alle Ziffern („o" und „null" modellieren die selbe Ziffer) und Schweigen. Die Genauigkeit wurde nach Ausscheiden des Schweigens in den erkannten Sätzen bei zehn Ziffern berechnet.
  • Für diese Erstversuche wurde das Signal in eine Reihe von Vektoren von neun PLP Koeffizienten (einschließlich des Restfehlers} plus neu Delta Koeffizienten codiert. Die Anpassung beschränkte sich ggf. auf die Mittelwerte der ersten neun statischen Koeffizienten. Zur Anpassung wurde das Zielgeräusch unter Anwendung der 30 ersten Rahmen eines jeden Satzes berechnet.
  • Die in Tabelle II dargestellten Ergebnisse vergleichen die Leistung der verdeckten Markow-Modelle (HMM) ohne Anpassung mit den Ergebnissen der Kombination von Parallelmodellen (PMC) und der traditionellen Jacobianpassung (JA). Tabelle II zeigt, dass die Kombination von Parallelmodellen und die Jacobianpassung die Erkennungsleistung in der Gegenwart von Geräuschen verbessern. Die Leistung der verbesserten Anpassung mit transformierten Matrizen unter Anwendung der α-Anpassung wird jedoch nicht gezeigt. Diese Tabelle bildet eine Basislinie, anhand derer das verbesserte Anpassungsverfahren mit transformierten Matrizen verständlicher gemacht werden soll.
  • TABELLE II
  • Figure 00150001
  • TABELLE III
  • Figure 00150002
  • Tabelle III vergleicht die Leistung der Kombination von Parallelmodellen und der Jacobianpassung mit und ohne Alphafaktor. In Tabelle III ist die Methode der transformierten Matrizen mit α-Anpassung als „α-TM" bezeichnet. Zum Vergleich wurde der Alphafaktor auch bei der Kombination von Parallelmodellen in der Reihe „α-PMC" eingesetzt.
  • Beim Vergleich der Ergebnisse in Tabelle III ist festzustellen, dass verbesserte Anpassung mit transformierten Matrizen (α-TM) in der Gegenwart von Geräuschen wesentlich mehr leistet als die normale Jacobianpassung (JA). Der Alphafaktor schwächte zwar die Leistung der PMC Anpassung nicht besonders, verbesserte sie aber auch nicht wesentlich.
  • Unsere Experimente haben erwiesen, dass das verbesserte Anpassungsverfahren mit transformierten Matrizen unter Anwendung des α-Anpassungsfaktors wesentlich bessere Ergebnisse zeitigt als die normale Jacobianpassung. Da Anpassung mit transformierten Matrizen außerdem an sich rechnerisch weniger aufwendig ist als PMC, wird sie zur idealen Lösung für eingebaute Erkennungssysteme, die nicht viel Verarbeitungsleistung oder Speicherplatz haben. Zu diesen Anwendungsbereichen gehören u.a. Erkennungssysteme für Mobiltelefone, Fahrzeugnavigationssysteme und andere Konsumgüter.
  • Weitere Verbesserungen in der Systemleistung können durch die hier beschriebenen Verfahren zur Reduktion der Anzahl der Dimensionen erzielt werden. In Verbindung mit Anpassung mit transformierten Matrizen ergibt sich ein leistungsfähiges, robustes Anpassungssystem, das sich in vielen Erkennungsbereichen gewähren wird.
  • Obzwar die Erfindung hier anhand der gegenwärtig bevorzugten Ausführungsbeispiele beschrieben wurde, sind selbstverständlich Änderungen ohne Abweichung von dem in den beiliegenden Ansprüchen dargelegten Umfang der Erfindung möglich.

Claims (16)

  1. Methode zur Durchführung der Geräuschanpassung in einem Spracherkennungssystem, bestehend aus: dem Aubau eines Satzes von Sprachmodellen unter einem ersten Geräuschzustand; der Erstellung eines Satzes von Jacobimatrizen für besagte Sprachmodelle unter besagtem erstem Geräuschzustand, gekennzeichnet durch die Transformation besagter Jacobimatrizen zur Definition eines Satzes von transformieren Matrizen und die Speicherung besagter Matrizen zwecks Anwendung in der Spracherkennung; der Erstellung von Eingabesprache unter einem zweiten Geräuschzustand; der Bestimmung einer ersten Änderung im Geräuschzustand auf der Basis der besagten ersten und zweiten Geräuschzustände; der Anwendung der besagten ersten Änderung im Geräuschzustand und der besagten transformierten Matrizen zur Anpassung des besagten Satzes von Sprachmodellen.
  2. Methode nach Ansprüch 1, wobei besagter Schritt der Transformation besagter Jacobimatrizen unter Anwendung einer linearen Transformation erfolgt.
  3. Methode nach Anspruch 1, wobei besagter Schritt der Transformation besagter Jacobimatrizen unter Anwendung einer nichtlinearen Transformation erfolgt.
  4. Methode nach Anspruch 1, wobei besagter Transformationsschritt unter Anwendung eines Alpha-Anpassungsfaktors auf besagte Jacobimatrizen erfolgt, wobei besagter Alpha-Anpassungsfaktor einen Bewertungsfaktor mit einem Wert beinhaltet, der im Wesentlichen mit dem Zahlenbereich 2,4 bis 3,6 verbunden ist.
  5. Methode nach Anspruch 1, weiter bestehend aus der Zerlegung der besagten transformierten Matrizen unter Anwendung eines Verfahrens zur Reduktion der Anzahl der Dimensionen.
  6. Verfahren nach Anspruch 5, wobei bei besagtem Verfahren zur Reduktion der Anzahl der Dimensionen die Analyse der Hauptkomponenten zur Anwendung kommt.
  7. Methode zum Aubau von Anpassungsmatrizen für Geräuschanpassung in einem während der Schulungszeit entwickelten und zur Anwendungszeit benutzten Spracherkennungssystem, bestehend aus: dem Aubau eines Satzes von Sprachmodellen unter einem ersten mit besagter Schulungszeit verbundenen Geräuschzustand; der Berechnung eines Satzes von Jacobimatrizen für besagte Sprachmodelle unter besagtem erstem Geräuschzustand, gekennzeichnet durch die Transformation des besagten Satzes von Jacobimatrizen unter Anwendung einer vorgegebenen Transformationsoperation zum Ausgleich von Unterschieden zwischen Geräusch zur Schulungszeit und Geräusch zur Benutzungszeit; und der Speicherung des besagten transformierten Satzes von Matrizen als Anpassungsmatrizen zwecks Anwendung in besagtem Spracherkennungssystem zur Benutzungszeit.
  8. Methode nach Anspruch 7, wobei besagte Transformationsoperation aus der Durchführung einer linearen Transformation auf besagten Jacobimatrizen besteht.
  9. Methode nach Anspruch 7, wobei besagte Transformationsoperation aus der Durchführung einer nichtlinearen Transformation auf besagten Jacobimatrizen besteht.
  10. Methode nach Anspruch 7, wobei besagte Transformationsoperation aus der Anwendung eines Alpha-Anpassungsfaktors auf besagte Jacobimatrizen besteht, wobei besagter Alpha-Anpassungsfaktor einen Bewertungsfaktor mit einem Wert beinhaltet, der im Wesentlichen mit dem Zahlenbereich 2,4 bis 3,6 verbunden ist.
  11. Methode nach Anspruch 7, weiter bestehend aus der Zerlegung der besagten Anpassungsmatrizen unter Anwendung eines Verfahrens zur Reduktion der Anzahl der Dimensionen.
  12. Methode nach Anspruch 11, wobei bei besagtem Verfahren zur Reduktion der Anzahl der Dimensionen die Analyse der Hauptkomponenten zur Anwendung kommt.
  13. Spracherkennungsgerät bestehend aus: einem Satz von unter einem ersten Geräuschzustand geschulten Sprachmodellen; einem Anpassungssystem, das besagte Sprachmodelle gemäß einem zweiten Geräuschzustand anpasst; einem mit besagtem Anpassungssystem verbundenen Speicher, der einen Satz von besagten Sprachmodellen entsprechenden Anpassungsmatrizen enthält, dadurch gekennzeichnet, dass die Anpassungsmatritzen aus transformierten Matrizen bestehen, die unter Anwendung einer linearen oder nichtlinearen Transformation auf einen Satz von Jacobimatrizen für besagten ersten Geräuschzustand aufgebaut wurden.
  14. Erkennungsgerät nach Anspruch 13, wobei bei besagter Transformation der besagten Jacobimatrizen ein Alpha-Anpassungsfaktor auf besagte Jacobimatrizen als Bewertungsfaktor mit einem Wert angewendet wird, der im Wesentlichen mit dem Zahlenbereich 2,4 bis 3,6 verbunden ist.
  15. Erkennungsgerät nach Anspruch 13, wobei besagter Satz von Anpassungsmatrizen durch Reduktion der Anzahl der Dimensionen zerlegt wird.
  16. Erkennungsgerät nach Anspruch 13, wobei besagter Satz von Anpassungsmatrizen durch Analyse der Hauptkomponenten zerlegt wird.
DE60100637T 2000-04-18 2001-04-18 Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung Expired - Fee Related DE60100637T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US551001 2000-04-18
US09/551,001 US6529872B1 (en) 2000-04-18 2000-04-18 Method for noise adaptation in automatic speech recognition using transformed matrices

Publications (2)

Publication Number Publication Date
DE60100637D1 DE60100637D1 (de) 2003-10-02
DE60100637T2 true DE60100637T2 (de) 2004-06-17

Family

ID=24199418

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60100637T Expired - Fee Related DE60100637T2 (de) 2000-04-18 2001-04-18 Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung

Country Status (4)

Country Link
US (2) US6529872B1 (de)
EP (1) EP1148471B1 (de)
JP (1) JP3848845B2 (de)
DE (1) DE60100637T2 (de)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7387253B1 (en) 1996-09-03 2008-06-17 Hand Held Products, Inc. Optical reader system comprising local host processor and optical reader
ATE336776T1 (de) * 2000-02-25 2006-09-15 Koninkl Philips Electronics Nv Vorrichtung zur spracherkennung mit referenztransformationsmitteln
US6631348B1 (en) * 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7003455B1 (en) 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
EP1229516A1 (de) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Verfahren, Vorrichtung, Endgerät und System zur automatischen Erkennung verzerrter Sprachdaten
US7062433B2 (en) * 2001-03-14 2006-06-13 Texas Instruments Incorporated Method of speech recognition with compensation for both channel distortion and background noise
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US6912497B2 (en) * 2001-03-28 2005-06-28 Texas Instruments Incorporated Calibration of speech data acquisition path
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
GB2389217A (en) * 2002-05-27 2003-12-03 Canon Kk Speech recognition system
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP4333369B2 (ja) * 2004-01-07 2009-09-16 株式会社デンソー 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US20070033027A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition
US7584097B2 (en) * 2005-08-03 2009-09-01 Texas Instruments Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
DE602006018795D1 (de) * 2006-05-16 2011-01-20 Loquendo Spa Kompensation der variabilität zwischen sitzungen zur automatischen extraktion von informationen aus sprache
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US8180637B2 (en) * 2007-12-03 2012-05-15 Microsoft Corporation High performance HMM adaptation with joint compensation of additive and convolutive distortions
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8214215B2 (en) * 2008-09-24 2012-07-03 Microsoft Corporation Phase sensitive model adaptation for noisy speech recognition
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
KR20120054845A (ko) * 2010-11-22 2012-05-31 삼성전자주식회사 로봇의 음성인식방법
JP5966689B2 (ja) * 2012-07-04 2016-08-10 日本電気株式会社 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム
WO2014100236A1 (en) 2012-12-19 2014-06-26 Visa International Service Association System and method for voice authentication
US8949224B2 (en) * 2013-01-15 2015-02-03 Amazon Technologies, Inc. Efficient query processing using histograms in a columnar database
CN103903630A (zh) * 2014-03-18 2014-07-02 北京捷通华声语音技术有限公司 一种用于消除稀疏噪声方法及装置
JP6464650B2 (ja) * 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
CN106384588B (zh) * 2016-09-08 2019-09-10 河海大学 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
JP6767326B2 (ja) * 2017-09-08 2020-10-14 日本電信電話株式会社 センサ信号処理方法、センサ信号処理装置、およびプログラム
CN110570845B (zh) * 2019-08-15 2021-10-22 武汉理工大学 一种基于域不变特征的语音识别方法
US11335329B2 (en) * 2019-08-28 2022-05-17 Tata Consultancy Services Limited Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition
CN113223505B (zh) * 2021-04-30 2023-12-08 珠海格力电器股份有限公司 模型训练、数据处理方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226092A (en) * 1991-06-28 1993-07-06 Digital Equipment Corporation Method and apparatus for learning in a neural network
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6182270B1 (en) * 1996-12-04 2001-01-30 Lucent Technologies Inc. Low-displacement rank preconditioners for simplified non-linear analysis of circuits and other devices
US6154716A (en) * 1998-07-29 2000-11-28 Lucent Technologies - Inc. System and method for simulating electronic circuits

Also Published As

Publication number Publication date
DE60100637D1 (de) 2003-10-02
US6691091B1 (en) 2004-02-10
JP3848845B2 (ja) 2006-11-22
EP1148471A1 (de) 2001-10-24
US6529872B1 (en) 2003-03-04
EP1148471B1 (de) 2003-08-27
JP2001356791A (ja) 2001-12-26

Similar Documents

Publication Publication Date Title
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69714431T2 (de) Verfahren zum verbessern von verrauschter sprache und gerät
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69615667T2 (de) Spracherkennung
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69614233T2 (de) Sprachadaptionssystem und Spracherkenner
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69327997T2 (de) Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee
8370 Indication of lapse of patent is to be deleted
8339 Ceased/non-payment of the annual fee