DE69635655T2 - Sprecherangepasste Spracherkennung - Google Patents

Sprecherangepasste Spracherkennung Download PDF

Info

Publication number
DE69635655T2
DE69635655T2 DE69635655T DE69635655T DE69635655T2 DE 69635655 T2 DE69635655 T2 DE 69635655T2 DE 69635655 T DE69635655 T DE 69635655T DE 69635655 T DE69635655 T DE 69635655T DE 69635655 T2 DE69635655 T2 DE 69635655T2
Authority
DE
Germany
Prior art keywords
speaker
models
adaptation
independent
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69635655T
Other languages
English (en)
Other versions
DE69635655D1 (de
Inventor
Vassilios Digalakis
Leonardo Neumeyer
Dimitry Rtischev
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SRI International Inc
Original Assignee
SRI International Inc
Stanford Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SRI International Inc, Stanford Research Institute filed Critical SRI International Inc
Application granted granted Critical
Publication of DE69635655D1 publication Critical patent/DE69635655D1/de
Publication of DE69635655T2 publication Critical patent/DE69635655T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)

Description

  • Diese Erfindung betrifft die automatische Spracherkennung und insbesondere ein Verfahren und ein System für das Anpassen der in einem Spracherkennungssystem verwendeten Modellen an einen bestimmten Sprecher.
  • Diese Technik setzt eine grundlegende Kenntnis von Statistik und Markov-Prozessen sowie eine Vertrautheit mit dem Stand der Technik in Spracherkennungssystemen unter Verwendung von Hidden-Markov-Modellen voraus. Dieser Stand der Technik wurde ausführlich in der US-A-5,825,978 erörtert.
  • Beispielhaft für den Stand der Technik in dem speziellen Gebiet der Anpassung von Spracherkennungssystemen an bestimmte Sprecher wird Bezug genommen auf die folgenden Patente und Veröffentlichungen, die den Erfindern im Zusammenhang mit der vorliegenden Erfindung bekannt wurden. Nicht alle diese Referenzen müssen als relevanten Stand der Technik angesehen werden.
    Figure 00010001
    • L. R. Bahl, F. Jelinek und R. L. Mercer, „A Maximum Likelihood Approach to Continuous Speech Recognition", IEEE Trans. Pattern Analysis and Machine Intelligence, Band PAMI-5(2), Seiten 179-190, März 1983.
    • J. Bellegarda, „Robust Speaker Adaption Using a Piecewise Linear Acoustic Mapping", Proceedings ICASSP, Seiten I-445-I-448, San Francisco, CA, 1992.
    • P. Brown, C.-H.- Lee und J. Spohrer, „Bayesian Adaption in Speech Recognition", Proceedings, ICASSP, Seiten 761-764, Boston, MA, 1983.
    • K. Choukri, G. Chollet und Y. Grenier, "Spectral Transformations through Canonical Correlation Analysis for Speaker Adaptation in ASR", "Proceedings ICASSO", Seiten 2659-2662, Tokio, Japan, 1986.
    • S. Furui, "Unsupervised Speaker Adaptation Method Based on Hierarchical Speakter Clustering", Proceedings ICASSP, Seiten 286-289, Glasgow, Schottland, 1989.
    • X. Huang und K.-F. Lee, „On Speaker-Independent, Speaker-Dependent and Speaker-Adaptive Speech Recognition", IEEE Trans. on Speech and Audio Processing, Band 1, Nr. 2, Seiten 150-157, April 1993.
  • Dieses Dokument beschreibt die Anpassung eines ursprünglich sprecherunabhängigen Systems an einen spezifischen Sprecher, um Fehler zu reduzieren und vergleicht die Leistung solch eines Systems mit einem vollständig sprecherunabhängigen System und einem vollständig sprecherabhängigen System.
    • B.-H. Juang, „Maximum-Likelihood Estimation for Mixture Multivariate Stochastic Observations of Markov Chains", AT\&T Technical Journal, B and 64, Nr. 6, Juli – August 1985.
    • C.-H. Lee, C.-H. L in und B.-H. Juang, „A Study on Speaker Adaptation of the Parameters of Continuous Density Hidden Markov Models"", IEEE Trans. on Acoust., Speech and Signal Proc., Band ASSP-39(4), Seiten 806-814, April 1991.
    • R. Schwartz, Y. L. Chow und F. Kubala, „Rapid Speaker Adaptation Using a Probabilistic Spectral Mapping", Proceedings ICASSP, Seiten 633-636, Dallas, TX, 1987.
    • C. J. Leggetter und P. C. Woodland, "Speaker adaptation of continuous density HMMs using multivariate linear regression", Proc. of ICSLP 1994, Seiten 451-454, beschreiben ein Verfahren der Sprecheranpassung, welches das Binden vieler Zustandsverteilungen an einer Transformation beinhaltet.
  • Ein neuerer Trend in automatischen Spracherkennungssystemen ist die Verbindung von Hidden-Markov-Modellen kontinuierlicher Mischdichte (HMMs). Ein System und ein Verfahren für die Verwendung von HMMs, um Sprache zu erkennen, wird beschrieben in der US-A-5,825,978. Trotz der guten Erkennungsleistung, die HMM-Systeme durchschnittlich in Applikationen mit großem Vokabular erzielen, gibt es eine große Variabilität in der Leistung zwischen einzelnen Sprechern. Die Leistung kann rapide abnehmen, wenn der Benutzer sich stark von der Trainingspopulation unterscheidet, wie zum Beispiel ein Benutzer, der mit einem starken Akzent spricht. Eine Technik, welche die Leistung und die Robustheit eines Spracherkennungssystems verbessert, ist die Anpassung des Systems an den Sprecher und insbesondere an das Frequenzband und die Aufgabe.
  • Zwei Familien von Anpassungsschemata wurden im Stand der Technik vorgeschlagen. Eine basiert auf der Transformation eines Merkmalraums eines individuellen Sprechers, so daß er zu dem Merkmalsraum der Trainingspopulation „paßt". Diese Technik kann im allgemeinen als Merkmalsraumtransformation-basierter Ansatz (FST) bezeichnet werden. Diese Technik hat den Vorteil der Einfachheit und, falls die Anzahl von freien Parametern in den Transformationen klein ist, dann hat diese Technik die gewünschte Charakteristik einer schnellen Anpassung.
  • Die zweite Hauptfamilie von Anpassungsverfahren folgt einem Bayesian-Ansatz, der allmählichen Transformation der HMMs, so daß die Modelle die Anpassungsdaten von dem individuellen Sprecher am besten vorhersagen. In einem Bayesian-Ansatz werden die Modellparameter erneut abgeschätzt unter Verwendung von vorheriger Kenntnis von Modellparameterwerten. Der Bayesian-Ansatz hat üblicherweise wünschenswerte asymptotische Eigenschaften, d.h., die Leistung des sprecheradaptiven Systems wird sich der Leistung eines sprecherabhängigen trainierten Systems annähern, wenn sich die Menge der Adaptionssprache erhöht. Dieses Verfahren hat den Nachteil, daß die Adaptionsgeschwindigkeit üblicherweise gering ist.
  • Was benötigt wird, ist ein sprecheradaptives Verfahren und System, das eine überlegene Leistung für individuelle Sprecher hat, einschließlich denen, die mit von der Trainingspopulation ab weichenden Akzenten sprechen, das sich jedoch schnell an einen bestimmten Sprecher anpassen kann unter Verwendung einer geringen Menge von Adaptionsdaten.
  • Zusammenfassung der Erfindung
  • Gemäß der Erfindung wird ein sprecheradaptives Spracherkennungssystem bereitgestellt wie in Anspruch 1 ausgeführt und ein Verfahren für das Entwickeln von Spracherkennungsmodellen wie in Anspruch 10 ausgeführt.
  • Kurze Beschreibung der Figuren
  • Die 1A bis C sind Diagramme, welche die Adaption unter Verwendung von einer Modelltransformation entsprechend der Erfindung, die Adaption unter Verwendung einer Bayesian-Technik und einer Adaption unter Verwendung einer kombinierten Modelltransformation und einer Bayesian-Technik gemäß der Erfindung darstellen,
  • 2 ist ein Diagramm eines HMM für einen einzelnen Laut,
  • 3 ist ein Diagramm, das ein Verfahren für das Anpassen einer Mischung von Gaußkurven an die beobachteten Merkmalsdaten eines Zustandes eines Lautes darstellt,
  • 4 ist ein Blockdiagramm eines Spracherkennungssystems, das gemäß einer Ausführungsform der Erfindung aufgebaut ist,
  • 5 ist ein Blockdiagramm eines Spracherkennungssystems, das gemäß einer weiteren Ausführungsform der Erfindung aufgebaut ist,
  • 6 ist ein Graph, der SI-, SA- und SD-Wortfehlerraten für Muttersprachler zeigt,
  • 7 ist eine Tabelle, die SI- und SA-Wortfehlerraten für Nicht-Muttersprachler für verschiedene Grade der Mischungsverknüpfung und verschiedener Anzahl von Transformationen zeigt,
  • 8 ist ein Graph, der Wortfehlerraten für verschiedene Anzahlen von Transformationen für die transformationsbasierte Adaption zeigt, und
  • 9 ist ein Graph, der Wortfehlerraten für verschiedene Anzahlen von Transformationen für die kombinierte Adaption zeigt,
  • 10 ist ein Graph, der Fehlerraten für das Transformationsverfahren, das genäherte Bayesian-Verfahren und das kombinierte Verfahren vergleicht, und
  • 11 ist eine Tabelle, die Adaptionsergebnisse unter Verwendung von Bigram- und Trigram-Sprachmodellen zeigt.
  • Beschreibung von bevorzugten Ausführungsformen
  • Besondere und bevorzugte Aspekte und Ausführungsformen werden in den abhängigen Ansprüchen ausgeführt.
  • Gemäß der vorliegenden Erfindung paßt sich ein Spracherkennungssystem selbst an einen bestimmten Sprecher an durch Anwenden einer eingeschränkten maximalen Wahrscheinlichkeits transformation (CML) an seine gespeicherten Spracherkennungsmodelle. Dieser CML-Ansatz stellt eine dritte Hauptfamilie eines Adaptionsverfahrens dar. Die mit Randbedingungen versehene lineare Transformation wird von einer relativ geringen Menge von sprecherabhängigen (SD) Trainingsdaten abgeleitet. Das Anwenden der Transformation an die sprecherunabhängigen (SI) Modelle, die in dem Erkennungssystem gespeichert sind, erzeugt einen Satz von sprecherangepaßten (SA) Modellen. Wenn diese SA-Modelle von dem Erkennungssystem gemäß der vorliegenden Erfindung verwendet werden, wird eine stark verbesserte Erkennungsleistung eines einzelnen Sprechers erzielt. Diese Erkennungsleistungsverbesserung gegenüber einem nicht-adaptiven System ist sogar noch größer, wenn sich der Sprecher stark von der Trainingspopulation unterscheidet, wie zum Beispiel ein Sprecher mit einem starken Akzent.
  • Gemäß einer weiteren Ausführungsform verwendet ein Spracherkennungssystem den CML-Ansatz in Kombination mit einem Bayesian-Ansatz, um eine überragende Leistung zu erzielen. Die 1A, 1B, 1C sind eine Darstellung des bekannten Bayesian-Ansatzes, des CML-Ansatzes der vorliegenden Erfindung und dem Kombinationsansatz.
  • 1A stellt den CML-Ansatz gemäß der Erfindung dar. Adaptionsdaten 12 werden verwendet, um eine Transformation 22 abzuleiten. Diese Transformation 22 wird dann verwendet, um die Parameter der SI-Modelle 10 zu transformieren, um die SA-Modelle 20 abzuleiten.
  • 1B stellt den bekannten Bayesian-Ansatz dar für das Anpassen einer Spracherkennung an einen bestimmten Sprecher. Das System startet ursprünglich mit einem „Vorwissen" über Modellparameter, das als die SI-Modelle 10 dargestellt wird. Adaptionsdaten 12 von einem bestimmten Sprecher werden nun durch einen Baum-Welch-Algorithmus 14 verarbeitet, um SD-Modelle 16 zu erzeugen. Gemäß dem Bayesian-Ansatz werden diese SD-Modelle dann mit den SI-Modellen durch Addition kombiniert, um einen Satz von SA-Erkennungsmodellen 20 zu erzeugen. Gemäß dem Bayesian-Ansatz können dann die SA-Modelle 20 in dem Verfahren für die Vorwissens-SI-Modelle 10 ersetzt werden und der Prozeß kann wiederholt werden, um die SA-Modelle weiter zu verbessern.
  • 1C stellt den Kombinationsansatz gemäß der Erfindung dar. SA-Modelle 20 werden wie in dem CML-Ansatz abgeleitet und werden dann als „Vorwissen" in einem Bayesian-Typansatz verwendet, um SA-Modelle 22 durch Kombinieren der SA-Modelle mit den SD-Modellen 16 zu erzeugen.
  • Ein bestimmter Typ des Spracherkennungssystems, in dem die vorliegende Erfindung effektiv eingesetzt werden kann, verwendet mehrdimensionale Gauß-Mischungsdichten, um die Wahrscheinlichkeitsfunktionen von verschiedenen Sprachzuständen, die in den Erkennungsmodellen abgelegt sind, anzupassen. Die Gauß-Mischdichten werden von den SI-Trainingsdaten abgeleitet, wenn die Modelle trainiert werden und in dem Erkennungssystem als eine gewichtete Summe von einfachen Gaußkurven gespeichert. Die SI-Trainingsdaten bestehen typischerweise aus Sprachproben von einer Anzahl von unterschiedlichen Sprechern (die „Trainingspopulation"), die jeweils eine gespeicherte Sprachprobe lesen.
  • Die Gauß-Mischungsdichte eines bestimmten Zustands in solch einem System wird im allgemeinen als die gewichtete Summe von einfachen Gaußkurven gespeichert. Der Satz von einfachen Gaußkurven, die verwendet werden, um einen bestimmten Zustand zu modellieren, wird im Stand der Technik auch als „Codebook" oder Codebuch bezeichnet. In einem vollständig verknüpften Spracherkennungssystem wird ein Codebook von einfachen Gaußkurven verwendet, um die Wahrscheinlichkeitsdichtefunktionen aller Sprachzustände in dem System zu modellieren und jede Wahrscheinlichkeitsdichtefunktion mit nur einem Satz von Gewichtungsfunktionen, die an die Gaußkurven in dem gemeinsam genutzten Codebook angelegt werden, verknüpft. In einem völlig unverknüpften System wird ein getrenntes Codebook von einfachen Gaußkurven verwendet, um die Wahrscheinlichkeitsdichtefunktion von jedem getrennten Sprachzustand in dem System abzubilden.
  • Die US-A-5,825,978 beschreibt einen Typ eines teilweise verknüpften Systems, in dem es mehrere Codebooks gibt, und ein einfaches Codebook von einfachen Gaußkurven wird verwendet, um die Wahrscheinlichkeitsdichtefunktion einer Gruppe oder einem „Cluster" in Beziehung stehender Sprachzustände zu modellieren. Gemäß einer speziellen Ausführungsform erreicht die Erfindung eine schnelle und effiziente Anpassung in solch einem Erkennungssystem durch die Annahme, daß dieselbe Transformation effektiv für alle Gaußkurven in einem bestimmten Codebook verwendet werden kann. Somit kann mit nur einer kleinen Menge von SD-Daten eine Transformation für alle gespeicherten Gaußkurven berechnet werden. Gemäß einer weiteren Ausführungsform der Erfindung kann eine Lineartransformation gemeinsam von unterschiedlichen in Bezug stehenden Codebooks verwendet werden.
  • Die Erfindung gemäß einer Ausführungsform verwendet einen CML-Ansatz, um Parameter für das Transformieren der Spracherkennungsmodelle abzuschätzen, statt die Sprachdaten direkt zu transformieren. Diese Technik erlaubt es, daß die Erfindung den bekannten Erwartungsmaximierungsalgorithmus (EM) verwendet, um die Maximumwahrscheinlichkeitsabschätzungen (ML) dieser Parameter zu bestimmen. Der Vorteil der Verwendung des EM-Algorithmus ist der, daß die Erfindung die Transformation von Neusprecher SD-Daten alleine abschätzen kann, ohne daß sie in vorherigen Systemen des Standes der Technik für irgendeine Form der Zeitanpassung zwischen den neuen Sprecherdaten und den Trainingsdaten vorhanden sein müssen. Weiterhin hat im Gegensatz zu vorherigen Adaptionsschemata, basierend auf Merkmalstransformationen, die vorliegende Erfindung den Vorteil, daß es nicht erforderlich ist, daß der neue Sprecher Sätze mit vorher spezifizierten Transkriptionen aufzeichnet.
  • Die Erfindung wurde auf dem Hauptteil des Wall Street Journals mit großem Vokabular für sowohl Muttersprachler als auch Nicht-Muttersprachler des American English bewertet. Für Muttersprachler ist die Erkennungsleistung nach der Adaption ähnlich derjenigen von sprecherabhängigen Systemen, die sechsmal so viel Trainingsdaten verwenden. Für Nicht-Muttersprachler wird die Erkennungsfehlerrate näherungsweise halbiert und nähert sich der von Muttersprachlern mit nur einer geringen Menge von Adaptionsdaten.
  • Für die Zwecke der Klarheit wird das Verfahren und das System der Erfindung in Bezug auf eine bestimme Ausführungsform der Erfindung wie sie in einem Spracherkennungssystem aufge nommen ist unter Verwendung von HHMs mit Gaußmischungen und mit einem willkürlichen Grad von Mischungsverknüpfung beschrieben, wie in der vorher erwähnten US-A-5,825,978 ausgeführt. Es versteht sich jedoch für den Fachmann, daß das Verfahren der Erfindung in einem breiteren Bereich von Erkennungssystemen, insbesondere in einem System unter Verwendung von HHMs mit kontinuierlichen Mischdichte eingesetzt werden kann.
  • Eine übliche Technik für das Anpassen eines Eingangssprachsignals an gespeicherte Laute verwendet Hidden-Markov-Modelle (HMMs). Ein HMM-Spracherkennungssystem konstruiert für jeden Laut ein gerichtetes Dreizustands-HMM. Das Trainieren des HMM besteht aus Extrahieren von Merkmalen aus einer Sammlung von Sprachabfragen von verschiedenen Sprechern, die bekannte Sprachphrasen sprechen, und Verwendung der extrahierten Merkmale, um die optimalen HMM-Parameter zu bestimmen. Der Prozeß des Extrahierens von Merkmalen teilt ein Sprachsignal in eine Anzahl von zeitlichen Fenstern, im allgemeinen von gleicher Dauer, im Stand der Technik als Frames bezeichnet. Sobald die Parameter für jedes HMM bestimmt wurden, werden die trainierten HMMs mit ihren Parametern in dem Spracherkennungssystem gespeichert. Das Erkennungssystem ist dann bereit, irgendein unbekanntes Sprachsignal zu verarbeiten und die am wahrscheinlichsten gesprochenen Worte durch Vergleichen von Merkmalen, die aus der Sprache extrahiert wurden, mit den Wahrscheinlichkeitsfunktionen für Sprechzustände, die in den HMMs gespeichert sind, zu bestimmen.
  • 2 stellt einen Typ von Dreizustands-HMM für einen einzelnen Laut, wie zum Beispiel den Laut „ao", der den ersten Vokallaut in dem Wort „water" repräsentiert, dar. Die drei Zustände s1, s2 und s3 sind mit einer Sammlung von Merkmalen verknüpft, die während eines gegebenen Frames erfaßt werden können. Verknüpft an jedem Übergang zwischen den Zuständen ist eine Wahrscheinlichkeit des Durchführens des Übergangs zwischen den Frames. Diese Wahrscheinlichkeit ist nicht als die Zeit, in der das Modell ausgewählt wird, eingestellt, sondern wird bestimmt in dem Trainingsschritt unter Verwendung von tatsächlichen Sprachdaten. Die Übergangswahrscheinlichkeitsverteilung modelliert implizit verschiedene Dauern, die in unterschiedlichen Teilen der Sprache aufgrund von unterschiedlichen Sprechgeschwindigkeiten oder unterschiedlicher Aussprache möglich sind.
  • Verknüpft mit jedem der drei möglichen HMM-Zustände sind Wahrscheinlichkeitsfunktionen P(y|s1), P(y|s2) und P(y|s3), welche die Wahrscheinlichkeit ergeben, daß ein beobachteter Merkmalssatz y von einem Sprachsignal in diesem entsprechenden Zustand erzeugt wurde. Als ein Beispiel stellt die Funktion P(y|s1) die Wahrscheinlichkeit des Beobachtens von y im Zustand von s1 zur Verfügung, statt eines anderen Merkmalssatzes y'. MHH beinhaltet weiterhin sechs Übergänge t1–6, mit verknüpften Wahrscheinlichkeitsfunktionen P(s1|s1), P(s2|s1), P(s2|s2), P(s2|s3), P(s3|s3) P(Sexit|S3). Entsprechend dem Modell tritt ein Übergang bei jeder Framegrenze auf und die vorerwähnten Übergangswahrscheinlichkeitsfunktionen bestimmen die Wahrscheinlichkeit, daß ein bestimmter Übergang genommen wird vorausgesetzt, das System ist in dem bestimmten Zustand.
  • Als Teil der Aufgabe des Auswählens eines Modells für ein Spracherkennungssystem bestimmt der Systemdesigner die Form der Wahrscheinlichkeitsgleichungen P(y|s1), P(y|s2), P(y|s3)
  • Eine Form für diese Gleichungen, die effektiv verwendet wurde, ist die Darstellung der Gleichungen als eine Summe von gewichteten Gaußkurven. Solch eine Summe ist in 2 dargestellt. Die Kurve 60 stellt P(y|s1) dar, wie aus den beobachteten Trainingsmerkmalsdaten abgeleitet. Der Spracherkennungssystemdesigner wünscht, eine Wahrscheinlichkeitsfunktion für P(y|s1) zu entwickeln. Die Wahrscheinlichkeitsfunktion muß an die beobachteten Daten 60 „passen". Bei den bestehenden Spracherkennungssystemen wurde entdeckt, daß die Trainingsdaten durch eine Summe von gewichteten Gaußwahrscheinlichkeitsfunktionen dargestellt werden können, gezeigt als Kurven 62a–e. (Diese Kurven 62a–e sind eine eindimensionale Darstellung der tatsächlichen mehrdimensionalen Gaußfunktionen). Diese gewichtete Gaußsumme wird im Stand der Technik als eine „Gaußmischung" bezeichnet. Wenn jede Gaußkurve 62a–e durch eine gewichtete Gaußfunktion λiGi(y) dargestellt wird, dann kann die Wahrscheinlichkeit P(y|s1) durch die Funktion dargestellt werden:
    Figure 00070001
    wobei s den HMM-Zustand, y die beobachteten Merkmale bei einem gegebenen Frame t, Gi(y) eine Reihe von Gaußkurven und λi eine Reihe von Gewichtungskonstanten darstellt. Wenn der Spracherkennungssystemdesigner ein Modell unter Verwendung einer Wahrscheinlichkeitsfunktion in Form von Gleichung (1) auswählt, ist die Aufgabe des Trainierens des Modells die Bestimmung eines Satzes von Gaußkurven Gi und Wichtungsfaktoren λi, die am besten an die beobachteten Trainingsdaten für jeden HMM-Zustand passen. Sobald die Gaußkurven und Gewichtungsfaktoren bestimmt sind, werden sie von dem System für die Verwendung bei der Erkennung gespeichert. Ein Spracherkennungssystem gemäß der vorliegenden Erfindung adaptiert die gespeicherten Gaußkurven G und in einer Ausführungsform die Gewichtungskonstanten λ an einen bestimmten Sprecher, um die Erkennungsleistung für diesen Sprecher zu verbessern.
  • Ein Merkmal, das das Erkennen des Standes der Technik unterscheidet, ist das Ausmaß, zu dem gespeicherte Gaußkurven 22a–e für unterschiedliche HMM-Zustände gemeinsam genutzt werden. In einem vollständig kontinuierlichen HMM-System, das Gaußmischungen verwendet, gibt es keine gemeinsame Nutzung. Ein anderer Satz von Gaußkurven Gsi wird abgeschätzt und für jeden unterschiedlichen HMM-Zustand gespeichert. Andere Systeme haben einen bestimmten Grad der Mischungsbindung. In solch einem System wird derselbe Satz von Gaußkurven für mehr als einen HMM-Zustand verwendet und nur die Gewichtungskoeffizienten λi werden für HMM-Zustände, die verknüpft sind, modifiziert. Der Begriff „Codebook" wird nach dem Stand der Technik im allgemeinen verwendet, um den Satz GCi von Gaußkurven zu bezeichnen, die verwendet werden, um die HMM-Zustände in einem verknüpften Mischungssystem zu approximieren.
  • 4 ist ein Blockdiagramm eines Spracherkennungssystems, das gemäß der vorliegenden Erfindung aufgebaut ist. Das System besteht aus einem Mikrophon 100, einem Merkmalextraktionsmodul 103, einer Trainingsengine 107, einer Erkennungsengine 110, einer Adaptionsengine 113, einem Satz von gespeicherten SI-Modellen 117, einer Clusterengine 120, einem Satz von gespeicherten SA-Modellen 123 und einer Ausgabeeinrichtung 125.
  • Der Betrieb des Systems erfolgt wie folgt. Das Mikrophon 100 empfängt Sprachsignale. Der Extrahierer 103 decodiert die Signale in Daten, die von dem Rest des System manipuliert werden können. Ursprünglich sind die Sprachsignale Trainingsdaten, die aus gespeicherten Sätzen, die von einer Gruppe von Sprechern gesprochen sind, bestehen. Die Trainingsengine 107 verwendet diese transkribierten Sätze, um ursprüngliche Parameter für nicht-verknüpfte Codebooks für die Sprachzustände in dem System zu bestimmen und speichert diese Parameter in 117.
  • Die Clusterengine 120 arbeitet auf den trainierten Modellen 117, um einen Satz von verknüpften Modellen gemäß einem Verfahren, das in der oben erwähnten, in Bezug stehenden Patentanmeldung beschrieben ist. Die Clusterengine 120 identifiziert Zustände, die ähnliche Gaußfunktionen gemeinsam nutzen, gruppiert diese Zustände in Cluster, splittet die Cluster und erzeugt dann ein einzelnes „Codebook" oder „Genon" für jeden Cluster. Die Codebooks enthalten einen Satz von Gaußkurven, die verwendet werden, um die Zustände in diesem Cluster abzuschätzen. Nach dem Betrieb der Clusterengine 120 kann die Wahrscheinlichkeitsfunktion, die in 117 für einen Zustand s gespeichert ist, geschrieben werden als:
    Figure 00080001
    wobei GCi eine Gaußkurve in dem Codebook für den Cluster C ist. Die Gauß-Codebooks, die von der Clusterengine 117 mit einem willkürlichen Grad von Mischungsverknüpfung erzeugt wurden, können als „Genone" bezeichnet werden, und die HMM-Systeme mit einem willkürlichen Grad von Genon-Nutzung werden als genonische HMMs bezeichnet.
  • Sobald die Clusterengine 117 die SI-Modelle in genonische SI-HMMs konvertiert hat, können die Modelle von der Erkennungsengine 110 verwendet werden, um nicht gespeicherte Sprache wie folgt zu erkennen. Nicht-gespeicherte Sprache wird von dem Mikrophon 100 empfangen und dessen Merkmale werden durch 103 extrahiert. Der Extrahierer 103 liefert den Merkmalsdatensatz x zu der Erkennungsengine 110. Die Erkennungsengine 110 verwendet die in 117 gespeicherten Modelle in der Form der Gleichung (2), um einen wahrscheinlichsten Pfad von Sprachzuständen für die Daten x zu bestimmen. Dieser wahrscheinlichste Zustandspfad ist mit bestimmten Worten, wie in 1 dargestellt ist, verknüpft. Der Erkenner 110 kann die erkannten Worte auf der Ausgabeeinrichtung 125 anzeigen.
  • Sobald das Erkennungssystem einen vollständig trainierten Satz von SI-Modellen der Form von Gleichung (2) enthält, ist die Erkennungsengine 110 bereit, nicht gespeicherte Sprache zu erkennen. Ein neuer Sprecher, der das System verwendet, kann jedoch einen Akzent oder ein Sprachmuster haben, das sich sehr von den Trainingsdaten, die verwendet wurden, um die Modelle zu trainieren, unterscheidet. In solch einem Fall wird während einer Mehrzahl von Worten und Zuständen, die von der Erkennungsengine 110 unter Verwendung der SI-HMMs 117 erkannt werden, die Erkennungsfehlerrate hoch sein. Die Adaptionsengine 113 kann gemäß der vorliegenden Erfindung verwendet werden, um die Leistung der Erkennungsengine 110 wie folgt zu verbessern. Signale von einem neuen Sprecher, der in das Mikrophon 100 spricht, werden von dem Extrahierer 103 verarbeitet und der Merkmalsdatensatz y wird zu der Erkennungsengine 110 und zu der Adaptionsengine 113 geliefert. Die Erkennungsengine 110 bestimmt dann bekannte Zustände von den Merkmalsdaten und macht diese Zustände der Adaptionsengine 113 bekannt. Die Adaptionsengine 113 vergleicht dann die gespeicherten SI-Daten für die bekannten Zustände mit den tatsächlichen Daten von dem neuen Sprecher und bestimmt einen Satz von Transformationen für die Wahrscheinlichkeitsmodelle für diese Zustände, so daß die Wahrscheinlichkeitsmodelle besser an die tatsächlichen Daten von dem neuen Sprecher passen. Nachdem eine begrenzte Anzahl von Daten von dem neuen Sprecher empfangen wurden, wendet die Adaptionsengine 113 dann die Transformationen an alle Zustände in den SI-HMMs an, um einen Satz von SA-HMMs 123 zu erzeugen. Sobald die SA-HMMs 123 erzeugt wurden, werden die HMMs von der Erkennungsengine 110 verwendet, um Zustände in dem ankommenden Sprachsignal zu identifizieren. Gemäß einer Ausführungsform kann die Adaptionsengine 113 fortsetzen, die SA-HMMs während der Zeit, während der der neue Sprecher spricht, zu verbessern, so daß die SA-HMMs graduell die Form von Modellen, die für diesen bestimmten Sprecher entwickelt wurden, erreichen.
  • Die Transformation, die von der Adaptionsengine 113 der vorliegenden Erfindung eingesetzt wurde, kann leichter erklärt werden, wenn die Wahrscheinlichkeitsdichtefunktion von Gleichung (2) umgeschrieben wird als eine sprecherunabhängige HMM für den SI Vektorprozeß [yi] mit Observationsdichten der Form:
    Figure 00090001
    wobei P(ω1|s1) eine Koeffizientenmatrix entsprechend λi ist und N(ytii) eine Gaußfunktion mit einem Mittel μi und einer Kovarianz Σi, Nω ist eine ganze Zahl gleich der Anzahl von Gaußfunktionen in dem bestimmten Codebook und G ist der Gauß-Codebook-Index (oder Genon-Index).
  • Die Adaption dieses Systems wird gemäß einer Ausführungsform der Erfindung erzielt durch gemeinsames Transformieren aller Gaußfunktionen von jedem Genon. Genauer gesagt nimmt die Erfindung an, daß bei gegebenem Genon-Index des HMM-Zustandes si der sprecherabhängige Vektorprozeß [xi] durch den zugrundeliegenden sprecherunabhängigen Vektorprozeß [yt] über die Transformation xt = Agyt + bg erhalten werden kann. Dieses Modell ist äquivalent zu der Annahme, daß der Zufallsvektor x über eine affine Transformation x = Ay + b von dem nicht beobachteten Vektor y, der eine bekannte Mischdichte
    Figure 00090002
    hat.
  • Die Maximalwahrscheinlichkeitsabschätzung (ML) des mit Nebenbedingungen versehenen Gaußmischmodells ist äquivalent zu der Abschätzung der Regressionsparameter A, b unter Verwendung von nur Observationen der abhängigen Variablen x und der Kenntnis der Verteilung der nicht beobachteten Variablen y.
  • Anwenden der Transformation führt dazu, daß die SA-Observationsdichten gemäß der Erfindung die Form
    Figure 00100001
    haben und nur die Transformationsparameter Ag, bg, g = 1, ..., Ng durch die Engine 113 während der Adaption abgeschätzt werden, wobei Ng die Anzahl von unterschiedlichen Transformationen ist. Dieselben Transformationen können an unterschiedliche HMM-Zustände angelegt werden, und dieses Verknüpfen von Transformationen kann verwendet werden, um die Leistung, basierend auf der Menge von verfügbaren Adaptionsdaten zu optimieren.
  • Die Adaptionsengine 113 schätzt die Transformationsparameter Ag, bg, g = 1, ..., Ng entsprechend einer Erweiterung des bekannten Erwartungsmaximierungsverfahrens (GM) für die Abschätzung von Gaußmischungen mit Randbedingungen ab. Das Trainingsverfahren gemäß der Erfindung unter Verwendung eines Baum-Welch-Algorithmus wird im folgenden zusammengefaßt:
    • 1. Initialisiere alle Transformationen mit Ag(0) = I, bg(0) = 0, g = 1, ..., N. Setze k = 0.
    • 2. E-Schritt: führe eine Iteration des Vorwärts-Rückwärts-Algorithmus auf den Sprachdaten durch unter Verwendung der mit dem gegenwärtigen Wert der Transformationen Ag (k), bg (k) transformierten Gaußfunktionen. Für alle Gaußkomponenten und alle Genone g ermittle die ausreichenden Statistiken:
      Figure 00100002
      wobei yt(st) die Wahrscheinlichkeit ist zur Zeit t im Zustand st zu sein bei gegebenen gegenwärtigen HMM-Parametern λk, die Summierung läuft über alle Zeiten und HMM-Zustände, die dieselben Mischungskomponenten haben und ϕit(st) ist die a-posteriori-Wahrscheinlichkeit ϕit(st) = ρ(ωig|Ag(k), bg(k), xt, st) (10)
    • 3. M-Schritt: Berechne die neuen Transformationsparameter. Unter der Annahme von diagonalen Kovarianz- und Transformationsmatrizen können die Elemente a und b von Ag (k + 1), bg (k + 1) durch Lösen der folgenden Gleichung für jedes g erzielt werden, wobei der Offset-Wert b gegeben ist durch
      Figure 00110001
      wobei der Einfachheit halber die Abhängigkeit von g weggelassen wurde. Die Variablen μi, δ 2 / i, μ, σ 2 / i sind die Elemente der Vektoren und Diagonalmatrizen μig, Σig, μ ig bzw. Σig,
    • 4. Wenn das Konvergenzkriterium nicht erfüllt ist, gehe zu Schritt 2.
  • Da die Gaußadaptionstransformation, die von der Erfindung eingesetzt wird, eine Instanz des Baum-Welch-Algorithmus für HMMs mit beschränkten Mischungsdichten ist, kann sie effizient implementiert werden. Genauer gesagt sind die ausreichenden Statistiken dieselben wie im Fall der nicht mit Nebenbedingungen versehenen Mischdichten. Der E-Schritt bei jeder Iteration des Adaptionsalgorithmus erfordert somit die Berechnung und die Speicherung dieser Statistiken und ist äquivalent zu dem E-Schritt des Baum-Welch-Algorithmus für nicht mit Nebenbedingungen versehenen Mischungsdichten. Die Berechnungsanforderung des M-Schritts sind sehr gering, verglichen mit dem E-Schritt.
  • Gemäß der Erfindung kann die obige Transformation ebenso modifiziert werden, daß sie sich monoton dem sprecherabhängigen Training (SD) nähert, wenn die Menge an Adaptionssprache erhöht wird durch Einstellen eines Grenzwertes und erneutes Abschätzen ohne Randbedingungen aller individueller Gaußfunktionen, für die die Anzahl von zugewiesenen Abfragen größer als der Grenzwert ist. Somit werden alle Gaußfunktionen mit einer ausreichend großen Menge an Adap tionssprache unabhängig erneut abgeschätzt, wo Gaußfunktionen mit wenig oder keinen Adaptionsdaten in Gruppen adaptiert werden. Zusätzlich, falls die Gesamtmenge von Adaptionsdaten für ein bestimmtes Genon geringer als ein vorbestimmter Grenzwert ist, dann wird eine Identitätstransformation für dessen alle Gaußfunktionen verwendet. Sobald die Transformationsparameter bestimmt sind, können die eingeschränkten ML-Abschätzungen für die Mittelwerte und Kovarianzen erhalten werden unter Verwendung von μCMLig = Λgμig + bg ΣCMLig = ΛgΣigΛTg (13)
  • Kombinieren der Transformation und bayesian-basierten Adaption
  • Gemäß einer weiteren Ausführungsform der Erfindung, die in 5 dargestellt ist, wird die transformationsbasierte Sprecheradaptionstechnik effektiv mit einer bekannten Bayesian-Adaptionstechnik kombiniert, um bessere Erkennungsleistung zu erzielen. In bayesianischen Adaptionstechniken wird die begrenzte Menge von Adaptionsdaten optimal mit dem vorherigen Wissen, das von sprecherunabhängigen Trainingsdaten abgeleitet wurde, kombiniert. Mit der geeigneten Auswahl der vorherigen Verteilungen, den maximalen a posteriori (MAP) Abschätzungen für die Mittelwerte und Kovarianzen der HMMs können Einzelgaußobservationsdichten erhalten werden unter Verwendung von Linearkombinationen von sprecherabhängigen Zählungen und einigen Größen, die von den Parametern der vorherigen Verteilungen abhängen (siehe Lee 1991). Der Begriff Zahlen bezeichnet die ausreichende Statistik, die durch Durchführen einer Iteration des Vorwärts-Rückwärts-Algorithmus auf den Adaptionsdaten erzielt wurde. MAP Abschätzungen für die Parameter der HMMs mit kontinuierlichen Mischdichten können ebenso und auf die gleiche Art und Weise erhalten werden (siehe Lee 1993). Beispielsweise kann die MAP Abschätzung für den Mittelwert μ der i-ten Gaußfunktion in der HMM-Mischdichte des Zustandes s erhalten werden unter Verwendung von
    Figure 00120001
    wobei γ1(s) die Wahrscheinlichkeit zur Zeit t dem Zustand s zu sein bei gegebenen gegenwärtigen HMM Parametern ist und ϕit(s) die a posteriori Wahrscheinlichkeit der i-ten Mischkomponenten ist.
  • Figure 00130001
  • Die Größen τi(s), mi(s) sind Parameter der verbundenen vorherigen Dichte der Mischparameter, die ausgewählt wurde als ein Produkt der Dirichlet- und normaler Wishart-Dichten. Der Parameter τi(s) wird üblicherweise empirisch abgeschätzt und kann verwendet werden, um die Adaptionsrate zu steuern. Ähnliche Abschätzungsformeln können für die Kovarianzen σ der Gaußfunktionen verwendet werden. Basierend auf der ähnlichen Formel für die Statistiken zweiter Ordnung kann ein genähertes MAP (AMAP) implementiert sein durch lineares Kombinieren der sprecherunabhängigen und sprecherabhängigen Zahlen für jede Komponentendichte. ⟨x⟩AMAPig = λ⟨x⟩SIig + (1 – λ)⟨x⟩SDig (16) ⟨xxTAMAPig = λ⟨xxTSIig + (1 – λ)⟨xxTSDig (17) nAMAPig = λnSIig +(1 – λ)nSDig (18)wobei die Exponenten auf der rechten Seite die Daten bezeichnen, über welche die folgenden Statistiken (Zahlen) gesammelt werden während einer Iteration des Vorwärts-Rückwärts-Algorithmus
    Figure 00130002
  • Die Mittelwerte und Kovarianzen von jeder Gaußkomponentendichte können dann unter Verwendung der kombinierten Zahlen abgeschätzt werden. Das Gewicht λ steuert die Adaptionsgeschwindigkeit. Dieses Verfahren kann als genäherte Bayesian-Adaption bezeichnet werden. Ähnliche Adaptionsschemata erschienen ebenso für diskrete HMMs (siehe Huang 1993) und könenn verwendet werden, um die Mischgewichte in den hier beschriebenen näherungsweisen bayesianischen Schemata zu adaptieren.
  • Das Gewicht λ steuert die Adaptionsgeschwindigkeit. Unter Verwendung der kombinierten Zahlen, können wir die AMAP-Abschätzungen der Mittelwerte und Kovarianzen von jeder Gaußkomponentendichte berechnen aus:
    Figure 00140001
  • Ähnliche Adaptionsschemata erschienen ebenso für diskrete HMMs [11] und können verwendet werden, um die Mischgewichte in dem hier beschriebenen näherungsweise bayesianischen Schema zu adaptieren.
  • In Bayesian-Adaptionsschemata werden nur die Gaußfunktionen der sprecherunabhängigen Modelle, die am wahrscheinlichsten einige der Adaptionsdaten erzeugt haben, an den Sprecher angepaßt. Diese Gaußfunktionen können nur einen kleinen Bruchteil der Gesamtzahl in kontinuierlichen HMMs mit einer großen Anzahl von Gaußfunktionen darstellen. Auf der anderen Seite, wenn die Menge der Adaptionsdaten sich erhöht, werden die sprecherabhängigen Statistiken die schwierigen sprecherunabhängigen dominieren und die bayesianischen Techniken werden eine sprecherabhängige Leistung erreichen. Wir müssen daher ein Adaptionsschema anstreben, das die schönen Eigenschaften der bayesianischen Schemata für große Menge von Adaptionsdaten beibehalten und eine verbesserte Leistung für kleine Menge von Adaptionsdaten hat. Wir können dies erreichen durch Verwendung unserer transformationsbasierten Adaption als ein Vorverarbeitungsschritt, um die sprecherunabhängigen Modelle zu transformieren, so daß sie besser an die neuen Sprechercharakteristiken passen und die vorherige Information in den MAP-Schätzschemata verbessern.
  • Um die Transformation und die näherungsweise bayesianischen Verfahren zu kombinieren, transformiert die Erfindung als erstes die sprecherunabhängigen Zahlen unter Verwendung der mit dem oben beschriebenen ML-Verfahren mit Nebenbedingungen (CML) abgeschätzten Parameter. ⟨x⟩CMLig = Ag⟨x⟩SIig + bg (23) ⟨xxTCMLig = Ag⟨xxTSIig ATg ⟨x⟩SIig bTg ⟨xTSIig ATg + nSIig ng bTg (24)
  • Die transformierten Zahlen können dann mit den sprecherabhängigen Zahlen, die gesammelt wurden unter Verwendung der Adaptionsdaten, kombiniert werden. ⟨x⟩COMig = λ⟨x⟩CMLig + (1 – λ)⟨x⟩SDig ⟨xxTCOMig = λ⟨xxTCMLig + (1 – λ)⟨xxTSDig , nCOMig = λnCMLig + (1 – λ)nSDig (25)und Modelle des kombinierten Verfahrens können aus diesen Zahlen abgeschätzt werden unter Verwendung von
    Figure 00150001
  • Diese Prozedur ist schematisch in 1 gezeigt. Ein Blockdiagramm eines Spracherkennungssy stems, das diese Prozedur einsetzt, ist in 5 gezeigt. Zusätzlich zu den Komponenten in 4 beinhaltet dieses Erkennungssystem einen Satz von sprecherabhängigen Modellen 130 und eine Kombinationsengine 132 für das Kombinieren der SD-Modelle 132 mit den SA-Modellen 123, um die Erkennungsleistung der Modelle 123 zu verbessern.
  • Experimentelle Ergebnisse des CML-Verfahrens
  • Wir bewerteten unsere Adaptionsalgorithmen auf dem großen Vokabular des Hauptteils des Wall Street Journals. Experimente wurden ausgeführt unter Verwendung des DECIPHERTM Spracherkennungssystems von SRI, das mit einer Sechs-Merkmals-Frontend konfiguriert wurde, die 12 Cepstrum-Koeffizienten (c1–c12), die Cepstrum-Energie (c0) und deren Differenzen erster und zweiter Ordnung ausgibt. Die Cepstrum-Merkmale werden aus einer FFT-Filterbank berechnet und eine nachfolgende Cepstrum-Mittelwert-Noirmalisierung wird auf einer Satzbasis durchgeführt. Wir ver wendeten genonische versteckte Markov-Modelle mit einem willkürlichen Grad gemeinsamer Gaußfunktionennutzung über unterschiedliche HMM-Zustände. Für ein schnelles Experiment verwendeten wir den progressiven Such-Framework: einen ursprünglichen, sprecherunabhängigen Erkenner mit einem Bigram-Sprachmodell Wortgitter für alle Äußerungen in dem Testsatz aus. Diese Wortgitter werden dann erneut bewertet unter Verwendung von sprecherunabhängigen und sprecheradaptierten Modellen. Wir führten zwei Reihen von Experimenten durch auf Muttersprachlern und Nicht-Muttersprachlern des American English. Alle Experimente wurden auf dem geschlossenen Vokabulartask mit 5000 Worten durchgeführt und werden unten beschrieben.
  • Um die SI-, SD- und SA-Erkennungsleistung für Muttersprachler zu vergleichen, führten wir eine ursprüngliche Studie unserer Adaptionsalgorithmen auf Phase-0 WSJ-Hauptteil durch. Wir verwendeten phonetisch verbundene HMM-Mischsysteme mit allen Allophonen desselben Kontextunabhängigen Lauts, die dieselben Mischkomponenten gemeinsam nutzen, d.h. wir verwendeten Systeme mit einem Genon pro Laut. Sprecherunabhängige Systeme wurden mit 3500 Sätzen von 42 männlichen Sprechern trainiert. Die unterschiedlichen Cepstrum-Merkmale wurden als unabhängige Beobachtungsströme modelliert und jedes Codebook verwendete 50 Gaußfunktionen für die Vektormerkmale und 15 Gaußfunktionen für die Skalarmerkmale (Energiemerkmale). Es gab insgesamt 6300 phonetische Modelle, jeweils mit drei Zuständen. Die Anzahl von unterschiedlichen Ausgabeverteilungen wurde auf 6300 geclustert (eine 3-fache Reduktion) unter Verwendung von zustandsbasierten Clustern, da ein kompakteres System mit weniger Parametern für die Adaption besser geeignet ist. Die Leistung des Adaptionsalgorithmus wurde bewertet auf 100 Sätze von jedem von sechs männlichen Sprechern (001, 00b, 00c, 00d, 400 und 431) für variierende Mengen von Trainings-/Adaptionssätzen. Die SI-Wortfehlerrate für diese Sprecher betrug 15,51 % einschließlich Auslassungen und Einfügungen. Wir bewerteten ebenso die SD Leistung durch getrenntes Trainieren eines sprecherabhängigen Systems für jeden der sechs Sprecher unter Verwendung von 600 Äußerungen und fanden, daß die SD-Fehlerrate 11,51% betrug. Wir testeten dann den Adaptionsalgorithmus unter Verwendung einer kleinen Menge von Adaptionsdaten (40 Äußerungen) und die Wortfehlerrate nach der Adaption betrug 13,60%. Somit wurde mit 40 Adaptionssätzen 60% des Unterschiedes zwischen der SI- und SD-Leistung überbrückt.
  • Wir bewerteten dann die SA-Systemleistung für variierende Menge von Adaptionsdaten unter Verwendung von drei der Sprecher. Die Ergebnisse sind in 6 zusammengefaßt. Mit 100 Adaptionssätzen erzielte das Adaptionsschema die Leistung eines sprecherabhängigen Systems, das 6-mal so viel Trainingsdaten verwendete. Wenn alle SD-Trainingsdaten als Adaptionsdaten verwendet werden, erreicht das SA-System eine 50% Reduktion der Fehlerrate gegenüber dem SI-System und eine 25% Reduktion gegenüber dem SD-System.
  • Die Sprecheradaption wird eine sehr wichtige Technologie für Nicht-Muttersprachler, da die SI-Fehlerrate für eine praktische Anwendung zu hoch ist. Bei dem Testen des Adaptionsalgorithmus bei der „Spoke 3" Aufgabe des Phase 1 Wall Street Journal Hauptteils fokussierten wir uns auf das Verbessern der Erkennungsleistung für Nicht-Muttersprachler des American English unter Verwendung der Adaption. Da der Phase 1 Hauptteil während dieser Reihe von Experimenten verfügbar war, wurden die SI-Systeme aufgebaut unter Verwendung von 17000 Trainingsäußerungen von 140 männlichen Sprechern. Um die Rechenanforderungen zu reduzieren, stellten wir den Algorithmus fein ein unter Verwendung von fünf männlichen Sprechern in dem Phase-1 WSJ-Entwicklungsdatensatz. Der Bewertungsdatensatz wurde nur am Ende der Entwicklungsphase einmal abgearbeitet. Der Datensatz beinhaltet 40 Testsätze und 40 phonetisch ausgeglichene Adaptionssätze pro Sprecher. Die Sprecher wurden ausgewählt wie es ihrer Redegewandtheit in English entsprach, wobei starke und schwache Akzente abgedeckt wurden.
  • Wir testeten als erstes vier unterschiedliche Systeme, um den optimalen Grad der gemeinsamen Gaußfunktionsnutzung für diese Aufgabe zu bestimmen. Alle diese Systeme verwendeten 11932 kontextabhängige phonetische Modelle, jeweils mit drei Zuständen. Die Kontextabhängigkeit wurde nur innerhalb der Worte modelliert, da wir in Vorexperimenten erkannt haben, daß das Modellieren der Koartikulation über Wortgrenzen hinaus die Erkennungsleistung für Nicht-Muttersprachler nicht verbessert. Die Anzahl der in diesen Systemen verwendeten Genone betrug 40 (1 Genon pro Laut), 200, 500 und 950. Jedes Genon bestand aus einer Mischung von 43 Gaußverteilungen. Die SI- und SA-Leistung ist in 7 gezeigt. Die Adaption wurde sequentiell an die Gaußverteilungen und die Mischgewichte angewendet.
  • In genonischem HMMs kann ein willkürlicher Grad von Mischung, die über unterschiedliche HMM-Zustände verknüpft sind, über eine agglomerative Clusterprozedur ausgewählt werden. Wenn der Grad der Verknüpfung gering ist und folglich die Anzahl von Genonen groß ist (wie in den 500- und 950-Genonsystemen in 7), dann wird eine große Anzahl von Lineartransformationen während der Adaption abzuschätzen sein. Wir können dieses Problem beheben durch Verwenden der Verknüpfung der Transformationen über unterschiedliche Genone und das agglomerative Clusterschema, das für die Genonkonstruktion verwendet wurde, ist hierfür sehr geeignet. Jeder Knoten n in dem Baum, der während der Clusterprozedur erzeugt wird, entspricht einem Satz von Zuständen, wobei die Baumblätter einzelnen HMM-Zuständen entsprechen. Der Grad der Verknüpfung, die in einem bestimmten System verwendet wurde, kann dargestellt werden durch einen Schnitt durch den Baum. Die Lokalisierung des Schnittes wird bestimmt durch das Stoppkriterium des agglomerativen Clusters. Wenn wir eine kleinere Anzahl von Transformationen als die Anzahl von Genonen in dem System verwenden wollen, können wir somit das Stoppkriterium etwas lockern (d.h. aggressiver clustern) und einen zweiten Schnitt bei einem höheren Level durch den Baum bestimmen. Alle Knoten des ursprünglichen Schnitts 8 (d.h. alle Genone), die unter denselben Knoten des neuen Schnitts fallen, können dieselbe Transformation gemeinsam nutzen. Die dritte Spalte in 7 zeigt die Anzahl von Lineartransformationen, die bei der erneuten Abschätzung der Gaußdistributionen verwendet wurde. In den ersten beiden Systemen verwendeten wir eine Transformation pro Genon. In den verbleibenden zwei Systemen mit großen Anzahlen von Genonen gruppierten wir die Transformationen, um die Anzahl von abzuschätzenden Parametern zu reduzieren.
  • Die SI-Wortfehlerraten für die verschiedenen Systeme waren ähnlich und reichten von 28,7% bis 30,1%. Durch Verwendung der Verknüpfung der Transformationen während der Adaption für die 950- und 500-Genonsysteme und der Reduktion der Anzahl von Transformationen von 950 und 500 auf 200, wurden die SA-Fehlerraten von 17,7% und 16,6% auf 15,8% und 15,1% reduziert. Die SA-Fehlerrate von 15,1% war die geringste Gesamtfehlerrate für alle Systeme, die wir untersuchten, und die durchschnittliche Verbesserung aufgrund des Adaptionsalgorithmus für die fünf Sprecher betrug 47%. Um den Relativbeitrag der zwei Stufen unseres Adaptionsschemas zu bewerten, bewerteten wir die SA-Fehlerrate für unser bestes System mit abgeschalteter Mischgewichtungsadaption. Wir fanden, daß durch Adaptieren von nur den Gauß-Codebooks unter Verwendung des Abschätzverfahrens mit Randbedingungen die SA-Wortfehlerrate 15,6% betrug. Somit wird für kontinuierliche HMMs die größte Leistungsverstärkung während der Adaption durch Adaptieren der Gauß-Codebooks erzielt.
  • Experimentelle Ergebnisse des kombinierten Verfahrens
  • Wir bewerteten ebenso das kombinierte Verfahren auf dem „Spoke-3" Task des Phase-1 Großvokabulars des Wall Street Journal Hauptteils und versuchten, die Erkennungsleistung für Nicht-Muttersprachler der American English zu verbessern. Die sprecherunabhängigen kontinuierlichen HMM-Systeme, die wir als Saatmodelle für die Adaption verwendeten, waren geschlechtsabhängig und wurden durch 140 Sprecher und 17000 Sätze für jedes Geschlecht trainiert. Jedes der beiden Systeme hatte 12000 kontextabhängige phonetische Modelle, die 500 Gauß-Codebooks mit 32 Gaußkomponenten pro Codebook gemeinsam nutzten. Für die schnelle Experimentierung verwendeten wir den progressiven Such-Framework: ein ursprünglicher, sprecherunabhängiger Erkenner mit einem Bigram-Sprachmodell gibt Wortgitter für alle Äußerungen in dem Testsatz aus. Diese Wortgitter werden dann unter Verwendung von sprecheradaptierten Modellen erneut bewertet. Wir verwendeten die 5000 Wort, geschlossene Vokabular Bigram- und Trigram-Sprachmodelle mit Basislinie, die von dem Lincoln Laboratory bereitgestellt wurden. Das Trigram-Sprachmodell wurde implementiert unter Verwendung der N-besten Neubewertungsparadigmen unter Neubewerten der Liste der N-besten Sprachhypothesen, die unter Verwendung des Bigram-Sprachmodells erzeugt wurden.
  • In der ersten Reihe von Experimenten verwendeten wir das Bigram-Sprachmodell. Wir bewerteten als erstes die Leistung der transformationsbasierten Adaption für verschiedene Anzahlen von Transformationen und Mengen von Adaptionsdaten. Wie wir in 8 sehen, wo wir die Wortfehlerrate als eine Funktion der Anzahl von Adaptionssätzen aufgetragen haben, übertreffen mehrere Transformationen sehr beschränkte Schemata, die ein oder zwei Transformationen verwenden. Die Leistung mit 20 und 40 Transformationen ist ähnlich und besser als der weniger beschränkte Fall von 160 Transformationen. Wenn jedoch die Menge von Adaptionsdaten sich erhöht, profitieren die 160 Transformationen von den zusätzlichen Daten und übertreffen die eingeschränkteren Schemata. Ein signifikanter Abfall in der Fehlerrate wird erzielt mit nur 5 Adaptionssätzen. Wenn unter Verwendung eines einzelnen Satzes adaptiert wird, ist die Leistung ähnlich für verschiedene Zahlen von Transformationen außer für den Fall von zwei Transformationen. Der Grund ist, daß unserer Implementierung einer Transformation nur erneut bewertet wird, wenn die Anzahl von Observationen größer als ein Grenzwert ist, ansonsten verwenden wir eine Globaltransformation, die aus allen Daten abgeschätzt wurde. Da die meisten Transformationen auf die globale Transformation für den Fall eines einzelnen Adaptionssatzes zurückgesetzt werden, zeigen die Schemata mit unterschiedlichen Transformationsanzahlen eine ähnliche Leistung.
  • In 9 haben wir die Wortfehlerraten der kombinierten Schemata für dieselbe Anzahl von Transformationen und Adaptionssätzen wie in 8 aufgetragen. Die Systeme, die verwendet werden, um die Ergebnisse von 8 zu erhalten, werden als vorheriger Bayesian-Abschätzungsschritt, wie in Sektion 3 erläutert, verwendet. Wir können sehen, daß die Leistung des kombinierten Schemas weniger empfindlich gegenüber der Anzahl von verwendeten Transformationen wird, insbesondere bei größeren Zahlen von Adaptionssätzen. Dieses Verhalten wird erwartet, da Bayesian-Schemata sich asymptotisch an die sprecherabhängige Leistung annähern, wenn sich die Menge der Adaptionsdaten erhöht. Wenn die Anzahl von Adaptionssätzen jedoch gering ist, ist es notwendig, die geeignete Anzahl von Transformationen auszuwählen und den Bayesian-Schritt mit guter Vorabinformation auszustatten.
  • In 10 vergleichen wir die Wortfehlerraten des Nur-Transformationsverfahrens mit 20 und 160 Transformationen, das genäherte Bayesian-Verfahren mit konventionellen vorherigen Werten und das kombinierte Verfahren für verschiedene Mengen von Adaptionsdaten. Im letzteren Fall wurde die Anzahl von Transformationen entsprechend der verfügbaren Menge von Adaptionsdaten optimiert. Das Nur-Transformationsverfahren mit 20 Transformationen übertraf das Bayesian-Schema mit konventionellen Vorabwerten, wenn weniger als 10 Sätze für die Adaption verwendet werden, wobei sich die Situation umkehrt, wenn mehr Adaptionssätze verwendet werden. Dies stimmt mit unserer Behauptung überein, daß sich transformationsbasierte Verfahren schneller anpassen, während Bayesian-Schemata bessere asymptotische Eigenschaften haben. Die Leistung des Transformationsansatzes für größere Mengen von Adaptionsdaten kann durch Erhöhen der Anzahl von Transformationen verbessert werden. In derselben Figur können wir ebenso den Erfolg des kombinierten Verfahrens erkennen, das die ersten beiden Verfahren über den gesamten Bereich der Adaptionssätze, den wir untersuchten, signifikant übertrifft. Der Transformationsschritt stellt eine schnelle Anpassung zur Verfügung, wenn wenige Adaptionssätze verwendet werden und der Bayesian-Erneut-Abschätzungsschritt verbessert die asymptotische Leistung.
  • Schließlich bewerteten wir die Wortfehlerrate unserer besten Leistungskonfiguration für 40 Adaptionssätze auf den Entwicklungs- und den vorher unbekannten November ARPA-Bewertungssätzen des WSJ-Hauptteils unter Verwendung eines Trigram-Sprachmodells. Unsere Ergebnisse, dargestellt in 11, stellen die besten veröffentlichten Ergebnisse bis heute für diese Aufgabe dar. Die nicht-muttersprachliche Erkennungsleistung nach der Adaption unter Verwendung von nur 40 Sätzen ist leicht besser als die von Muttersprachlern, welche für dieselben sprecherunabhängigen Modelle eine Wortfehlerrate von 9,7% bzw. 7,2% mit einem Bigram- bzw. einem Trigram-Sprachmodell hat. Der erstgenannte Erfinder, ein Nicht-Muttersprachler des American English mit einem besonders starken Akzent war Teil des Entwicklungssatzes. Da zusätzliche Adaptionsdaten für ihn verfügbar waren, bewerteten wir die Adaptionsleistung für bis zum 285 Adaptionssätze (näherungsweise 40 Minuten Sprachtext). Für diesen bestimmen Sprecher verringerte sich die spre cherunabhängige Fehlerrate um einen Faktor 4 bzw. 6 unter Verwendung von 40 bzw. 285 Adaptionssätzen. Die sprecherangepaßte Fehlerrate von 7,1% ist vergleichbar mit der Leistung des Standes der Technik für Muttersprachler für diese Aufgabe.
  • Die Erfindung wurde nun unter Bezug auf spezifische Ausführungsformen beschrieben. Andere Ausführungsformen ergeben sich dem Fachmann. Es ist daher nicht beabsichtigt, daß diese Erfindung beschränkt wird, außer wie in den angefügten Ansprüchen angezeigt wird.

Claims (13)

  1. Sprecheradaptives Spracherkennungssystem, das aufweist: einen Satz von sprecherunabhängigen Modellen, die ausgewählte Untereinheiten der Sprache darstellen, wobei jedes Modell eine Mehrzahl von verknüpften Zuständen hat und jeder Zustand mit einer Summe von Wahrscheinlichkeitsfunktionen, die aus Trainingsdaten bestimmt wurden, verknüpft ist, wobei die Trainingsdaten von einer Mehrzahl von Sprechern aus einer Trainingspopulation abgeleitet werden, wobei die sprecherunabhängigen Modelle in Cluster entsprechend der Wahrscheinlichkeitsfunktionen, die von den sprecherunabhängigen Modellen in jedem Cluster gemeinsam genutzt werden, angeordnet sind, eine Einrichtung für das Sammeln von Sprecheradaptionsdaten entsprechend zumindest einem, jedoch nicht notwendigerweise von allen der sprecherunabhängigen Modelle, eine Einrichtung für das Erzeugen eines Satzes von sprecheradaptierten Modellen entsprechend den sprecherunabhängigen Modellen, wobei die Einrichtung für die Erzeugung aufweist: – eine Einrichtung für das Bewerten, wie gut die Adaptionsmerkmale, die mit den erkannten Zuständen in den Adaptionsdaten koordiniert sind, durch die entsprechenden Zustände der sprecherunabhängigen Modelle beschrieben werden, – eine Einrichtung für das gemeinsame Abschätzen einer Mehrzahl von verbesserten Wahrscheinlichkeitsfunktionen für entsprechende Cluster von sprecherunabhängigen Modellen basierend auf Adaptionsdaten, die in diesen Clustern für sprecherunabhängige Modelle verfügbar sind, – eine Einrichtung für das unabhängige erneute Abschätzen zumindest einer verbesserten Wahrscheinlichkeitsfunktion für ein sprecherunabhängiges Modell, für das mehr als eine vorbestimmte Grenzmenge von entsprechenden Adaptionsdaten verfügbar sind, – eine Einrichtung für das Bestimmen einer Transformation entsprechend der verbesserten Wahrscheinlichkeitsfunktionen für das Transformieren des Satzes von sprecherunabhängigen Modellen in den Satz von entsprechenden sprecheradaptierten Modellen und – eine Einrichtung für das Anwenden der Transformation, um die sprecheradaptierten Modelle zu erzeugen, wobei die Transformation angewendet werden kann, um zumindest ein sprecheradaptiertes Modell zu erzeugen, ungeachtet dessen, wie viele Adaptionsdaten für das entsprechende sprecherunabhängige Modell verfügbar sind, und eine Einrichtung für das Verwenden des Satzes von sprecheradaptierten Modellen, um nachfolgende Sprachdaten zu erkennen.
  2. System nach Anspruch 1, bei dem die Summe der Wahrscheinlichkeitsfunktionen eine Mischung aus einfachen Wahrscheinlichkeitsfunktionen aufweist, und wobei das Anwenden der Transformation das Transformieren der einfachen Wahrscheinlichkeitsfunktionen aufweist.
  3. System nach Anspruch 2, bei dem die einfachen Wahrscheinlichkeitsfunktionen Gauß-Funktionen sind.
  4. System nach Anspruch 1, bei dem die Zustände der sprecherunabhängigen Modelle Gauß-Mischungen in der Form von
    Figure 00220001
  5. System nach Anspruch 4, bei dem die Summe der Wahrscheinlichkeitsfunktionen der sprecheradaptierten Modelle die Form hat
    Figure 00220002
  6. System nach Anspruch 5, das weiterhin aufweist: – eine Einrichtung für das Initialisieren aller Transformationen mit Ag(0) = I, bg(0) = 0, g = 1, ..., Ni, – eine Einrichtung für das Einstellen von k = 0, – eine Einrichtung für das Durchführen eines E-Schrittes: Durchführen einer Iteration eines Vorwärts-Rückwärts-Algorithmus auf den Sprachdaten unter Verwendung von Gauß-Funktionen, die mit dem gegenwärtigen Wert der Transformationen Ag(k), bg(k) transformiert sind, – eine Einrichtung für das Ansammeln für alle Komponenten der Gauß-Funktionen und aller Genone g der ausreichenden Statistiken:
    Figure 00220003
    wobei γi(si) die Wahrscheinlichkeit ist, den Zustand si zur Zeit t zu haben, wobei die gegenwärtigen HMM-Parameter λk gegeben sind, die Summe über alle Zeiten und HMM-Zustände verläuft, die dieselben Mischkomponenten zeigen, und ϕit(st) die Posterior-Wahrscheinlichkeit ϕit(st) = ρ(ωig|Ag(k), bg(k), xt, st ist, – eine Einrichtung für das Durchführen eines M-Schrittes: Berechnen der neuen Transformationsparameter Ag (k + 1), bg (k + 1), die erhalten werden durch Lösen der folgenden Gleichungen für jedes g
    Figure 00230001
    wobei der Offsetwert b gegeben ist durch
    Figure 00230002
    wobei die Variablen μi, σ 2 / i, μ, σ 2 / i die Elemente der Vektoren und Diagonalmatrizen μig, Σig, μ ig, Σig und – eine Einrichtung für das Gehen zum E-Schritt, falls ein Konvergenzkriterium nicht erfüllt ist.
  7. System nach Anspruch 1, das weiterhin aufweist: eine Einrichtung für das Speichern einer Mehrzahl von sprecherunabhängigen Modellen, die durch die Trainingsengine für einen individuellen Sprecher trainiert wurden, eine Einrichtung für das Kombinieren von Parametern der sprecheradaptierten Modelle mit Parametern der sprecherunabhängigen Modelle, um verbesserte sprecherabhängige Modelle zu erzeugen.
  8. System nach Anspruch 7, bei dem die verbesserten Sprecherabhängigen Modelle Parameter haben, die entsprechend der Gleichungen abgeleitet wurden mit der Form:
    Figure 00230003
  9. Sprecheradaptives Spracherkennungssystem nach Anspruch 8, das weiterhin beinhaltet: eine Mehrzahl von Codebüchern, wobei jedes Codebuch einen Satz von einfachen Wahrscheinlichkeitsfunktionen enthält, wobei jedes Codebuch mit einer Mehrzahl der Zustände verknüpft ist, wobei die Wahrscheinlichkeitsfunktion von jedem der Zustände eine gewichtete Summe der einfachen Wahrscheinlichkeitsfunktion ist, die in deren verknüpftem Codebuch abgelegt sind, eine Einrichtung für das Verwenden der Transformation auf den Satz von Modellen, um einen Satz von sprecheradaptierten Modellen zu erzeugen durch Anwenden der Transformation, die aus einem Zustand abgeleitet ist, an das Codebuch, das mit diesem Zustand verknüpft ist, wodurch das Modell für alle anderen Zustände, die mit diesem Codebuch verknüpft sind, transformiert wird.
  10. Verfahren zum Entwickeln von Spracherkennungsmodellen, die an einen individuellen Sprecher angepaßt sind, wobei das Verfahren die Schritte aufweist: Bereitstellen eines Satzes von sprecherunabhängigen Modellen, die ausgewählte Untereinheiten der Sprache darstellen, wobei jedes Modell mit einer Mehrzahl von Zuständen verknüpft ist und jeder Zustand mit einer Summe von Wahrscheinlichkeitsfunktionen verknüpft ist, die aus Trainingsdaten bestimmt wurden, wobei die Trainingsdaten aus einer Mehrzahl von Sprechern aus einer Trainingspopulation abgeleitet wurden, wobei die sprecherunabhängigen Modelle in Clustern entsprechend der Wahrscheinlichkeitsfunktionen, die in jedem Cluster durch die sprecherunabhängigen Modelle gemeinsam genutzt werden, angeordnet sind, Sammeln von Sprecheradaptionsdaten entsprechend zumindest einiger, jedoch nicht notwendigerweise aller sprecherunabhängigen Modelle, Erzeugen eines Satzes von sprecheradaptierten Modellen entsprechend der sprecherunabhängigen Modelle, wobei das Erzeugen aufweist: Bewerten, wie gut die Adaptionsmerkmale, die mit erkannten Zuständen in den Adaptionsdaten ausgerichtet sind, durch die entsprechenden Zustände der sprecherunabhängigen Modelle beschrieben werden, gemeinsames Abschätzen einer Mehrzahl von verbesserten Wahrscheinlichkeitsfunktionen für die entsprechenden Cluster der sprecherunabhängigen Modelle basierend auf Adaptionsdaten, die in diesen Clustern für sprecherunabhängige Modelle verfügbar sind, unabhängiges erneutes Abschätzen zumindest einer verbesserten Wahrscheinlichkeitsfunktion für ein sprecherunabhängiges Modell, für das mehr als eine vorbestimmte Grenzmenge von entsprechenden Adaptionsdaten verfügbar ist, Bestimmen einer Transformation entsprechend der verbesserten Wahrscheinlichkeitsfunktionen für das Transformieren des Satzes von sprecherunabhängigen Modellen in den Satz von entsprechenden sprecheradaptierten Modellen und Anwenden der Transformation, um die sprecherangepaßten Modelle zu erzeugen, wobei das Anwenden der Transformation das Erzeugen zumindest eines sprecherangepaßten Modells aufweist, unabhängig davon, wie viele Adaptionsdaten für das entsprechende sprecherunabhängige Modell verfügbar sind.
  11. Verfahren nach Anspruch 10, wobei die Wahrscheinlichkeitsfunktionen Gauß-Funktionen sind.
  12. Verfahren nach Anspruch 10, bei dem die Anzahl von Clustern eine willkürliche Zahl ist, die basierend auf Systemressourcen und gewünschten Leistungscharakteristika ausgewählt wird.
  13. Verfahren nach einem der Ansprüche 10 bis 12, das weiterhin aufweist: Speichern einer Mehrzahl von sprecherabhängigen Modellen, die für einen individuellen Sprecher trainiert wurden, Kombinieren von Parametern der sprecheradaptierten Modelle mit Parametern der sprecherabhängigen Modelle, um verbesserte sprecherabhängige Modelle zu erzeugen.
DE69635655T 1995-01-20 1996-01-19 Sprecherangepasste Spracherkennung Expired - Lifetime DE69635655T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/375,908 US5864810A (en) 1995-01-20 1995-01-20 Method and apparatus for speech recognition adapted to an individual speaker
PCT/US1996/000762 WO1996022514A2 (en) 1995-01-20 1996-01-19 Method and apparatus for speech recognition adapted to an individual speaker
US375908 1999-08-17

Publications (2)

Publication Number Publication Date
DE69635655D1 DE69635655D1 (de) 2006-02-02
DE69635655T2 true DE69635655T2 (de) 2006-09-14

Family

ID=23482858

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69635655T Expired - Lifetime DE69635655T2 (de) 1995-01-20 1996-01-19 Sprecherangepasste Spracherkennung

Country Status (8)

Country Link
US (1) US5864810A (de)
EP (1) EP0804721B1 (de)
JP (1) JP4217275B2 (de)
AT (1) ATE314718T1 (de)
CA (1) CA2210887C (de)
DE (1) DE69635655T2 (de)
ES (1) ES2252752T3 (de)
WO (1) WO1996022514A2 (de)

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081660A (en) * 1995-12-01 2000-06-27 The Australian National University Method for forming a cohort for use in identification of an individual
BR9712979A (pt) * 1996-09-10 2000-10-31 Siemens Ag Processo para adaptação de um modelo acústico hidden markov em um sistema de identificação de fala
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6128587A (en) * 1997-01-14 2000-10-03 The Regents Of The University Of California Method and apparatus using Bayesian subfamily identification for sequence analysis
JP3886024B2 (ja) * 1997-11-19 2007-02-28 富士通株式会社 音声認識装置及びそれを用いた情報処理装置
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6148284A (en) 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
JP3412496B2 (ja) * 1998-02-25 2003-06-03 三菱電機株式会社 話者適応化装置と音声認識装置
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6327565B1 (en) * 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
EP0953971A1 (de) * 1998-05-01 1999-11-03 Entropic Cambridge Research Laboratory Ltd. System und Verfahren zur Spracherkennung
AU3889799A (en) * 1998-05-08 1999-11-29 T-Netix, Inc. Channel estimation system and method for use in automatic speaker verification systems
JP3156668B2 (ja) * 1998-06-19 2001-04-16 日本電気株式会社 音声認識装置
US6269334B1 (en) * 1998-06-25 2001-07-31 International Business Machines Corporation Nongaussian density estimation for the classification of acoustic feature vectors in speech recognition
US6185530B1 (en) 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6269335B1 (en) 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6725195B2 (en) * 1998-08-25 2004-04-20 Sri International Method and apparatus for probabilistic recognition using small number of state clusters
US6256607B1 (en) * 1998-09-08 2001-07-03 Sri International Method and apparatus for automatic recognition using features encoded with product-space vector quantization
US7702464B1 (en) 2001-08-21 2010-04-20 Maxygen, Inc. Method and apparatus for codon determining
US8457903B1 (en) 1999-01-19 2013-06-04 Codexis Mayflower Holdings, Llc Method and/or apparatus for determining codons
US7873477B1 (en) 2001-08-21 2011-01-18 Codexis Mayflower Holdings, Llc Method and system using systematically varied data libraries
EP1022725B1 (de) * 1999-01-20 2005-04-06 Sony International (Europe) GmbH Auswahl akustischer Modelle mittels Sprecherverifizierung
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
AU2684100A (en) * 1999-03-11 2000-09-28 British Telecommunications Public Limited Company Speaker recognition
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6466908B1 (en) * 2000-01-14 2002-10-15 The United States Of America As Represented By The Secretary Of The Navy System and method for training a class-specific hidden Markov model using a modified Baum-Welch algorithm
US6539351B1 (en) * 2000-02-04 2003-03-25 International Business Machines Corporation High dimensional acoustic modeling via mixtures of compound gaussians with linear transforms
GB0004097D0 (en) * 2000-02-22 2000-04-12 Ibm Management of speech technology modules in an interactive voice response system
US6789062B1 (en) * 2000-02-25 2004-09-07 Speechworks International, Inc. Automatically retraining a speech recognition system
US6470314B1 (en) * 2000-04-06 2002-10-22 International Business Machines Corporation Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
US7047196B2 (en) * 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
DE10047723A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
AU2000276404A1 (en) * 2000-09-30 2002-04-15 Intel Corporation (A Corporation Of Delaware) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (lvcsr) system
DE60007637T2 (de) * 2000-10-10 2004-11-18 Sony International (Europe) Gmbh Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
US7003465B2 (en) * 2000-10-12 2006-02-21 Matsushita Electric Industrial Co., Ltd. Method for speech recognition, apparatus for the same, and voice controller
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
US8095370B2 (en) * 2001-02-16 2012-01-10 Agiletv Corporation Dual compression voice recordation non-repudiation system
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
US20050055199A1 (en) * 2001-10-19 2005-03-10 Intel Corporation Method and apparatus to provide a hierarchical index for a language model data structure
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US6687672B2 (en) 2002-03-15 2004-02-03 Matsushita Electric Industrial Co., Ltd. Methods and apparatus for blind channel estimation based upon speech correlation structure
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
US7716047B2 (en) * 2002-10-16 2010-05-11 Sony Corporation System and method for an automatic set-up of speech recognition engines
US7523034B2 (en) * 2002-12-13 2009-04-21 International Business Machines Corporation Adaptation of Compound Gaussian Mixture models
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
US7499857B2 (en) * 2003-05-15 2009-03-03 Microsoft Corporation Adaptation of compressed acoustic models
EP1639579A1 (de) * 2003-07-01 2006-03-29 France Telecom Verfahren und system zur sprachanalyse zur kompakten darstellung von sprechern
US7480615B2 (en) * 2004-01-20 2009-01-20 Microsoft Corporation Method of speech recognition using multimodal variational inference with switching state space models
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US20080103771A1 (en) * 2004-11-08 2008-05-01 France Telecom Method for the Distributed Construction of a Voice Recognition Model, and Device, Server and Computer Programs Used to Implement Same
WO2006076661A2 (en) * 2005-01-14 2006-07-20 Tremor Media Llc Dynamic advertisement system and method
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
US7885817B2 (en) 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US7707131B2 (en) * 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US7734471B2 (en) * 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US20070033044A1 (en) * 2005-08-03 2007-02-08 Texas Instruments, Incorporated System and method for creating generalized tied-mixture hidden Markov models for automatic speech recognition
WO2007034478A2 (en) * 2005-09-20 2007-03-29 Gadi Rechlis System and method for correcting speech
US20070112567A1 (en) * 2005-11-07 2007-05-17 Scanscout, Inc. Techiques for model optimization for statistical pattern recognition
US20070129943A1 (en) * 2005-12-06 2007-06-07 Microsoft Corporation Speech recognition using adaptation and prior knowledge
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US8170868B2 (en) * 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US8214213B1 (en) 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
US20080004876A1 (en) * 2006-06-30 2008-01-03 Chuang He Non-enrolled continuous dictation
US7689417B2 (en) * 2006-09-04 2010-03-30 Fortemedia, Inc. Method, system and apparatus for improved voice recognition
US20080109391A1 (en) * 2006-11-07 2008-05-08 Scanscout, Inc. Classifying content based on mood
US8386254B2 (en) * 2007-05-04 2013-02-26 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
US8577996B2 (en) * 2007-09-18 2013-11-05 Tremor Video, Inc. Method and apparatus for tracing users of online video web sites
US8549550B2 (en) 2008-09-17 2013-10-01 Tubemogul, Inc. Method and apparatus for passively monitoring online video viewing and viewer behavior
US8775416B2 (en) * 2008-01-09 2014-07-08 Yahoo!Inc. Adapting a context-independent relevance function for identifying relevant search results
CN101281746A (zh) * 2008-03-17 2008-10-08 黎自奋 一个百分之百辨认率的国语单音与句子辨认方法
US20090259551A1 (en) * 2008-04-11 2009-10-15 Tremor Media, Inc. System and method for inserting advertisements from multiple ad servers via a master component
EP2161718B1 (de) * 2008-09-03 2011-08-31 Harman Becker Automotive Systems GmbH Spracherkennung
US8645135B2 (en) * 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
US8145488B2 (en) * 2008-09-16 2012-03-27 Microsoft Corporation Parameter clustering and sharing for variable-parameter hidden markov models
US9612995B2 (en) 2008-09-17 2017-04-04 Adobe Systems Incorporated Video viewer targeting based on preference similarity
US8155961B2 (en) 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
EP2216775B1 (de) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Sprechererkennung
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US20110093783A1 (en) * 2009-10-16 2011-04-21 Charles Parra Method and system for linking media components
EP2502195A2 (de) * 2009-11-20 2012-09-26 Tadashi Yonezaki Verfahren und vorrichtung zur optimierung einer zuweisung von werbeinhalten
WO2011071484A1 (en) 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
GB2480084B (en) * 2010-05-05 2012-08-08 Toshiba Res Europ Ltd A speech processing system and method
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US20130158996A1 (en) * 2011-12-19 2013-06-20 Spansion Llc Acoustic Processing Unit
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8965763B1 (en) 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8775177B1 (en) * 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US8838448B2 (en) * 2012-04-05 2014-09-16 Nuance Communications, Inc. Forced/predictable adaptation for speech recognition
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
TWI466101B (zh) * 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
US8571859B1 (en) * 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9946699B1 (en) * 2012-08-29 2018-04-17 Intuit Inc. Location-based speech recognition for preparation of electronic tax return
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9564125B2 (en) * 2012-11-13 2017-02-07 GM Global Technology Operations LLC Methods and systems for adapting a speech system based on user characteristics
WO2014097748A1 (ja) 2012-12-18 2014-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
US9922639B1 (en) * 2013-01-11 2018-03-20 Amazon Technologies, Inc. User feedback for speech interactions
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US20140222423A1 (en) * 2013-02-07 2014-08-07 Nuance Communications, Inc. Method and Apparatus for Efficient I-Vector Extraction
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
EP2797078B1 (de) * 2013-04-26 2016-10-12 Agnitio S.L. Schätzung der Zuverlässigkeit bei der Sprechererkennung
US9258425B2 (en) 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
JP6780182B2 (ja) 2015-10-08 2020-11-04 コルディオ メディカル リミテッド 音声分析による肺疾患の評価
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
US10847177B2 (en) 2018-10-11 2020-11-24 Cordio Medical Ltd. Estimating lung volume by speech analysis
US10803875B2 (en) 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same
US11024327B2 (en) 2019-03-12 2021-06-01 Cordio Medical Ltd. Diagnostic techniques based on speech models
US11011188B2 (en) 2019-03-12 2021-05-18 Cordio Medical Ltd. Diagnostic techniques based on speech-sample alignment
KR20210078143A (ko) * 2019-12-18 2021-06-28 엘지전자 주식회사 신규 도메인의 간투어 검출 모델 생성 방법 및 장치
US11484211B2 (en) 2020-03-03 2022-11-01 Cordio Medical Ltd. Diagnosis of medical conditions using voice recordings and auscultation
US10841424B1 (en) 2020-05-14 2020-11-17 Bank Of America Corporation Call monitoring and feedback reporting using machine learning
US11417342B2 (en) * 2020-06-29 2022-08-16 Cordio Medical Ltd. Synthesizing patient-specific speech models
CN112599121B (zh) * 2020-12-03 2023-06-20 天津大学 基于辅助数据正则化的说话人自适应方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US4977598A (en) * 1989-04-13 1990-12-11 Texas Instruments Incorporated Efficient pruning algorithm for hidden markov model speech recognition
US5075896A (en) * 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
EP0515709A1 (de) * 1991-05-27 1992-12-02 International Business Machines Corporation Verfahren und Einrichtung zur Darstellung von Segmenteinheiten zur Text-Sprache-Umsetzung
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing

Also Published As

Publication number Publication date
EP0804721B1 (de) 2005-12-28
EP0804721A2 (de) 1997-11-05
ES2252752T3 (es) 2006-05-16
US5864810A (en) 1999-01-26
JP4217275B2 (ja) 2009-01-28
CA2210887A1 (en) 1996-07-25
WO1996022514A2 (en) 1996-07-25
WO1996022514A3 (en) 1996-09-26
JPH10512686A (ja) 1998-12-02
ATE314718T1 (de) 2006-01-15
CA2210887C (en) 2009-03-31
DE69635655D1 (de) 2006-02-02

Similar Documents

Publication Publication Date Title
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69705830T2 (de) Sprachverarbeitung
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69514382T2 (de) Spracherkennung
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
WO1996022514A9 (en) Method and apparatus for speech recognition adapted to an individual speaker
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
DE69517571T2 (de) Verfahren zur Erkennung von Mustern
DE60312374T2 (de) Verfahren und system zur trennung von mehreren akustischen signalen erzeugt durch eine mehrzahl akustischer quellen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition