DE69716159T2 - Verfahren und Vorrichtung zur Kompensation von Sprachsignalen - Google Patents

Verfahren und Vorrichtung zur Kompensation von Sprachsignalen Download PDF

Info

Publication number
DE69716159T2
DE69716159T2 DE69716159T DE69716159T DE69716159T2 DE 69716159 T2 DE69716159 T2 DE 69716159T2 DE 69716159 T DE69716159 T DE 69716159T DE 69716159 T DE69716159 T DE 69716159T DE 69716159 T2 DE69716159 T2 DE 69716159T2
Authority
DE
Germany
Prior art keywords
codebook
speech
vector quantization
environment
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69716159T
Other languages
English (en)
Other versions
DE69716159D1 (de
Inventor
Mustafa Kemal Silver Spring Sonmez
Periagaram K. Richardson Rajasekaran
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of DE69716159D1 publication Critical patent/DE69716159D1/de
Application granted granted Critical
Publication of DE69716159T2 publication Critical patent/DE69716159T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Description

  • Diese Erfindung bezieht sich auf das Gebiet der Sprachverarbeitung und insbesondere auf ein Verfahren und auf ein System zum Kompensieren von Sprachsignalen, das die Vektorquantisierungs-Codebuchanpassung verwendet.
  • Spracherkennungseinrichtungen des Standes der Technik zeigen eine besondere Empfindlichkeit gegenüber Fehlanpassungen in Trainings- und Testumgebungen. Diese Empfindlichkeit setzt die Leistung in vielen Aufgaben wie etwa Befehls- und Ziffernerkennung über das Telefon und Stimmenwahl herab. Die Leistungsminderung als ein Ergebnis von Fehlanpassungen der akustischen Umgebung zwischen den Übungs- und Testumgebungen ist eines der wichtigsten praktischen Probleme in der Spracherkennung. Das Problem gewinnt eine größere Bedeutung in Anwendungen über Telekommunikationskanäle, speziell mit der umfangreicheren Nutzung von persönlichen Kommunikationssystemen wie etwa Mobiltelefonen, die stets schwierige akustische Bedingungen bieten.
  • Die Spracherkennung in verrauschten Umgebungen ist ein wichtiges praktisches Problem und hat eine erhebliche Anzahl von Untersuchungen auf sich gelenkt. Es existieren eine Vielzahl von Herangehensweisen an viele Versionen des Problems, die in angemessenem Detail in dem Artikel "Speech Recognition in Noisy Environments: A Survey" von Y. Gong, in Speech Communication, 16, 1995, S. 261–291, zusammengefaßt sind. Dort existiert auch eine Klasse von Techniken, die direkte Vergleiche von verschiedenen Umgebungen nutzen [siehe z. B. A. Acero, Acoustical and Environmental Robustness in Automatic Speech Recognition, Kluwer Academic Publishers, Boston, MA, 1993 (worauf im folgenden als "Acero" Bezug genommen wird); F. H. Liu, R. H. Stern, A. Acero, P. J. Moreno, "Environment Normalization for Robust Speech Recognition Using Direct Cepstral Comparison", ICASSP-94, S. 61–64, April 1994 (worauf im folgenden als "Liu et al." Bezug genommen wird); und R. Schwartz, T. Anastakos, F. Kubala, J. Makhoul, L. Nguyen, G. Zavaliagkos, "Comparative Experiments an Large Vocabulary Speech Recognition", Proc. ARPA Human Language Technol ogy Workshop, Plainsboro, New Jersey, März 1993 (worauf im folgenden als "Schwartz et al." Bezug genommen wird)].
  • Die Codeword Dependent Cepstral Normalization–Technik (CDCN-Technik) von Acero von der Carnegie-Mellon-University (CMU) nimmt sowohl für die Referenzumgebung, in der die Sprachmodelle trainiert werden, als auch für die unbekannte Testumgebung eine Gaußsche Dichte an. Daraufhin berechnet sie sowohl die unbekannten Dichte-Parameter als auch die Kompensationsvektoren mit einem iterativen Erwartungs-Maximierungs-Algorithmus. Diese Technik ist umgebungsunabhängig (d. h., sie benötigt keinerlei Trainingsdaten von der Testumgebung), aber auch rechentechnisch aufwendig. In den meisten praktischen Anwendungen, insbesondere dann, wenn eine Echtzeit-Antwort erforderlich ist, ist der Rechenaufwand untragbar.
  • Deshalb hat die CMU-Gruppe das Fixed-CDCN (FCDCN) eingeführt, siehe Liu et al., welches eine ähnliche Art der Korrektur für eine bekannte Testumgebung durchführt, für welche simultan aufgezeichnete Stereo-Sprachdaten verfügbar sind. Um diese Technik auf den Fall eines unbekannten Test-Mikrophons zu erweitern, wurde eine Multiple FCDCN (MFCDCN) vorgeschlagen. Die MFCDCN benutzt einen Satz bekannter Mikrophone, für die sämtlich für alle Umgebungen simultan aufgezeichnete Stereo-Sprachdaten benötigt werden. Diese sehr wichtige Beschränkung ermöglicht, daß beide Techniken lediglich mit verschiedenen Arten von Mikrophonen verwendet werden, für welche in einer Studioumgebung angefertigte Stereoaufnahmen verfügbar sind. Es kann festgestellt werden, daß diese Techniken eher der Mikrophonkompensation als der allgemeinen Umgebungskompensation dienen, da es unmöglich ist, simultan aufgezeichnete Daten für eine Vielzahl von Umgebungen von praktischer Bedeutung wie etwa Mobiltelefone in sich bewegenden Fahrzeugen usw. zu sammeln.
  • Die Codebücher in den beiden obendiskutierten Herangehensweisen des Standes der Technik sind während des gesamten Erkennungsprozesses fest, wobei die Kompensationsvektoren nicht geändert werden, nachdem eine Umgebung in dem verfügbaren Satz von Umgebungen gewählt worden ist.
  • Folglich besteht ein Bedarf an einer Kompensationstechnik, welche sowohl A-priori-Informationen über wahrscheinliche akustische Umgebungen nutzt als auch sich an die Testumgebung anpaßt, um die Spracherkennung zu verbessern.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung gemäß den Ansprüchen 1–13 ist ein Spracherkennungsverfahren und ein Spracherkennungssystem, die einen Codebuch-Generator zur Berechnung eines Vektorquantisierungs-Codebuchs für eine bekannte Referenzumgebung und für bekannte sekundäre Umgebungen umfassen. Es wird ein Vorprozessor geschaffen, der Sprache, die aus einer unbekannten Umgebung gesammelt wurde, unter Verwendung der Vektorquantisierungs-Codebücher, die für die bekannten Umgebungen erzeugt wurden, kompensiert. Die kompensierte Sprache wird daraufhin zur weiteren Verarbeitung in eine Spracherkennungseinrichtung eingegeben, die unter Verwendung des Referenzvektorquantisierungs-Codebuchs trainiert wurde.
  • Eine Aufgabe der Ausführungsformen der Erfindung besteht darin, durch Anpassen des Referenzvektorquantisierungs-Codebuchs an sekundäre Umgebungen die Notwendigkeit einer simultanen Stereoaufnahme zu vermeiden.
  • Eine weitere Aufgabe der Ausführungsformen der Erfindung besteht darin, die verfügbaren Umgebungs-Codebücher dynamisch an die Testumgebung anzupassen, um die Übereinstimmung zwischen den Umgebungen ständig zu verbessern.
  • BESCHREIBUNG DER ZEICHNUNG
  • Diese und weitere Merkmale der Erfindung gehen für den Fachmann auf dem Gebiet aus der folgenden ausführlichen Beschreibung beispielhafter Ausführungsformen der Erfindung hervor, die zusammen mit der beigefügten Zeichnung zu nehmen ist, in der:
  • 1 einen Blockschaltplan zeigt, der eine Ausführungsform der Erfindung darstellt;
  • 2 einen Blockschaltplan zeigt, der einen Codebuch-Generator gemäß einer Ausführungsform der Erfindung darstellt;
  • 3 ein Ablaufplan ist, der die Wirkung des Codebuch-Generators gemäß der vorliegenden Ausführungsform darstellt; und
  • 4 einen Blockschaltplan eines Vorprozessors gemäß der vorliegenden Ausführungsform zeigt.
  • Das Verfahren und das System der Ausführungsform der Erfindung umfassen eine Technik, die die Spracherkennungsleistung für Aufgaben verbessert, in denen die Spracheingabe aus einer Vielfalt von akustischen Umgebungen empfangen wird, die sich von der Umgebung, von der die Sprachdaten empfangen wurden, auf die die Modelle trainiert wurden, unterscheiden. Die Empfindlichkeit von Erkennungseinrichtungen auf der Hidden Markov Modell-Basis (HMM-Basis) gegenüber Fehlanpassungen in Trainings- und Testumgebungen ist wohlbekannt. Diese Empfindlichkeit vermindert die Leistung in vielen Aufgaben wie etwa der Befehls- und Ziffernerkennung über Telefon und der Stimmenwahl. Die in der vorliegenden Ausführungsform beschriebene Technik vorverarbeitet die ankommenden Sprachmerkmalsvektoren, welche die ankommenden Sprachvektoren so transformieren, daß sie besser zu der Modellumgebung passen, sowohl unter Verwendung von A-priori-Informationen über wahrscheinliche akustische Umgebungen als auch unter Verwendung einer Online-Anpassung über die aktuelle Testumgebung.
  • Für den McCaw-Zellkörper verringert die Technik, die in dem System und in dem Verfahren der vorliegenden Ausführungsform genutzt wird, den Wortfehler für die ununterbrochene Zehn-Ziffern-Erkennung des Zellkörpers. Insbesondere verringert die Technik den Wortfehler für die ununterbrochene Zehn-Ziffern-Erkennung der Zellen-Freihand-Mikrophon-Sprache bei mittels Landleitung trainierten Modellen von 23,8% auf 13,6% und den sprecherabhängigen Direktansprech-Satzfehler von 16,5% auf 10,6%.
  • Ein Blockschaltplan, der eine Ausführungsform des Systems gemäß der vorliegenden Erfindung darstellt, ist in 1 gezeigt. In der HMM-Spracherkennungseinrichtung 38, die in der vorliegenden Ausführungsform genutzt wird, sind eine umfassende Reihe von Merkmalen wie etwa die Rahmenenergie, die Stimmhaftigkeit, die Spektren und ihre Ableitungen verknüpft, um einen hochdimensionierten Merkmalsvektor zu bilden. Auf diese hochdimensionale Vektorsprache wird eine Hauptkomponentenanalyse angewendet, um die Anzahl der Dimensionen durch Auswählen einer Teilmenge von Achsen, entlang derer die statistische Abweichung maximal ist, zu verringern. Dieses Verfahren wird von dem in 1 gezeigten Sprachmerkmal-Vektorgenerator 22 ausgeführt.
  • Der Codebuch-Generator 26 erstellt Vektorquantisierungs-Codebücher für Sprachmerkmalsvektoren in einem Hauptkomponentenraum, der mit Φ bezeichnet ist. Deshalb sind die Mitglieder in einer Klasse nicht nur wie in vielen anderen Herangehensweisen in bezug auf ihre Spektren, sondern auch sowohl durch statische als auch durch dynamische Merkmale, welche die Art bestimmen, in der sie in bezug auf die Spracherkennungsleistung durch die Umgebung beeinflußt werden, verwandt. Der Codebuch-Generator 26, wie er in 2 gezeigt ist, enthält ein Codebuch-Konstrukteurmodul 42 und ein Codebuch-Anpassermodul 44, die im folgenden jeweils ausführlich diskutiert werden.
  • Eine akustische Umgebung h wird beschrieben durch ein Vektorquantisierungs-Codebuch Xh, wobei Xh = {x h / k ∊ F, k = 1, ..., K} ist und wobei jeder Codevektor x h / k eine Klasse von Merkmalsvektoren in dem Hauptkomponentenraum Φ repräsentiert.
  • Das Vektorquantisierungs-Codebuch für die Referenzumgebung Xref, wobei Xref = {x ref / h ∊ F, k = 1, ..., K} ist, wird in dem Codebuch-Konstrukteurmodul 42 unter Verwendung des verallgemeinerten Lloyd-Algorithmus [siehe Y. Linde, A. Buzo, R. M. Gray, "An Algorithm for Vector Quantizer Design", IEEE Trans. Commun., Bd. COM-28, S. 84–95, Januar 1980 (worauf im folgenden als "Linde u. a." Bezug genommen wird)] konstruiert.
  • In den Vektorquantisierungs-Codebüchern für die sekundären Umgebungen χ, wobei χ = {Xh, h = 1, ...H} ist, müssen x ref / k und x h / k völlig gleichen akustischen Klassen entsprechen. Bei einer simultan aufgezeichneten Stereo-Datenbank ist dies automatisch erfüllt, da sämtliche Rahmen bezeichnet sind und keine Klassenverwechselung vorkommt. Für Anwendungen wie etwa Spracheinwahl über Telefon ist es praktisch unmöglich, eine Stereodatenbank zu sammeln.
  • In einer Realisierung des Codebuch-Anpassermoduls 44 von Ausführungsformen der Erfindung wird die inkrementelle Aktualisierungstechnik genutzt, die in Liu u. a. dargestellt ist, um die Codebücher der sekundären Umgebungen anzupassen. Allerdings ist auch beabsichtigt, daß das Codebuch-Anpassermodul 44 unter Verwendung des verallgemeinerten Lloyd-Algorithmus realisiert werden kann, wobei das Codebuch für die Referenzumgebung als das Anfangs-Codebuch genutzt wird. Die zweite Realisierung des Codebuch-Generators 26 kann als eine Stapelversion der inkrementellen Aktualisierungstechnik der ersten Realisierung betrachtet werden. Beide haben praktisch vergleichbare Leistungen geliefert. In der momentanen Ausführungsform der vorliegenden Erfindung wird die zweite Realisierung genutzt, um das Codebuch-Anpassermodul 44 zu realisieren.
  • 3 ist ein Ablaufplan, der die Wirkung des in 1 gezeigten Codebuch-Generators 26 zeigt. Falls im Entscheidungsblock 90 die ankommenden Sprachmerkmalsvektoren, die vom Sprachmerkmalsvektor-Generator 22 empfangen werden, aus der Referenzumgebung sind, wird die Verarbeitung im Block 92 fortgesetzt, wo die Sprachmerkmalsvektoren genutzt werden, um das Referenzvektorquantisierungs-Codebuch zu konstruieren. Anschließend wird im Block 94 das resultierende Referenzvektorquantisierungs-Codebuch im Datenspeicher 30 gespeichert und die Verarbeitung im Codebuch-Generator 26 abgeschlossen.
  • Falls die ankommenden Sprachmerkmalsvektoren im Entscheidungsblock 90 eine der bekannten sekundären Umgebungen darstellen, wird die Verarbeitung im Block 96 fortgeführt, wo das Referenzvektorquantisierungs-Codebuch aus dem Datenspeicher 30 wiedergewonnen wird. Daraufhin wird das Referenzvektor quantisierungs-Codebuch im Block 98 unter Verwendung der Sprachmerkmalsvektoren von der bekannten Sekundärumgebung angepaßt, um ein sekundäres Vektorquantisierungs-Codebuch zu erzeugen. In Block 100 wird das sekundäre Vektorquantisierungs-Codebuch im Datenspeicher 30 gespeichert und die Verarbeitung im Codebuch-Generator 26 abgeschlossen.
  • 4 zeigt einen Blockschaltplan, der das Vorprozessor-Modul 32 ausführlich darstellt. Wie in 4 gezeigt ist, enthält das Vorprozessor-Modul 32 ein Kompensations-Modul 102, ein Rechenmodul 104 und ein Modul zur Codebuch-Aktualisierung 106.
  • Der ankommende Sprachmerkmalsvektor (der n-te Rahmen der Äußerung) von der unbekannten Testumgebung wird als x(n) bezeichnet. Daraufhin wird von dem Kompensations-Modul 102 gemäß der Gleichung
    Figure 00070001
    der in den 1 und 4 bei 32 gezeigte kompensierte Merkmalsvektor x ^(n) berechnet, wobei die Wahrscheinlichkeit p h / k(n), daß der n-te Rahmen zum Voronoi-Bereich k in dem Codebuch h gehört, von dem Rechenmodul 104 gemäß der Gleichung
    Figure 00070002
    und die Wahrscheinlichkeit Ph, daß die Äußerung zur Umgebung h gehört, von dem Rechenmodul 104 gemäß der Gleichung
    Figure 00070003
    wobei
    Figure 00080001
    ist, berechnet wird.
  • Während der vom Kompensations-Modul 102 bzw. von der Spracherkennungseinrichtung 38 ausgeführten Kompensation und Erkennung wird die Online-Anpassung der Codebücher von dem Modul zur Codebuchaktualisierung 106 gemäß der Gleichung xhk (n) = xhk (n – 1) + μhk (n)[x(n) – xhk (n – 1)],wobei μhk (n) = γ(n)Phphk (n)und wobei
    Figure 00080002
    ist, ausgeführt.
  • Die folgenden experimentellen Ergebnisse sind bezüglich der ununterbrochenen Ziffernerkennung und des Direktansprechens in dem McCaw Zellkörper dargelegt. Der Körper enthält Daten, die unter Verwendung zweier Typen von Mikrophonen, eines Handmikrophons und eines am Visier befestigten Freihandmikrophons, über Zellkanäle gesammelt wurden, sowie mittels Landleitung gesammelte Sprachdaten. Die Landleitungs- und die Handmikrophonteile des Körpers sind größtenteils saubere Telefonsprache, deren Qualität mit dem VAA-Körper vergleichbar ist. Der Freihand-Mikrophonteil des Körpers ist jedoch wesentlich stärker verrauscht als der Rest.
  • Im folgenden werden zwei Experimente an dem sprecherunabhängigen Teil der McCaw-Datenbank beschrieben. Das erste Experiment untersucht die Effektivität des Kompensationsalgorithmus beim Normalisieren der Effekte, die durch das Freihandmikrophon verursacht werden, wenn Modelle verwendet werden, die an dem Handmikrophon trainiert wurden. Das zweite Experiment ist allgemeiner und nutzt die an dem VAA-Körper trainierten Modelle beim Vergleich der normalisierten und der unnormalisierten Leistungen auf den vollständigen ununterbrochenen McCaw-Zifferndaten.
  • In dem ersten Experiment wurden Modelle verwendet, die unter Verwendung von VAA-Modellen als Keime erzeugt und mit dem Hand-Teil des McCaw-Kör pers aktualisiert wurden. Daher ist die Hand-Zeile der Ergebnistabelle genaugenommen ein Ergebnis für eine abgeschlossene Menge. Im zweiten Experiment wurden Ziffernmodelle mit endlicher Dauer verwendet, die auf dem VAA1-Körper trainiert wurden.
  • Die betroffenen Körper wurden mit der in diesem Dokument offenbarten Technik normalisiert. Die Codebuchgröße, für die hier die Ergebnisse berichtet werden, ist 16. Die Codebücher wurden an Datenmengen in den McCaw- und VAA-Körpern trainiert, die von den Modellübungssätzen, für welche die Erkennungsergebnisse erhalten wurden, disjunkt waren.
  • Die Ergebnisse des ersten Experiments (mit Modellen, die mit Hand-Daten aktualisiert wurden) sind in der folgenden Tabelle I gezeigt. Tabelle I.
    Umgebung Anzahl der Dateien Wortfehler ohne Normalisierung Wortfehler mit Normalisierung
    Hand 283 3,3 3,5
    Freihand 246 20,1 10,2
  • Der Fehler in der Hand-Umgebung (Referenzumgebung) ist nahezu der gleiche, während es bei dem Freihand-Fehler eine erhebliche Abnahme gibt.
  • Die Ergebnisse des zweiten Experiments (mit Modellen, die nur an VAA trainiert wurden) sind in der folgenden Tabelle II gezeigt. Tabelle II.
    Umgebung Anzahl der Dateien Wortfehler ohne Normalisierung Wortfehler mit Normalisierung
    vaa2 1390 4,1 4,2
    Landleitung 282 4,5 4,7
    Hand 283 6,0 6,1
    Freihand 246 23,8 13,6
  • In Tabelle II ist VAA die Referenzumgebung. Die Normalisierung stört weder die Referenzumgebung noch die Landleitungs- und die Hand-Umgebung, die nahe bei der VAA liegen, merklich. Bei dem Freihand-Fehler gibt es wieder eine erhebliche Abnahme.
  • Ähnliche Experimente wurden in dem sprecherabhängigen Teil der McCaw-Datenbank wiederholt. Die nachfolgenden Tabellen 3 und 4 fassen die Durchschnittsergebnisse für 30 Sprecher, die jeweils 10 Namen äußern, in einer Direktansprechanwendung zusammen. Tabelle III legt die Ergebnisse für den Fall dar, daß die Landleitung als Referenzumgebung genutzt worden ist. Tabelle IV zeigt die Ergebnisse für den Fall, in dem die Hand-Umgebung die Referenzumgebung war. Tabelle III.
    Umgebung Anzahl der Dateien Fehler ohne Normalisierung Fehler mit Normalisierung
    Landleitung 696 3,4 3,7
    Hand 688 4,7 5,4
    Freihand 650 16,5 10,6
    Tabelle IV.
    Umgebung Anzahl der Dateien Fehler ohne Normalisierung Fehler mit Normalisierung
    Landleitung 696 3,7 3,5
    Hand 688 2,8 3,6
    Freihand 650 7,4 6,6
  • Die in der vorliegenden Ausführungsform verwendete Technik kann unkompliziert auf ununterbrochene Mischungen anstelle von Vektorquantisierungs-Codebüchern verallgemeinert werden, wobei die Berechnungen steigen würden und möglicherweise eine gewisse Verbesserung erhalten würde. Die in der vorliegenden Erfindung verwendete Technik ist auf jedes Problem anwendbar, bei dem eine Parameterbehandlung der unerwünschten Verzerrung schwer ist und Daten über verschiedene wahrscheinliche Bedingungen, die die Verzerrung verursachen, verfügbar sind.
  • Obwohl Ausführungsformen der Erfindung und ihre Vorteile ausführlich beschrieben wurden, können selbstverständlich verschiedene Änderungen, Ersetzungen und Veränderungen daran vorgenommen werden, ohne von dem Umfang der Erfindung, wie er durch die beigefügten Ansprüche definiert ist, abzuweichen.

Claims (13)

  1. Sprachverarbeitungssystem, das umfaßt: Sammelmittel (12) zum Sammeln von Sprachsignalen aus mehreren Umgebungen, wobei die mehreren Umgebungen eine Referenzumgebung und wenigstens eine sekundäre Umgebung enthalten; einen Vektorgenerator (22), der mit den Sammelmitteln gekoppelt ist und aus den gesammelten Sprachsignalen Sprachmerkmalsvektoren erzeugt; einen Codebuch-Generator (26), der mit dem Vektorgenerator gekoppelt ist und unter Verwendung der Sprachmerkmalsvektoren ein Referenzvektorquantisierungs-Codebuch, das aus der Referenzumgebung gesammelte Sprachsignale definiert, und wenigstens ein sekundäres Vektorquantisierungs-Codebuch erzeugt, das aus der wenigstens einen sekundären Umgebung gesammelte Sprachsignale definiert; Speichermittel (30), die mit dem Codebuch-Generator gekoppelt sind und das Referenzvektorquantisierungs-Codebuch und das wenigstens eine sekundäre Vektorquantisierungs-Codebuch speichern; einen Vorprozessor (32), der mit den Speichermitteln und mit dem Sprachmerkmalsvektor-Generator gekoppelt ist und unter Verwendung des Referenzvektorquantisierungs-Codebuchs und des wenigstens einen sekundären Vektorquantisierungs-Codebuchs eine Codebuch-Anpassung erzeugt und die Codebuch-Anpassung dazu verwendet, Sprachmerkmalsvektoren, die aus einer unbekannten Umgebung gesammelt werden, zu transformieren, um kompensierte Sprachmerkmalsvektoren zu erzeugen; und eine Spracherkennungseinrichtung (38), die die kompensierten Sprachmerkmalsvektoren verarbeitet und Sprachmodelle enthält, die unter Verwendung des Referenzvektorquantisierungs-Codebuchs trainiert werden.
  2. Sprachverarbeitungssystem nach Anspruch 1, bei dem die Spracherkennungseinrichtung eine Erkennungseinrichtung auf einer Hidden Markov Modell-Basis ist.
  3. Sprachverarbeitungssystem nach Anspruch 1 oder Anspruch 2, bei dem der Codebuch-Generator das Referenzvektorquantisierungs-Codebuch unter Verwendung eines verallgemeinerten Lloyd-Algorithmus erzeugt.
  4. Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 3, bei dem der Vorprozessor die Codebuch-Anpassung unter Verwendung inkrementeller Aktualisierungen erzeugt.
  5. Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 3, bei dem der Vorprozessor die Codebuch-Anpassung unter Verwendung eines verallgemeinerten Lloyd-Algorithmus erzeugt, wobei der verallgemeinerte Lloyd-Algorithmus ein Anfangs-Codebuch enthält.
  6. Sprachverarbeitungssystem nach Anspruch 5, bei dem das Anfangs-Codebuch das Referenzvektorquantisierungs-Codebuch ist.
  7. Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 6, bei dem der Codebuch-Generator das Referenzvektorquantisierungs-Codebuch so anpaßt, daß das wenigstens eine sekundäre Vektorquantisierungs-Codebuch erzeugt wird.
  8. Sprachverarbeitungssystem nach einem vorhergehenden Anspruch, bei dem der Vorprozessor ein Kompensationsmodul enthält, das den kompensierten Merkmalsvektor x ^(n) in Übereinstimmung mit der Gleichung
    Figure 00130001
    erzeugt, wobei die Wahrscheinlichkeit p h / k(n) die Wahrscheinlichkeit ist, daß der n-te Rahmen zu dem Voronoi-Bereich k im Codebuch h gehört.
  9. Sprachverarbeitungssystem nach Anspruch 8, bei dem das Rechenmodul ferner die Wahrscheinlichkeit p h / k(n) in Übereinstimmung mit der Gleichung
    Figure 00140001
    erzeugt, wobei die Wahrscheinlichkeit Ph die Wahrscheinlichkeit ist, daß die Äußerung zu der Umgebung h gehört.
  10. Sprachverarbeitungssystem nach Anspruch 9, bei dem das Rechenmodul ferner die Wahrscheinlichkeit Ph in Übereinstimmung mit der Gleichung
    Figure 00140002
  11. Sprachverarbeitungssystem nach einem der Ansprüche 8 bis 10, bei dem der Vorprozessor ferner ein Modul zur Codebuch-Aktualisierung umfaßt.
  12. Sprachverarbeitungssystem nach Anspruch 11, bei dem das Modul zur Codebuch-Aktualisierung die sekundären Vektorquantisierungs-Codebücher in Übereinstimmung mit der Gleichung xhk (n) = xhk (n – 1) + μhk (n)[x(n) – xhk (n – 1)]wobei μhk (n) = γ(n)Phphk (n)und wobei
    Figure 00140003
    dynamisch aktualisiert.
  13. Verfahren für die Verarbeitung von Sprache, die aus einer unbekannten Umgebung gesammelt wird, das die Schritte umfaßt, bei denen: ein Referenzvektorquantisierungs-Codebuch erzeugt wird, das Sprache beschreibt, die aus einer Referenzumgebung gesammelt wird; Sprachmodelle, die in einer Spracherkennungseinrichtung enthalten sind, unter Verwendung des Referenzvektorquantisierungs-Codebuchs trainiert werden; wenigstens ein sekundäres Vektorquantisierungs-Codebuch, das Sprache beschreibt, die aus wenigstens einer bekannten sekundären Umgebung gesammelt wird, unter Verwendung des Referenzvektorquantisierungs-Codebuchs erzeugt wird; eine Codebuch-Anpassung unter Verwendung des wenigstens einen sekundären Vektorquantisierungs-Codebuchs erzeugt wird; Sprachmerkmalsvektoren, die die aus der unbekannten Umgebung gesammelte Sprache definieren, erzeugt werden; die Sprachmerkmalsvektoren unter Verwendung des Referenzvektorquantisierungs-Codebuchs und der Codebuch-Anpassung transformiert werden, um kompensierte Sprachmerkmalsvektoren zu erzeugen; und die kompensierten Sprachmerkmalsvektoren als Eingang in die Spracherkennungseinrichtung für eine weitere Verarbeitung bereitgestellt werden.
DE69716159T 1996-05-07 1997-05-07 Verfahren und Vorrichtung zur Kompensation von Sprachsignalen Expired - Lifetime DE69716159T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/646,192 US5745872A (en) 1996-05-07 1996-05-07 Method and system for compensating speech signals using vector quantization codebook adaptation
US646192 2003-08-21

Publications (2)

Publication Number Publication Date
DE69716159D1 DE69716159D1 (de) 2002-11-14
DE69716159T2 true DE69716159T2 (de) 2009-09-17

Family

ID=24592138

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69716159T Expired - Lifetime DE69716159T2 (de) 1996-05-07 1997-05-07 Verfahren und Vorrichtung zur Kompensation von Sprachsignalen

Country Status (5)

Country Link
US (1) US5745872A (de)
EP (1) EP0806761B1 (de)
JP (1) JPH1069290A (de)
KR (1) KR100447558B1 (de)
DE (1) DE69716159T2 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US7319954B2 (en) * 2001-03-14 2008-01-15 International Business Machines Corporation Multi-channel codebook dependent compensation
KR100435441B1 (ko) * 2002-03-18 2004-06-10 정희석 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
USH2172H1 (en) 2002-07-02 2006-09-05 The United States Of America As Represented By The Secretary Of The Air Force Pitch-synchronous speech processing
US7751483B1 (en) 2004-04-16 2010-07-06 Majesco Entertainment Company Video codec for embedded handheld devices
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8775179B2 (en) * 2010-05-06 2014-07-08 Senam Consulting, Inc. Speech-based speaker recognition systems and methods
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN107729994B (zh) 2017-11-28 2020-05-26 南京地平线机器人技术有限公司 执行卷积神经网络中的卷积层的运算的方法和装置
CN110648690B (zh) * 2019-09-26 2020-12-15 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5487129A (en) * 1991-08-01 1996-01-23 The Dsp Group Speech pattern matching in non-white noise
JP2979943B2 (ja) * 1993-12-14 1999-11-22 日本電気株式会社 音声符号化装置
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition

Also Published As

Publication number Publication date
DE69716159D1 (de) 2002-11-14
KR100447558B1 (ko) 2005-01-31
JPH1069290A (ja) 1998-03-10
KR19980082408A (ko) 1998-12-05
US5745872A (en) 1998-04-28
EP0806761A3 (de) 1998-09-23
EP0806761B1 (de) 2002-10-09
EP0806761A2 (de) 1997-11-12

Similar Documents

Publication Publication Date Title
DE69716159T2 (de) Verfahren und Vorrichtung zur Kompensation von Sprachsignalen
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE602005001048T2 (de) Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60004331T2 (de) Sprecher-erkennung
EP0925579A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE10030105A1 (de) Spracherkennungseinrichtung
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP1640969B1 (de) Verfahren zur Sprecheradaption für ein Hidden-Markov-Modell basiertes Spracherkennungssystem
EP0595889A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache.
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
DE4222916C2 (de) Verfahren zur schnellen Sprecheradaption in einem Spracherkenner für großen Wortschatz

Legal Events

Date Code Title Description
8364 No opposition during term of opposition