DE69716159T2

DE69716159T2 - Verfahren und Vorrichtung zur Kompensation von Sprachsignalen

Info

Publication number: DE69716159T2
Application number: DE69716159T
Authority: DE
Inventors: Mustafa Kemal Silver Spring Sonmez; Periagaram K. Richardson Rajasekaran
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1996-05-07
Filing date: 1997-05-07
Publication date: 2009-09-17
Anticipated expiration: 2017-05-08
Also published as: DE69716159D1; KR100447558B1; JPH1069290A; KR19980082408A; US5745872A; EP0806761A3; EP0806761B1; EP0806761A2

Description

Diese Erfindung bezieht sich auf das Gebiet der Sprachverarbeitung und insbesondere auf ein Verfahren und auf ein System zum Kompensieren von Sprachsignalen, das die Vektorquantisierungs-Codebuchanpassung verwendet.
Spracherkennungseinrichtungen des Standes der Technik zeigen eine besondere Empfindlichkeit gegenüber Fehlanpassungen in Trainings- und Testumgebungen. Diese Empfindlichkeit setzt die Leistung in vielen Aufgaben wie etwa Befehls- und Ziffernerkennung über das Telefon und Stimmenwahl herab. Die Leistungsminderung als ein Ergebnis von Fehlanpassungen der akustischen Umgebung zwischen den Übungs- und Testumgebungen ist eines der wichtigsten praktischen Probleme in der Spracherkennung. Das Problem gewinnt eine größere Bedeutung in Anwendungen über Telekommunikationskanäle, speziell mit der umfangreicheren Nutzung von persönlichen Kommunikationssystemen wie etwa Mobiltelefonen, die stets schwierige akustische Bedingungen bieten.
Die Spracherkennung in verrauschten Umgebungen ist ein wichtiges praktisches Problem und hat eine erhebliche Anzahl von Untersuchungen auf sich gelenkt. Es existieren eine Vielzahl von Herangehensweisen an viele Versionen des Problems, die in angemessenem Detail in dem Artikel "Speech Recognition in Noisy Environments: A Survey" von Y. Gong, in Speech Communication, 16, 1995, S. 261–291, zusammengefaßt sind. Dort existiert auch eine Klasse von Techniken, die direkte Vergleiche von verschiedenen Umgebungen nutzen [siehe z. B. A. Acero, Acoustical and Environmental Robustness in Automatic Speech Recognition, Kluwer Academic Publishers, Boston, MA, 1993 (worauf im folgenden als "Acero" Bezug genommen wird); F. H. Liu, R. H. Stern, A. Acero, P. J. Moreno, "Environment Normalization for Robust Speech Recognition Using Direct Cepstral Comparison", ICASSP-94, S. 61–64, April 1994 (worauf im folgenden als "Liu et al." Bezug genommen wird); und R. Schwartz, T. Anastakos, F. Kubala, J. Makhoul, L. Nguyen, G. Zavaliagkos, "Comparative Experiments an Large Vocabulary Speech Recognition", Proc. ARPA Human Language Technol ogy Workshop, Plainsboro, New Jersey, März 1993 (worauf im folgenden als "Schwartz et al." Bezug genommen wird)].
Die Codeword Dependent Cepstral Normalization–Technik (CDCN-Technik) von Acero von der Carnegie-Mellon-University (CMU) nimmt sowohl für die Referenzumgebung, in der die Sprachmodelle trainiert werden, als auch für die unbekannte Testumgebung eine Gaußsche Dichte an. Daraufhin berechnet sie sowohl die unbekannten Dichte-Parameter als auch die Kompensationsvektoren mit einem iterativen Erwartungs-Maximierungs-Algorithmus. Diese Technik ist umgebungsunabhängig (d. h., sie benötigt keinerlei Trainingsdaten von der Testumgebung), aber auch rechentechnisch aufwendig. In den meisten praktischen Anwendungen, insbesondere dann, wenn eine Echtzeit-Antwort erforderlich ist, ist der Rechenaufwand untragbar.
Deshalb hat die CMU-Gruppe das Fixed-CDCN (FCDCN) eingeführt, siehe Liu et al., welches eine ähnliche Art der Korrektur für eine bekannte Testumgebung durchführt, für welche simultan aufgezeichnete Stereo-Sprachdaten verfügbar sind. Um diese Technik auf den Fall eines unbekannten Test-Mikrophons zu erweitern, wurde eine Multiple FCDCN (MFCDCN) vorgeschlagen. Die MFCDCN benutzt einen Satz bekannter Mikrophone, für die sämtlich für alle Umgebungen simultan aufgezeichnete Stereo-Sprachdaten benötigt werden. Diese sehr wichtige Beschränkung ermöglicht, daß beide Techniken lediglich mit verschiedenen Arten von Mikrophonen verwendet werden, für welche in einer Studioumgebung angefertigte Stereoaufnahmen verfügbar sind. Es kann festgestellt werden, daß diese Techniken eher der Mikrophonkompensation als der allgemeinen Umgebungskompensation dienen, da es unmöglich ist, simultan aufgezeichnete Daten für eine Vielzahl von Umgebungen von praktischer Bedeutung wie etwa Mobiltelefone in sich bewegenden Fahrzeugen usw. zu sammeln.
Die Codebücher in den beiden obendiskutierten Herangehensweisen des Standes der Technik sind während des gesamten Erkennungsprozesses fest, wobei die Kompensationsvektoren nicht geändert werden, nachdem eine Umgebung in dem verfügbaren Satz von Umgebungen gewählt worden ist.
Folglich besteht ein Bedarf an einer Kompensationstechnik, welche sowohl A-priori-Informationen über wahrscheinliche akustische Umgebungen nutzt als auch sich an die Testumgebung anpaßt, um die Spracherkennung zu verbessern.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung gemäß den Ansprüchen 1–13 ist ein Spracherkennungsverfahren und ein Spracherkennungssystem, die einen Codebuch-Generator zur Berechnung eines Vektorquantisierungs-Codebuchs für eine bekannte Referenzumgebung und für bekannte sekundäre Umgebungen umfassen. Es wird ein Vorprozessor geschaffen, der Sprache, die aus einer unbekannten Umgebung gesammelt wurde, unter Verwendung der Vektorquantisierungs-Codebücher, die für die bekannten Umgebungen erzeugt wurden, kompensiert. Die kompensierte Sprache wird daraufhin zur weiteren Verarbeitung in eine Spracherkennungseinrichtung eingegeben, die unter Verwendung des Referenzvektorquantisierungs-Codebuchs trainiert wurde.
Eine Aufgabe der Ausführungsformen der Erfindung besteht darin, durch Anpassen des Referenzvektorquantisierungs-Codebuchs an sekundäre Umgebungen die Notwendigkeit einer simultanen Stereoaufnahme zu vermeiden.
Eine weitere Aufgabe der Ausführungsformen der Erfindung besteht darin, die verfügbaren Umgebungs-Codebücher dynamisch an die Testumgebung anzupassen, um die Übereinstimmung zwischen den Umgebungen ständig zu verbessern.
BESCHREIBUNG DER ZEICHNUNG
Diese und weitere Merkmale der Erfindung gehen für den Fachmann auf dem Gebiet aus der folgenden ausführlichen Beschreibung beispielhafter Ausführungsformen der Erfindung hervor, die zusammen mit der beigefügten Zeichnung zu nehmen ist, in der:
1 einen Blockschaltplan zeigt, der eine Ausführungsform der Erfindung darstellt;
2 einen Blockschaltplan zeigt, der einen Codebuch-Generator gemäß einer Ausführungsform der Erfindung darstellt;
3 ein Ablaufplan ist, der die Wirkung des Codebuch-Generators gemäß der vorliegenden Ausführungsform darstellt; und
4 einen Blockschaltplan eines Vorprozessors gemäß der vorliegenden Ausführungsform zeigt.
Das Verfahren und das System der Ausführungsform der Erfindung umfassen eine Technik, die die Spracherkennungsleistung für Aufgaben verbessert, in denen die Spracheingabe aus einer Vielfalt von akustischen Umgebungen empfangen wird, die sich von der Umgebung, von der die Sprachdaten empfangen wurden, auf die die Modelle trainiert wurden, unterscheiden. Die Empfindlichkeit von Erkennungseinrichtungen auf der Hidden Markov Modell-Basis (HMM-Basis) gegenüber Fehlanpassungen in Trainings- und Testumgebungen ist wohlbekannt. Diese Empfindlichkeit vermindert die Leistung in vielen Aufgaben wie etwa der Befehls- und Ziffernerkennung über Telefon und der Stimmenwahl. Die in der vorliegenden Ausführungsform beschriebene Technik vorverarbeitet die ankommenden Sprachmerkmalsvektoren, welche die ankommenden Sprachvektoren so transformieren, daß sie besser zu der Modellumgebung passen, sowohl unter Verwendung von A-priori-Informationen über wahrscheinliche akustische Umgebungen als auch unter Verwendung einer Online-Anpassung über die aktuelle Testumgebung.
Für den McCaw-Zellkörper verringert die Technik, die in dem System und in dem Verfahren der vorliegenden Ausführungsform genutzt wird, den Wortfehler für die ununterbrochene Zehn-Ziffern-Erkennung des Zellkörpers. Insbesondere verringert die Technik den Wortfehler für die ununterbrochene Zehn-Ziffern-Erkennung der Zellen-Freihand-Mikrophon-Sprache bei mittels Landleitung trainierten Modellen von 23,8% auf 13,6% und den sprecherabhängigen Direktansprech-Satzfehler von 16,5% auf 10,6%.
Ein Blockschaltplan, der eine Ausführungsform des Systems gemäß der vorliegenden Erfindung darstellt, ist in 1 gezeigt. In der HMM-Spracherkennungseinrichtung 38, die in der vorliegenden Ausführungsform genutzt wird, sind eine umfassende Reihe von Merkmalen wie etwa die Rahmenenergie, die Stimmhaftigkeit, die Spektren und ihre Ableitungen verknüpft, um einen hochdimensionierten Merkmalsvektor zu bilden. Auf diese hochdimensionale Vektorsprache wird eine Hauptkomponentenanalyse angewendet, um die Anzahl der Dimensionen durch Auswählen einer Teilmenge von Achsen, entlang derer die statistische Abweichung maximal ist, zu verringern. Dieses Verfahren wird von dem in 1 gezeigten Sprachmerkmal-Vektorgenerator 22 ausgeführt.
Der Codebuch-Generator 26 erstellt Vektorquantisierungs-Codebücher für Sprachmerkmalsvektoren in einem Hauptkomponentenraum, der mit Φ bezeichnet ist. Deshalb sind die Mitglieder in einer Klasse nicht nur wie in vielen anderen Herangehensweisen in bezug auf ihre Spektren, sondern auch sowohl durch statische als auch durch dynamische Merkmale, welche die Art bestimmen, in der sie in bezug auf die Spracherkennungsleistung durch die Umgebung beeinflußt werden, verwandt. Der Codebuch-Generator 26, wie er in 2 gezeigt ist, enthält ein Codebuch-Konstrukteurmodul 42 und ein Codebuch-Anpassermodul 44, die im folgenden jeweils ausführlich diskutiert werden.
Eine akustische Umgebung h wird beschrieben durch ein Vektorquantisierungs-Codebuch X^h, wobei X^h = {x h / k ∊ F, k = 1, ..., K} ist und wobei jeder Codevektor x h / k eine Klasse von Merkmalsvektoren in dem Hauptkomponentenraum Φ repräsentiert.
Das Vektorquantisierungs-Codebuch für die Referenzumgebung X^ref, wobei X^ref = {x ref / h ∊ F, k = 1, ..., K} ist, wird in dem Codebuch-Konstrukteurmodul 42 unter Verwendung des verallgemeinerten Lloyd-Algorithmus [siehe Y. Linde, A. Buzo, R. M. Gray, "An Algorithm for Vector Quantizer Design", IEEE Trans. Commun., Bd. COM-28, S. 84–95, Januar 1980 (worauf im folgenden als "Linde u. a." Bezug genommen wird)] konstruiert.
In den Vektorquantisierungs-Codebüchern für die sekundären Umgebungen χ, wobei χ = {X^h, h = 1, ...H} ist, müssen x ref / k und x h / k völlig gleichen akustischen Klassen entsprechen. Bei einer simultan aufgezeichneten Stereo-Datenbank ist dies automatisch erfüllt, da sämtliche Rahmen bezeichnet sind und keine Klassenverwechselung vorkommt. Für Anwendungen wie etwa Spracheinwahl über Telefon ist es praktisch unmöglich, eine Stereodatenbank zu sammeln.
In einer Realisierung des Codebuch-Anpassermoduls 44 von Ausführungsformen der Erfindung wird die inkrementelle Aktualisierungstechnik genutzt, die in Liu u. a. dargestellt ist, um die Codebücher der sekundären Umgebungen anzupassen. Allerdings ist auch beabsichtigt, daß das Codebuch-Anpassermodul 44 unter Verwendung des verallgemeinerten Lloyd-Algorithmus realisiert werden kann, wobei das Codebuch für die Referenzumgebung als das Anfangs-Codebuch genutzt wird. Die zweite Realisierung des Codebuch-Generators 26 kann als eine Stapelversion der inkrementellen Aktualisierungstechnik der ersten Realisierung betrachtet werden. Beide haben praktisch vergleichbare Leistungen geliefert. In der momentanen Ausführungsform der vorliegenden Erfindung wird die zweite Realisierung genutzt, um das Codebuch-Anpassermodul 44 zu realisieren.
3 ist ein Ablaufplan, der die Wirkung des in 1 gezeigten Codebuch-Generators 26 zeigt. Falls im Entscheidungsblock 90 die ankommenden Sprachmerkmalsvektoren, die vom Sprachmerkmalsvektor-Generator 22 empfangen werden, aus der Referenzumgebung sind, wird die Verarbeitung im Block 92 fortgesetzt, wo die Sprachmerkmalsvektoren genutzt werden, um das Referenzvektorquantisierungs-Codebuch zu konstruieren. Anschließend wird im Block 94 das resultierende Referenzvektorquantisierungs-Codebuch im Datenspeicher 30 gespeichert und die Verarbeitung im Codebuch-Generator 26 abgeschlossen.
Falls die ankommenden Sprachmerkmalsvektoren im Entscheidungsblock 90 eine der bekannten sekundären Umgebungen darstellen, wird die Verarbeitung im Block 96 fortgeführt, wo das Referenzvektorquantisierungs-Codebuch aus dem Datenspeicher 30 wiedergewonnen wird. Daraufhin wird das Referenzvektor quantisierungs-Codebuch im Block 98 unter Verwendung der Sprachmerkmalsvektoren von der bekannten Sekundärumgebung angepaßt, um ein sekundäres Vektorquantisierungs-Codebuch zu erzeugen. In Block 100 wird das sekundäre Vektorquantisierungs-Codebuch im Datenspeicher 30 gespeichert und die Verarbeitung im Codebuch-Generator 26 abgeschlossen.
4 zeigt einen Blockschaltplan, der das Vorprozessor-Modul 32 ausführlich darstellt. Wie in 4 gezeigt ist, enthält das Vorprozessor-Modul 32 ein Kompensations-Modul 102, ein Rechenmodul 104 und ein Modul zur Codebuch-Aktualisierung 106.
Der ankommende Sprachmerkmalsvektor (der n-te Rahmen der Äußerung) von der unbekannten Testumgebung wird als x(n) bezeichnet. Daraufhin wird von dem Kompensations-Modul 102 gemäß der Gleichung
der in den 1 und 4 bei 32 gezeigte kompensierte Merkmalsvektor x ^(n) berechnet, wobei die Wahrscheinlichkeit p h / k(n), daß der n-te Rahmen zum Voronoi-Bereich k in dem Codebuch h gehört, von dem Rechenmodul 104 gemäß der Gleichung
und die Wahrscheinlichkeit P_h, daß die Äußerung zur Umgebung h gehört, von dem Rechenmodul 104 gemäß der Gleichung
wobei
ist, berechnet wird.
Während der vom Kompensations-Modul 102 bzw. von der Spracherkennungseinrichtung 38 ausgeführten Kompensation und Erkennung wird die Online-Anpassung der Codebücher von dem Modul zur Codebuchaktualisierung 106 gemäß der Gleichung xhk (n) = xhk (n – 1) + μhk (n)[x(n) – xhk (n – 1)],wobei μhk (n) = γ(n)Phphk (n)und wobei
ist, ausgeführt.
Die folgenden experimentellen Ergebnisse sind bezüglich der ununterbrochenen Ziffernerkennung und des Direktansprechens in dem McCaw Zellkörper dargelegt. Der Körper enthält Daten, die unter Verwendung zweier Typen von Mikrophonen, eines Handmikrophons und eines am Visier befestigten Freihandmikrophons, über Zellkanäle gesammelt wurden, sowie mittels Landleitung gesammelte Sprachdaten. Die Landleitungs- und die Handmikrophonteile des Körpers sind größtenteils saubere Telefonsprache, deren Qualität mit dem VAA-Körper vergleichbar ist. Der Freihand-Mikrophonteil des Körpers ist jedoch wesentlich stärker verrauscht als der Rest.
Im folgenden werden zwei Experimente an dem sprecherunabhängigen Teil der McCaw-Datenbank beschrieben. Das erste Experiment untersucht die Effektivität des Kompensationsalgorithmus beim Normalisieren der Effekte, die durch das Freihandmikrophon verursacht werden, wenn Modelle verwendet werden, die an dem Handmikrophon trainiert wurden. Das zweite Experiment ist allgemeiner und nutzt die an dem VAA-Körper trainierten Modelle beim Vergleich der normalisierten und der unnormalisierten Leistungen auf den vollständigen ununterbrochenen McCaw-Zifferndaten.
In dem ersten Experiment wurden Modelle verwendet, die unter Verwendung von VAA-Modellen als Keime erzeugt und mit dem Hand-Teil des McCaw-Kör pers aktualisiert wurden. Daher ist die Hand-Zeile der Ergebnistabelle genaugenommen ein Ergebnis für eine abgeschlossene Menge. Im zweiten Experiment wurden Ziffernmodelle mit endlicher Dauer verwendet, die auf dem VAA1-Körper trainiert wurden.
Die betroffenen Körper wurden mit der in diesem Dokument offenbarten Technik normalisiert. Die Codebuchgröße, für die hier die Ergebnisse berichtet werden, ist 16. Die Codebücher wurden an Datenmengen in den McCaw- und VAA-Körpern trainiert, die von den Modellübungssätzen, für welche die Erkennungsergebnisse erhalten wurden, disjunkt waren.
Die Ergebnisse des ersten Experiments (mit Modellen, die mit Hand-Daten aktualisiert wurden) sind in der folgenden Tabelle I gezeigt. Tabelle I.

Umgebung Anzahl der Dateien Wortfehler ohne Normalisierung Wortfehler mit Normalisierung

Hand 283 3,3 3,5

Freihand 246 20,1 10,2
Der Fehler in der Hand-Umgebung (Referenzumgebung) ist nahezu der gleiche, während es bei dem Freihand-Fehler eine erhebliche Abnahme gibt.
Die Ergebnisse des zweiten Experiments (mit Modellen, die nur an VAA trainiert wurden) sind in der folgenden Tabelle II gezeigt. Tabelle II.

Umgebung Anzahl der Dateien Wortfehler ohne Normalisierung Wortfehler mit Normalisierung

vaa2 1390 4,1 4,2

Landleitung 282 4,5 4,7

Hand 283 6,0 6,1

Freihand 246 23,8 13,6
In Tabelle II ist VAA die Referenzumgebung. Die Normalisierung stört weder die Referenzumgebung noch die Landleitungs- und die Hand-Umgebung, die nahe bei der VAA liegen, merklich. Bei dem Freihand-Fehler gibt es wieder eine erhebliche Abnahme.
Ähnliche Experimente wurden in dem sprecherabhängigen Teil der McCaw-Datenbank wiederholt. Die nachfolgenden Tabellen 3 und 4 fassen die Durchschnittsergebnisse für 30 Sprecher, die jeweils 10 Namen äußern, in einer Direktansprechanwendung zusammen. Tabelle III legt die Ergebnisse für den Fall dar, daß die Landleitung als Referenzumgebung genutzt worden ist. Tabelle IV zeigt die Ergebnisse für den Fall, in dem die Hand-Umgebung die Referenzumgebung war. Tabelle III.

Umgebung Anzahl der Dateien Fehler ohne Normalisierung Fehler mit Normalisierung

Landleitung 696 3,4 3,7

Hand 688 4,7 5,4

Freihand 650 16,5 10,6

Tabelle IV.

Umgebung Anzahl der Dateien Fehler ohne Normalisierung Fehler mit Normalisierung

Landleitung 696 3,7 3,5

Hand 688 2,8 3,6

Freihand 650 7,4 6,6
Die in der vorliegenden Ausführungsform verwendete Technik kann unkompliziert auf ununterbrochene Mischungen anstelle von Vektorquantisierungs-Codebüchern verallgemeinert werden, wobei die Berechnungen steigen würden und möglicherweise eine gewisse Verbesserung erhalten würde. Die in der vorliegenden Erfindung verwendete Technik ist auf jedes Problem anwendbar, bei dem eine Parameterbehandlung der unerwünschten Verzerrung schwer ist und Daten über verschiedene wahrscheinliche Bedingungen, die die Verzerrung verursachen, verfügbar sind.
Obwohl Ausführungsformen der Erfindung und ihre Vorteile ausführlich beschrieben wurden, können selbstverständlich verschiedene Änderungen, Ersetzungen und Veränderungen daran vorgenommen werden, ohne von dem Umfang der Erfindung, wie er durch die beigefügten Ansprüche definiert ist, abzuweichen.

Claims

Sprachverarbeitungssystem, das umfaßt: Sammelmittel (12) zum Sammeln von Sprachsignalen aus mehreren Umgebungen, wobei die mehreren Umgebungen eine Referenzumgebung und wenigstens eine sekundäre Umgebung enthalten; einen Vektorgenerator (22), der mit den Sammelmitteln gekoppelt ist und aus den gesammelten Sprachsignalen Sprachmerkmalsvektoren erzeugt; einen Codebuch-Generator (26), der mit dem Vektorgenerator gekoppelt ist und unter Verwendung der Sprachmerkmalsvektoren ein Referenzvektorquantisierungs-Codebuch, das aus der Referenzumgebung gesammelte Sprachsignale definiert, und wenigstens ein sekundäres Vektorquantisierungs-Codebuch erzeugt, das aus der wenigstens einen sekundären Umgebung gesammelte Sprachsignale definiert; Speichermittel (30), die mit dem Codebuch-Generator gekoppelt sind und das Referenzvektorquantisierungs-Codebuch und das wenigstens eine sekundäre Vektorquantisierungs-Codebuch speichern; einen Vorprozessor (32), der mit den Speichermitteln und mit dem Sprachmerkmalsvektor-Generator gekoppelt ist und unter Verwendung des Referenzvektorquantisierungs-Codebuchs und des wenigstens einen sekundären Vektorquantisierungs-Codebuchs eine Codebuch-Anpassung erzeugt und die Codebuch-Anpassung dazu verwendet, Sprachmerkmalsvektoren, die aus einer unbekannten Umgebung gesammelt werden, zu transformieren, um kompensierte Sprachmerkmalsvektoren zu erzeugen; und eine Spracherkennungseinrichtung (38), die die kompensierten Sprachmerkmalsvektoren verarbeitet und Sprachmodelle enthält, die unter Verwendung des Referenzvektorquantisierungs-Codebuchs trainiert werden.
Sprachverarbeitungssystem nach Anspruch 1, bei dem die Spracherkennungseinrichtung eine Erkennungseinrichtung auf einer Hidden Markov Modell-Basis ist.
Sprachverarbeitungssystem nach Anspruch 1 oder Anspruch 2, bei dem der Codebuch-Generator das Referenzvektorquantisierungs-Codebuch unter Verwendung eines verallgemeinerten Lloyd-Algorithmus erzeugt.
Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 3, bei dem der Vorprozessor die Codebuch-Anpassung unter Verwendung inkrementeller Aktualisierungen erzeugt.
Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 3, bei dem der Vorprozessor die Codebuch-Anpassung unter Verwendung eines verallgemeinerten Lloyd-Algorithmus erzeugt, wobei der verallgemeinerte Lloyd-Algorithmus ein Anfangs-Codebuch enthält.
Sprachverarbeitungssystem nach Anspruch 5, bei dem das Anfangs-Codebuch das Referenzvektorquantisierungs-Codebuch ist.
Sprachverarbeitungssystem nach einem der Ansprüche 1 bis 6, bei dem der Codebuch-Generator das Referenzvektorquantisierungs-Codebuch so anpaßt, daß das wenigstens eine sekundäre Vektorquantisierungs-Codebuch erzeugt wird.
Sprachverarbeitungssystem nach einem vorhergehenden Anspruch, bei dem der Vorprozessor ein Kompensationsmodul enthält, das den kompensierten Merkmalsvektor x ^(n) in Übereinstimmung mit der Gleichung
erzeugt, wobei die Wahrscheinlichkeit p h / k(n) die Wahrscheinlichkeit ist, daß der n-te Rahmen zu dem Voronoi-Bereich k im Codebuch h gehört.
Sprachverarbeitungssystem nach Anspruch 8, bei dem das Rechenmodul ferner die Wahrscheinlichkeit p h / k(n) in Übereinstimmung mit der Gleichung
erzeugt, wobei die Wahrscheinlichkeit P_h die Wahrscheinlichkeit ist, daß die Äußerung zu der Umgebung h gehört.
Sprachverarbeitungssystem nach Anspruch 9, bei dem das Rechenmodul ferner die Wahrscheinlichkeit P_h in Übereinstimmung mit der Gleichung
Sprachverarbeitungssystem nach einem der Ansprüche 8 bis 10, bei dem der Vorprozessor ferner ein Modul zur Codebuch-Aktualisierung umfaßt.
Sprachverarbeitungssystem nach Anspruch 11, bei dem das Modul zur Codebuch-Aktualisierung die sekundären Vektorquantisierungs-Codebücher in Übereinstimmung mit der Gleichung xhk (n) = xhk (n – 1) + μhk (n)[x(n) – xhk (n – 1)]wobei μhk (n) = γ(n)Phphk (n)und wobei
dynamisch aktualisiert.
Verfahren für die Verarbeitung von Sprache, die aus einer unbekannten Umgebung gesammelt wird, das die Schritte umfaßt, bei denen: ein Referenzvektorquantisierungs-Codebuch erzeugt wird, das Sprache beschreibt, die aus einer Referenzumgebung gesammelt wird; Sprachmodelle, die in einer Spracherkennungseinrichtung enthalten sind, unter Verwendung des Referenzvektorquantisierungs-Codebuchs trainiert werden; wenigstens ein sekundäres Vektorquantisierungs-Codebuch, das Sprache beschreibt, die aus wenigstens einer bekannten sekundären Umgebung gesammelt wird, unter Verwendung des Referenzvektorquantisierungs-Codebuchs erzeugt wird; eine Codebuch-Anpassung unter Verwendung des wenigstens einen sekundären Vektorquantisierungs-Codebuchs erzeugt wird; Sprachmerkmalsvektoren, die die aus der unbekannten Umgebung gesammelte Sprache definieren, erzeugt werden; die Sprachmerkmalsvektoren unter Verwendung des Referenzvektorquantisierungs-Codebuchs und der Codebuch-Anpassung transformiert werden, um kompensierte Sprachmerkmalsvektoren zu erzeugen; und die kompensierten Sprachmerkmalsvektoren als Eingang in die Spracherkennungseinrichtung für eine weitere Verarbeitung bereitgestellt werden.