DE60209706T2

DE60209706T2 - Spracherkennungsverfahren

Info

Publication number: DE60209706T2
Application number: DE60209706T
Authority: DE
Inventors: Josep Prous Blancafort; Jesús SALILLAS TELLAECHE
Original assignee: Prous Institute for Biomedical Research SA
Current assignee: Prous Institute for Biomedical Research SA
Priority date: 2002-05-06
Filing date: 2002-05-06
Publication date: 2006-10-19
Anticipated expiration: 2022-05-07
Also published as: US20050228661A1; JP2005524869A; EP1505572B1; DE60209706D1; ES2258624T3; AU2002302651A1; EP1505572A1; WO2003094151A1

Description

Gebiet der Erfindung
Diese Erfindung bezieht sich auf das Gebiet der automatischen Spracherkennung für einen umfassenden und kontinuierlichen Wortschatz und in einer Art und Weise, die sprecherunabhängig ist.
Die Erfindung bezieht sich auf ein Spracherkennungsverfahren, das folgendes besitzt:

(a) einen Schritt der Zerlegung eines digitalisierten Sprachsignals in eine Vielzahl von Bruchteilen,
(b) einen Schritt der Darstellung eines jeden dieser Bruchteile durch einen repräsentativen Vektor X_t, und
(c) einen Schritt der Klassifizierung der repräsentativen Vektoren X_t, wobei jeder repräsentative Vektor X_t mit einer phonetischen Darstellung verbunden ist, so dass man eine Sequenz phonetischer Darstellungen erhalten kann.

Die Erfindung bezieht sich weiterhin auf ein System der Informationstechnik, das eine Ausführungsumgebung besitzt, die für die Ausführung eines Programmes der Informationstechnik geeignet ist, welches Spracherkennungsfunktionen besitzt.
Die Erfindung bezieht sich auch auf ein Programm der Informationstechnik, das direkt in den internen Speicher eines Computers geladen werden kann, und ein Programm der Informationstechnik, das auf einem Medium gespeichert ist, welches für die Verwendung mit einem Computer geeignet ist.
Bisheriger Stand der Technik
Im allgemeinen funktionieren automatische Spracherkennungssysteme in der folgenden Art und Weise: in einem ersten Schritt wird das Analogsignal, das dem Schalldruck entspricht, mit einem Mikrofon erfasst, und in einen Analog-/Digital-Konverter eingegeben, der das Signal mit einer vorgegebenen Abtastfrequenz abtastet. Bei der verwendeten Abtastfrequenz handelt es sich normalerweise um die doppelte Höchstfrequenz des Signals, die bei Sprachsignalen ungefähr zwischen 8 und 10 kHz und bei Sprachsignalen, die über das Telefon übertragen werden, 4 kHz beträgt. Sobald es digitalisiert ist, wird das Signal in Bruchteile von 10 bis 30 Millisekunden Dauer aufgeteilt, im allgemeinen mit einer gewissen Überlappung zwischen einem Bruchteil und dem nächsten.
Ein repräsentativer Vektor wird aus jedem Bruchteil berechnet, im allgemeinen mittels einer Umwandlung auf die Spektralebene unter Verwendung der schnellen Fouriertransformation (FFT) oder einer anderen Transformation, und anschließender Übernahme einer bestimmten Anzahl von Koeffizienten der Transformation. In den meisten Fällen werden Derivationen der ersten und zweiten Ordnung für das umgewandelte Signal ebenfalls verwendet, um die Abweichungen des Signals über der Zeit besser darzustellen. Derzeit ist die Verwendung von Cepstrum-Koeffzienten recht weit verbreitet, die man durch spektrale Darstellung des Signals erhält, das anschließend in seine Mel- und Bark-Formen aufgeteilt wird, und dem Delta- und Delta-Delta-Koeffizienten hinzugefügt werden. Die Details dieser Implementierungen sind bekannt und können beispielsweise in (1) nachgelesen werden.
Sobald man die repräsentativen Vektoren erhalten hat, folgt ein Klassifizierungs- oder Decodifikationsverfahren in Bezug auf sie, um einige Untereinheiten zu erkennen, die in dem Sprachsignal vorhanden sind: Wörter, Silben oder Phoneme. Dieses Verfahren basiert auf der Bearbeitung des akustischen Signals durch Techniken wie die Hidden-Markov-Modelle (HMM), die in (2) beschrieben werden, Dynamic Time Warping (DTW), das in (3) beschrieben wird, oder Hidden Dynamic Models (HDM), von dem (4) ein jüngstes Beispiel ist. Bei allen diesen Systemen wird eine große Menge an Testdaten verwendet, um die optimalen Parameter für das Modell auszutesten und zu berechnen, die anschließend zur Klassifizierung oder Decodierung der repräsentativen Vektoren des Sprachsignals, das man erkennen möchte, verwendet werden.
Ein weiteres Beispiel für ein bekanntes automatisches Spracherkennungssystem wird in EP-A-0788090 offenbar gemacht.
Derzeit sind die am meisten verbreiteten Systeme diejenigen, die Markov-Modelle verwenden. In der kontinuierlichen Sprache werden häufige Koartikulations-Phänomene erzeugt, welche die Modifizierung der Aussprachemerkmale der Phoneme und sogar das Verschwinden vieler in einer kontinuierlichen Sequenz verursachen. Kombiniert mit der Variabilität, die den Sprachsignalmerkmalen eines jeden einzelnen Sprechers eigen sind, bedeutet dies, dass die Quote der direkten Erkennung stimmlicher Untereinheiten in einem kontinuierlichen Sprachsignal und mit unbegrenztem Wortschatz relativ niedrig ist. Die meisten Systeme verwenden in erster Linie Phoneme als stimmliche Untereinheiten, wobei sie diese in n-Gruppen (genannt n-Gramme) einteilen, um statistische Informationen in Bezug auf die Wahrscheinlichkeiten anwenden zu können, dass in einer bestimmten Sprache ein Phonem einem anderen folgt, wie in (5) beschrieben. Wie in (5) gezeigt wird, ist die Anwendung von n-Grammen auch weiterhin ungenügend, um akzeptable Erkennungsquoten zu erzielen, weshalb alle fortgeschrittenen Systeme Sprachenmodelle verwenden, welche einen Wortschatz mit einer
großen Anzahl vorcodierter Wörter (meistens zwischen 60.000 und 90.000), und Informationen über die Wahrscheinlichkeiten des Auftretens einzelner Wörter und geordneter Kombinationen von Wörtern verwenden. Beispiele für diese Systeme sind (6) und (7). Die Anwendung dieser Techniken verbessert die Erkennungsquote für einzelne Wörter erheblich, jedoch mit dem Nachteil, dass das System komplexer wird und seine allgemeine Verwendung in Situationen, in denen eine große Anzahl von Wörtern auftreten kann, die nicht im Wörterbuch zu finden sind, begrenzt ist.
Zusammenfassung der Erfindung
Es ist das Ziel der vorliegenden Erfindung, wie in den beigefügten Ansprüchen beansprucht, diese Nachteile zu überwinden. Das Ziel wird durch ein Spracherkennungs verfahren erreicht, wie es am Anfang dieser Patentschrift beschrieben wurde, dadurch gekennzeichnet, dass der Klassifizierungsschritt mindestens eine residuelle, vektorielle Quantisierung mit Mehrstufen-Binärbaum umfasst.
Ein weiteres Merkmal der Erfindung ist ein System der Informationstechnik, das eine Ausführungsumgebung besitzt, die für die Ausführung eines Programmes der Informationstechnik geeignet ist, welches durch mindestens eine residuelle, vektorielle Quantisierung mit Mehrstufen-Binärbaum gemäß der Erfindung Spracherkennungsfunktionen besitzt.
Ein weiteres Merkmal der Erfindung ist ein Programm der Informationstechnik, das direkt in den internen Speicher eines Computers geladen werden kann, und Anweisungen enthält, die für die Durchführung eines Verfahrens gemäß der Erfindung geeignet sind.
Schließlich ist ein weiteres Merkmal der Erfindung ein Programm der Informationstechnik, das auf einem Medium gespeichert ist, welches für die Verwendung mit einem Computer geeignet ist, und das Anweisungen enthält, die für die Durchführung eines Verfahrens gemäß der Erfindung geeignet sind.
Der Klassifizierungsschritt umfasst vorzugsweise mindestens zwei aufeinanderfolgende, vektorielle Quantisierungen, und der Klassifizierungsschritt umfasst in noch weiter bevorzugter Weise eine erste vektorielle Quantisierung, die für die Klassifizierung jedes der repräsentativen Vektoren X_t in einer Gruppe unter 256 möglichen Gruppen geeignet ist, und eine zweite vektorielle Quantisierung, die geeignet ist für die Klassifizierung jedes der repräsentativen Vektoren X_t, die in jeder der 256 Gruppen klassifiziert sind, in einer Untergruppe unter mindestens 4096 möglichen Untergruppen, und vorteilhafterweise 16.777.216 möglichen Untergruppen, für jede der Gruppen. Eine besonders vorteilhafte Ausführungsart der Erfindung wird erzielt, wenn es sich bei mindestens einer der vektoriellen Quantisierungen um einen Mehrstufen- Binärbaum mit residueller, vektorieller Quantisierung mit symmetrischer Reflexion handelt.
Bei der phonetischen Darstellung handelt es sich vorzugsweise um ein subphonisches Element, obwohl die Darstellung im allgemeinen jede bekannte Untereinheit eines Sprachsignals sein kann (Silben, Phoneme oder subphonische Elemente).
Das digitalisierte Sprachsignal wird vorzugsweise in eine Vielzahl von Bruchteilen zerlegt, die teilweise überlappen.
Eine weitere vorteilhafte Ausführungsart des Verfahrens gemäß der Erfindung erhält man, wenn dem Klassifizierungsschritt ein Segmentierungsschritt folgt, so dass die phonetischen Darstellungen zu Gruppen mit einer größeren phonetischen Länge zusammengefügt werden können, d.h. man nimmt die Sequenz subphonischer Elemente, die man erhalten hat, segmentiert sie in kleine Fragmente, und anschließend werden die subphonischen Elemente der Fragmente, die man erhalten hat, in Phonemen innerhalb des gleichen Segmentes oder Fragmentes zusammengefasst. Der Segmentierungsschritt umfasst vorzugsweise eine Gruppendurchsuchung von mindestens zwei subphonischen Elementen, die jeweils mindestens ein Hilfsphonem besitzen, sowie eine Zusammenfassung oder Gruppierung der subphonischen Elemente, die sich zwischen jedem Gruppenpaar befinden, welche Segmente subphoner Elemente bilden.
Es ist besonders vorteilhaft, dass der Segmentierungsschritt einen Schritt umfasst, in dem die subphonen Elemente zu Phonemen zusammengefasst werden, wobei der Schritt der Zusammenfassung in Bezug auf jedes der Segmente subphoner Elemente durchgeführt wird, und die folgenden Unterschritte umfasst

1. Beginnend mit der Sequenz von Segmenten subphoner Elemente {φt j.m} l ≤ t ≤ L wobei L das Segment Länge ist.
2. i = 1 initialisieren
3. s = i; e = i; n_j = 0; n_m = 0 für l ≤ j ≤ 60; l ≤ m ≤ 60 initialisieren {{jεφi j.m} = {jεφj.m l+1}; nj = nj + l
4. Wenn { {{mεφi j.m} = {mεφj.m i+1}; nm = nm + l
5. Wenn {jεφⁱj.m} ≠ {jεφ_j.m ⁱ⁺¹} und {mεφⁱj.m} ≠ {mεφ_j.m ⁱ⁺¹}, wird die folgende Zusammenfassung oder Gruppierung durchgeführt: f = Indexmax{nj, nm l ≤ j ≤ 60; l ≤ m ≤ 60} {φt j.m}; s ≤ t ≤ e → φf i = i + l; wenn i < L – 1, zu Unterschritt 3 zurückkehren und die Segmentierung abschließen.
6. i = i + l; wenn i < L – 1, zu Unterschritt 4 zurückkehren, sonst zu Unterschritt 5 gehen und die Segmentierung abschließen.

Was in diesem Fall stattfindet, ist im Grunde folgendes: man nimmt die Segmente, die man erhalten hat, und führt eine Gruppierung oder Zusammenfassung der Ketten subphonischer Elemente zu Phonemen durch.
Vorzugsweise umfasst das Verfahren einen Lernschritt, bei dem mindestens ein bekanntes, digitalisiertes Sprachsignal in eine Sequenz von Phonemen und jedes Pho nem in eine Sequenz subphonischer Elemente zerlegt wird, und anschließend jedem repräsentativen Vektor X_t nach den folgenden Regeln ein subphonisches Element zugeordnet wird:

1. φ_k-l, φ_k, φ_k+l, .... ist die Phonemsequenz, in der das Phonem φ_t in dem Zeitsegment [t^k _i, t^k _f] in Übereinstimmung mit der Sequenz repräsentativer Vektoren {X_t} erzeugt wird.
2. Die repräsentativen Vektoren {X_t} werden subphonischen Einheiten nach der folgenden Regel zugeordnet: {Xt→ /φk-l-φk/ ;tk i < t ≤ tk i + 0,2 (tk f – tk i) {Xt→ /φk-φk/ ;tk i + 0,2 (tk f – tk i) < t ≤ tk i + 0,8 (tk f – tk i) {Xt→ /φk-φk+l/ ;tk i + 0,8 (tk f – tk i) < t ≤ tk f

Im allgemeinen wird die Zerlegung der digitalisierten Sprachsignale in Phoneme, die beim Lernen verwendet wird, manuell durchgeführt, und die Zerlegung in subphonische Elemente kann, ausgehend von der manuellen Zerlegung in Phoneme, mit Hilfe der obigen Regeln automatisch erfolgen.
Vorteilhafterweise besitzt das Verfahren einen Schritt zur Reduzierung des residuellen, vektoriellen Quantisierungsbaumes, der die folgenden Unterschritte beinhaltet:

1. p = Anzahl der Schritte wird ein Anfangswert zugewiesen.
2. Die Verzweigungen der residuellen, vektoriellen Quantisierungen, die sich in Schritt p befinden, werden genommen, d.h. die Vektoren c_y, so dass die Länge (j^p) = p ist.
3. Wenn der Vektor c_y-l-0 und der Vektor c_y-l-1 beide mit dem gleichen subphonischen Element φ_j.m, verbunden sind, wird der Schritt p weggelassen, und das subphonische Element φ_j.m wird mit dem Vektor c_y-l verbunden.
4. Wenn p > 2, wird p = p – 1 genommen, und der Unterschritt 2 wird wiederholt.

Dieser Schritt der Reduzierung des residuellen, vektoriellen Quantisierungsbaumes wird vorteilhafterweise nach dem Lernschritt durchgeführt.
Der repräsentative Vektor hat vorzugsweise 39 Abmessungen, was 12 standardisierten Mel-Cepstrum-Koeffizienten entspricht und die Energie, sowie ihre Derivationen erster und zweiter Ordnung, hat einen logarithmischem Maßstab.
Kurze Beschreibung der Zeichnungen
Die weiteren Vorteile und Merkmale der Erfindung werden aus der nachfolgenden Beschreibung noch deutlicher, welche unter Bezugnahme auf die beigefügten Zeichnungen einige bevorzugte Ausführungsarten der Erfindung veranschaulicht, ohne dabei einen Anspruch auf Vollständigkeit zu erheben. Es zeigen
1 ein Blockdiagramm eines Verfahrens gemäß der Erfindung, und
2 ein Diagramm eines Schrittes der Erkennung phonetischer Darstellungen.
Detaillierte Beschreibung einiger Ausführungsarten der Erfindung
Diese Erfindung beschreibt ein Verfahren zur automatischen Spracherkennung für einen unbegrenzten und kontinuierlichen Wortschatz, das sprecherunabhängig ist. Das Verfahren basiert auf der Anwendung vektorieller Quantisierungstechniken in mehreren Stufen oder Schritten, um die Segmentierung und Klassifizierung der Phoneme in höchst präziser Art und Weise durchzuführen.
Insbesondere werden die durchschnittliche Energie jedes Bruchteils, zusammen mit einer Gesamtheit von Mel-Cepstrum-Koeffizienten und den ersten und zweiten Derivationen sowohl der Durchschnittsenergie als auch des Cepstrum-Vektors verwendet, um einen repräsentativen Vektor eines jeden Bruchteils in 39 Abmessungen zu bilden. Diese Vektoren durchlaufen einen ersten Quantisierungsschritt, der von einem vektoriellen Quantisierer mit 8-Stufen-Binärbaum gebildet wird, welcher eine erste Klassifizierung des Bruchteils durchführt, und der mit den herkömmlichen Techniken der vektoriellen Quantisierung entwickelt und ausgetestet wurde. Die Funktion dieses ersten Quantisierers besteht einfach darin, die Bruchteile in 256 Segmente zu segmentieren. Für jedes dieser Segmente wird ein 24-Stufen-Binärbaum mit vektoriellem Quantisierer mit symmetrischer Reflexion separat entwickelt.
Danach ist also jeder Vektor in eine Binärkette oder einen binären String, bestehend aus 32 Ziffern, segmentiert: 8 aus der ersten Segmentierung und 24 aus dem nachfolgenden Schritt. Diese Binärketten oder binären Strings werden während des Übungsschrittes des vektoriellen Quantisierers mit den phonetischen Darstellungen verbunden.
Ab diesem Punkt wird die Decodierung eines jeden Vektors anhand dieses Verfahrens und mit den phonetischen Darstellungen, die mit der resultierenden Binärkette oder dem resultierenden binären String verbunden sind, durchgeführt. Die Wörter werden erkannt, indem eine Gleichheitsprüfung der Zeichenketten (string matching) unter den Sequenzen phonetischer Darstellungen, die sich aus einer neuen phonetischen Distanzformel ergeben, durchgeführt wird.
Sämtliche Vektoren aus den Wörterbüchern können in einem 75 Mb Speicher gespeichert werden und jede Decodierung erfordert die Berechnung von maximal 32 vektoriellen Verzerrungen. Wenn sich die Wörterbücher im Speicher befinden, kann das gesamte Verfahren mit einem PC mit mittelmäßiger Leistung in Echtzeit durchgeführt werden.
Die Erkennungsquote einzelner Phoneme liegt bei über 90%, was eine Worterkennung mit hoher Präzision erlaubt, ohne dass vorher ein Wörterverzeichnis benötigt wird, und die Berechnungskomplexität ist weitaus einfacher.
Das erfindungsgemäße Verfahren ist in 1 veranschaulicht. Das ursprüngliche Sprachsignal, bei dem es sich im allgemeinen um ein Schallsignal oder ein Videosignal handeln kann, kann analog (AVA) oder digital (AVD) sein. Wenn das Sprachsignal ursprünglich nicht digitales Format hat, muss es zunächst einen Abtast- und Quantisierungsschritt (10) durchlaufen. Sobald es Digitalformat hat, durchläuft das Signal einen akustischen Vorverarbeitungsblock (20), so dass man eine Reihe repräsentativer Vektoren erhält, welche die wichtigsten Merkmale beschreiben, um eine phonetische Erkennung durchzuführen. Diese Vektoren werden anschließend in dem Schritt der phonetischen Erkennung (30) verarbeitet, wo sie mit den Verzeichnissen subphonischer Elemente (40) verglichen werden, um die Sequenz an Elementen zu erhalten, die der Sequenz der Eingangsvektoren am nächsten kommt. Schließlich wird die Sequenz subphonischer Elemente, die man auf diese Art und Weise erhalten hat, segmentiert (50), und auf eine einfachere phonetische Darstellung reduziert, und in einer Datenbank (60) gespeichert, so dass sie bei Durchführung einer Suche effizient abgerufen werden können. Die obigen Schritte werden nachstehend im einzelnen beschrieben.
Schritt 10 entspricht einem herkömmlichen Analog-/Digital-Konverter. Das von einem Mikrofon, Videoband oder einer anderen analogen Vorrichtung kommende Signal wird mit einer Frequenz von 11 kHz und einer Auflösung von 16 Bits abgetastet. Die Abtastung kann auch mit jeder anderen Frequenz (beispielsweise 16 kHz) durchgeführt werden, ohne dass dadurch der Schutzbereich eingeschränkt wird. Die Wahl der optimalen Abtastfrequenz hängt tatsächlich von der Systemanwendung ab: bei Anwendungen, bei denen der ursprüngliche Ton von Aufnahmestudios kommt, oder wenn es sich um eine Aufnahme hoher Qualität handelt, wird eine Abtastfrequenz von 16 kHz bevorzugt, da sie die Darstellung eines größeren Frequenzbereichs des ursprünglichen Sprachsignals erlaubt. Wenn der ursprüngliche Ton andererseits von Aufnahmen schlechter Qualität stammt (Konferenzen, Aufnahmen mit einem PC-Mikrofon, Multimedia-Dateien, die zur Übertragung über das Internet in eine niedrige Auflösung codiert worden sind ....), wäre es besser, eine niedrigere Abtastfrequenz, wie beispielsweise 11 kHz, zu verwenden, so dass ein Teil des Hintergrundgeräusches reduziert werden würde, oder damit die Frequenz eher dem ursprünglichen Signal entspricht (im Falle von Dateien beispielsweise, die zur Übertragung über das Internet codiert worden sind). Wenn eine bestimmte Abtastfrequenz gewählt wurde, muss natürlich das gesamte System mit dieser Frequenz abgetastet werden.
Schritt 20 entspricht der akustischen Vorverarbeitung. Ziel dieses Schrittes ist es, die Sequenz der ursprünglichen Abtastwerte des Signals in eine Sequenz repräsentativer Vektoren umzuwandeln, die Merkmale des Signals darstellen und eine bessere Bearbeitung der phonetischen Phänomene erlauben, und die nicht so stark voneinander abhängen. Man erhält die repräsentativen Vektoren wie folgt:

1. Die Sequenz der ursprünglichen Signalabtastwerte wird in Bruchteile von 30 MSek. pro Signal aufgegliedert. Die Bruchteile werden alle 10 MSek. genommen, d.h. sie überlappen. Um einen Teil der unerwünschten Auswirkungen zu eliminieren, der durch die Überlappung der Bruchteile erzeugt wird, werden sie mit einem Hamming-Fenster gewichtet.
2. Ein Preemphasis-Filter mit der folgenden Transferenzfunktion. H = (z) = l – 0,972 -1 wird auf die Bruchteile angewendet.
3. Für jede Funktion wird ein Vektor mit 12 Mel-Cepstral-Koeffizienten berechnet: xt(k) l ≤ k ≤ 12wobei t der Bruchzahl entspricht, d.h. sie wird alle 10 MSek. aufgenommen.
4. Der Mel-Cepstral-Koeffizient wird in Bezug auf den Bruchdurchschnitt, der in der Phrase vorhanden ist, normiert. Da die exakte Dauer der Phrase und auch die An fangs- und Endpunkte nicht bekannt sind, wird eine durchschnittliche Dauer von 5,5 Sekunden genommen, und somit lautet die Normierung:
5. Die Derivationen erster und zweiter Ordnung der normierten Vektoren werden ebenfalls genommen:
6. Schließlich wird die Energie im logarithmischen Maßstab jedes Bruchteils in Bezug auf ihren Höchstwert normiert und es werden die Derivationen erster und zweiter Ordnung genommen:
Somit besitzt der repräsentative Vektor X39 Dimensionen und wird gebildet durch:

Einzelheiten zu den Berechnungen für den akustischen Vorverarbeitungsschritt finden sich in (8), (1).
Die Erkennung der phonetischen Darstellungen findet in Schritt 30 statt. Ziel dieses Schrittes ist es, den repräsentativen Eingangsvektor X_t mit einem subphonischen Element zu assoziieren. Jeder Einzelne spricht mit einer unterschiedlichen Geschwindigkeit und außerdem variiert die Geschwindigkeit (gemessen in Phonemen pro Sekunde) bei jeder Person auch je nach ihrer geistigen Verfassung oder ihrem Angstzustand. Im allgemeinen variiert die Sprache zwischen 10 und 24 Phonemen pro Sekunde. Da die repräsentativen Vektoren X_t alle 10 ms berechnet werden, gibt es 100 Vektoren pro Sekunde und damit wird jedes Phonem durch 4 bis 10 repräsentative Vektoren repräsentiert. Das bedeutet, dass jeder repräsentative Vektor X_t eine subphonische, akustische Einheit repräsentiert, da seine Dauer geringer ist als die eines einzelnen Phonems.
Jede Sprache lässt sich mit einer Gesamtheit an Phonemen einer begrenzten Größe beschreiben. Die englische Sprache lässt sich beispielsweise mit ungefähr 50 einzelnen Phonemen beschreiben. Weitere 10 fiktive Phoneme kommen hinzu, um verschiedene Arten von Klängen in dem Signal darzustellen:

das insgesamt 60 phonetische Einheiten bildet. Jede andere Anzahl von Phonemen kann ohne Einschränkungen im Umfang verwendet werden.
Während man spricht, werden auch häufig Koartikulationsphänomene erzeugt, wobei die Aussprache jedes Phonems durch die Phoneme erfolgt, die ihm unmittelbar vorausgehen oder folgen, da das Artikulationssystem des Menschen die Position zwischen der Aussprache eines Phonems und des nächsten nicht sofort wechseln kann. Dieser Effekt wird bearbeitet, indem man zur Bildung einer klassifikatorischen Einheit mit den 3600 möglichen Kombinationen Binärkombinationen der sechzig ursprünglichen Phänomene heranzieht, auch wenn viele dieser Kombinationen in der Praxis nie vorkommen. Die Heranziehung von Binärkombinationen ist ausreichend, da das Modell auf subphonischer Ebene funktioniert.
Ein Beispiel: die einzelne Aussprache des englischen Wortes bat (Schläger; Fledermaus) könnte in dem System im letzten Schritt 30 durch folgende Sequenz dargestellt werden:
..., /eSIL_B/, /B_B/, /B_B/, /B_AE/, /B_AE/, /AE_AE/, /AE_AE/, /AE_AE/, /AE_AE/, /AE_AE/, /AE_TD/, /AE_TD/, /TD_TD/, /TD_TD/, /TD_TD/, /TD_bSIL/, /TD_bSIL/, ....
2 zeigt ein Blockdiagramm von Schritt 30. Die Sequenz der repräsentativen Vektoren {X_t} verläuft zunächst durch einen vektoriellen Quantisierer mit 8-Stufen-Binärbaum (100), der eine erste Klassifizierung
des Schallsignals durchführt. Beim Verlassen des Quantisierers erhält man repräsentative Vektoren, die im Vergleich zum Eintritt unverändert sind, aber in 256 verschiedene Gruppen klassifiziert sind, d.h. es wird eine erste Aufteilung des Raums von {X_t} in Bereiche und eine Aufteilung der Eintrittssequenz in {X_t→i} l ≤ i ≤ 256 durchgeführt. Der vektorielle Quantisierer von 100 wird in der herkömmlichen Art und Weise nach dem ursprünglichen Algorithmus, der in (9) präsentiert wird, unter Verwendung des Euklidschen Abstandes in dem Raum mit 39 Abmessungen bemessen und abgetastet, um die Verzerrung zu berechnen.
Um den vektoriellen Quantisierer 100 und allgemein das gesamte System abzutasten, wurden 300 Audiostunden unterschiedlichen Ursprungs und mit unterschiedlichen Sprechern vorbereitet, die sodann manuell segmentiert und bis zur Stufe der Phoneme kommentiert wurden. Da die erste Erkennung auf der Stufe subphonischer Einheiten erfolgt, wurde die Zerlegung der Phoneme in subphonische Einheiten für die Abtastsequenzen nach den folgenden Regeln durchgeführt:

1. Angenommen, es wird die Phonemsequenz ... φ_k-l, φ_k, φ_k+l, .... genommen, bei der das Phonem φ_k in dem Zeitsegment [t^k _i, t^k _f] erzeugt wird, und t in Übereinstimmung mit der Sequenz repräsentativer Vektoren {X_t} in Einheiten von 10 ms erfolgt.
2. Die repräsentativen Vektoren {X_t} werden den subphonischen Einheiten nach der folgenden Regel zugeordnet: {Xt → /φk-l-φk/ ;tk i < t ≤ tk i + 0,2 (tk f – tk i) {Xt → /φk-φk/ ;tk i + 0,2 (tk f – tk i) < t ≤ tk i + 0,8 (tk f – tk i) {Xt → /φk-φk+l/ ;tk i + 0,8 (tk f – tk i) < t ≤ tk f

Weitere Beispiele von Algorithmen auf der Grundlage von vektoriellen Quantisierern mit Baum zur Berechnung der Wahrscheinlichkeitsfunktionen, oder für Aufgaben der Erkennung, finden sich in den Patenten (10) und (11), auch wenn sich die Algorithmen und Verfahren sehr stark von jenen unterscheiden, die in der vorliegenden Erfindung beschrieben werden.
Sobald der Raum {X_t} segmentiert wurde, wird in Schritt 110 die Klassifizierung der repräsentativen Vektoren {X_t→i} in subphonische Einheiten durchgeführt. Wenn das Modell übernommen wird, hat man beim Ausgang von 110 eine subphonemische Sequenz {φ^t _j.m}erhalten, so dass: φj.m = /φj-φm/ l ≤ j ≤ 60; l ≤ m ≤ 60die erkannten subphonischen Einheiten darstellt.
Schritt 110 stellt einen residuellen, vektoriellen 24-Stufen-Quantisierer dar. Im allgemeinen wird X¹ als ein k-dimensionaler, wahlloser Vektor mit der Wahrscheinlichkeitsverteilungsfunktion F_x ¹(.) definiert. Ein k-dimensionaler, vektorieller Quantisierer (VQ) wird durch das Triplett (C, Q, P) beschrieben, wobei C das Wörterbuch der Vektoren, Q die Assoziationsfunktion und P die Teilung darstellen. Wenn der Quantisierer N Vektoren besitzt, verhält er sich so, dass der quantisierte Vektor Q (x^l) angesichts einer Realisierung von x^l von X^l der Vektor c_i ε C; l ≤ i ≤ N ist, so dass der Abstand zwischen x^l und c_i für jedes c_i ε C; l ≤ i ≤ N immer weniger wird. Das heißt, der Vektor c₁ wird genommen, der für den Eingangvektor x^l für eine bestimmte Abstandsfunktion, im allgemeinen den Euklidschen Abstand, die beste Annäherung darstellt. Die Teilung P segmentiert den Raum in N Bereiche und die Vektoren C sind die Schwerpunkte ihrer jeweiligen Bereiche. Das Problem der Berechnung des Tripletts (C, Q, P) – damit das VQ mit N Vektoren die beste Annäherung an einen gegebenen, wahllosen Vektor X^l darstellt – kann allgemein mit dem Algorithmus LBG (12) gelöst werden, der im wesentlichen darauf basiert, dass er eine ausreichend lange Abtastsequenz liefert, die für X^l repräsentativ ist, und nacheinander die Position der Vektoren C in den Teilungen P und anschließend die Position der Teilungen P in Bezug auf die Vektoren C optimiert, bis ein Minimum an Verzerrung in der Abtastsequenz erreicht wird. Das VQ von Schritt 100 stellt einen besonderen Fall von, mit einem Binärbaum organisiertem, VQ dar, so dass die Quantisierung hinsichtlich der Komplexität der Berechnung weniger aufwendig ist. Im vorliegenden Fall wird X^l als der repräsentative Vektor X_t angesehen, und mit jedem Vektor c_i ε C; l ≤ i ≤ N wird eine subphonische Darstellung φ_j.m verbunden, so dass VQ eine Erkennung der repräsentativen Eingangsvektoren {X₁} durchführt.
Natürlich ist es wünschenswert, ein VQ mit dem größtmöglichen N und mit mäßiger Berechnungskomplexität zu haben, um die beste Annäherung an {X₁} zu erhalten. Das Problem besteht darin, dass durch ein größeres N auch die Länge der erforderlichen Abtastsequenz und die Komplexität der Abtastung von VQ und der anschließenden Decodierung und Erkennung erhöht werden. Eine Lösung besteht in der Verwendung residueller, vektorieller Quantisierer (RVQ). Ein RVQ mit P Schritten wird durch eine Gesamtheit von geordneten
'P VQs {C^P, Q^P, P^P); l ≤ p ≤ P} gebildet, so dass das VQ (C^l, Q^l, P^l) für eine Realisierung von x^l von X^l den Vektor x^l quantisiert, und die restlichen Schritte (C^p+l, Q^p+l, P^p+l) quantisieren die restlichen Vektoren X^p-l = X^p – Q(X^P) des vorhergehenden Schrittes (C^P, Q^P, P^P) für l ≤ p ≤ P. Jedes Wörterbuch C^P enthält N^P Vektoren. Sowohl die Vektoren C^P als auch die Zellen von P^P sind mit dem Subindex j^p indexiert, wobei j^p ε J^P = {0,1, ..., N^P – 1} ist. Der Mehrstufen-Index j^p ist der p-Tupel, der durch die Verkettung der einzelnen Indizes jedes Schrittes j^p gebildet wird, und er stellt den Verlauf durch alle RVQ dar, d.h. j^P = (j^l, j², ....j^p) und man erhält den Vektor X^l als die Summe der in jedem Schritt quantisierten Vektoren
Der Vorteil der RVQs besteht darin, dass jeder einzelne VQ N^{p Vektoren haben wird,} und man eine ausreichend lange Abtastsequenz erhalten kann, doch die Gesamtzahl an RVQ hat
Vektoren, eine viel größere Anzahl könnte nicht abgetastet werden. Wenn es sich bei jedem der Schritte außerdem um einen baumstrukturierten VQ handelt, wird die Komplexität der gesamten Dekodifikation niedrig sein.
Doch das Problem der RVQs besteht darin, dass die Quantisierungsqualität, die man mit insgesamt N Vektoren erhält, weitaus geringer ist als die eines normalen VQ oder eines baumstrukturierten VQ eines einzigen Schrittes mit den gleichen N Vektoren, was der Grund dafür ist, dass sie keine große Verwendung gefunden haben. Es wurde in (13) gezeigt, dass der Qualitätsverlust auf die Tatsache zurückzuführen ist, dass jeder der Schritte mit dem LBG-Algorithmus separat von dem Rest optimiert wurde, und auch die Dekodifikation wird separat in jedem Schritt durchgeführt. Dadurch kann der akkumulierte Effekt der Entscheidungen, die in den Schritten nach einem bestimmten Schritt getroffen wurden, dazu führen, dass sich der resultierende, quantisierte Vektor außerhalb der Teilungszelle befindet, die in dem ersten Schritt gewählt wurde. Wenn außerdem die VQs in jedem der Schritte eine Baumstruktur haben, werden im Ergebnis viele der Vektorenkombinationen der verschiedenen Schritte effektiv unzugänglich sein.
Schritt 110 wurde aus einem in (13) vorgeschlagenen Algorithmus entwickelt, um RVQs basierend auf Binärbäumen mit symmetrischer Reflexion zu konstruieren. Insbesondere wird ein 24-Stufen-Binärbaum mit RVQ und symmetrischer Reflexion verwendet. Die Gesamtheit der Schritte {(C^p, Q^p, P^p); l ≤ p ≤ P} mit P = 24, die den RVQ bilden, ist in 1 als Element 40 gezeigt. Natürlich könnte auch eine Konstruktion mit einer anderen Anzahl von Schritten verwendet werden, ohne dass der Schutzbereich dadurch eingeschränkt wird.
Diesmal werden 2³² verschiedene Vektoren bearbeitet, von denen jeder mit einem phonetischen Unterelement verbunden ist, von dem es 60² verschiedene Werte gibt. Außerdem ist in der Realität bekannt, dass viele der möglichen φ_j.m -Kombinationen nicht erzeugt werden. So ist bekannt, dass für jede φ_j.m -Kombination, die man erhalten hat, tatsächlich eine große Anzahl möglicher Vektoren c_y der RVQ in 40 der genannten Kombination entspricht. Um die Menge an erforderlichem Speicher und die Komplexität der Dekodifikation zu reduzieren, wird der folgende RVQ-Baumreduzierungs-Algorithmus angewendet, sobald bereits abgetastet wurde:

1. p = 24 initialisieren.
2. Die Verzweigungen des RVQ, die sich in Schritt p befinden, d.h. die Vektoren c_y, werden genommen, so dass die Länge (j^p) = p ist
3. Wenn der Vektor c_y-l-0 und der Vektor c_y-l-l beide mit dem gleichen subphonischen Element φ_j.m assoziiert werden, wird der Schritt p weggelassen, und das subphonische Element φ_j.m wird mit dem Vektor c_y ^-l assoziiert.
4. Wenn p > 2, wird p = p – l > genommen, und der Unterschritt 2 wird wiederholt.

In Punkt 2 ist j^p der Binärindex des Vektors innerhalb des binären, vektoriellen Quantisierers, so dass seine Länge damit die Stufe des Baumes darstellt, auf die er abgestiegen ist, d.h., die residuelle Quantisierungsstufe, auf der er sich befindet, wobei es sich bei den Quantisierern um Mehrstufen-Binärbaum-Quantisierer mit symmetrischer Reflexion handelt.
In Bezug auf Punkt 3 sollte berücksichtigt werden, dass es in jedem Schritt zwei Vektoren gibt, da es sich um einen Binärbaum handelt, und die Vektoren mit den Subindices _0 und _1 gekennzeichnet sind. Um den quantisierten Vektor zu definieren, ist diese Unterscheidung nicht erforderlich, denn mit dem Wert des entsprechenden Bit in dem Index wird bereits angezeigt, welcher der beiden gewählt wurde. An diesem Punkt wird angeschaut, ob die beiden Vektoren demselben subphonischen Element entsprechen, doch dieser Schritt ist nicht mehr nötig, da man unabhängig von der Auflösung zu der gleichen Klassifizierung gelangt.
Dieser Algorithmus erlaubt die Reduzierung der Anzahl der zu speichernden Assoziationen um ungefähr 2⁹ und zusätzlich reduziert er auch die Anzahl der bei der Decodierung durchzuführenden Vergleiche, ohne dass dabei ein Verlust an Erkennungsgenauigkeit entsteht.
Am Ende von Schritt 110 ist dann die Sequenz erkannter subphonischer Elemente {φ^t _f.m} vorhanden. In Schritt 50 wird die Segmentierung der subphonischen Elemente durchgeführt. Zuerst wird die Sequenz subphonischer Elemente {φ^t _j.m} segmentiert, indem eine Erkennung der subphonischen Elemente durchgeführt wird, welche eines der Hilfsphoneme besitzen, die in der oben angegebenen Tabelle dargestellt sind. Die ursprüngliche Sequenz wird immer dann segmentiert, wenn zwei aufeinanderfolgende, subphonische Elemente eines der Hilfsphoneme umfassen. Diese Segmente liefern eine erste Einschätzung der Wörter, auch wenn die Segmentierung nicht sehr präzise ist, und man verschiedene Gruppen verbundener Wörter im gleichen Segment erhält. Anschließend wird der folgende Algorithmus verwendet, um die subphonischen Elemente in Phoneme zusammenzufassen:

1. Beginnend mit der segmentierten Sequenz subphoner Elemente: {φt j.m} l ≤ t ≤ Lwobei L das Segment Länge ist,
2. i = L initialisieren
3. s = i; e = i; n_j = 0; n_m = 0 für l ≤ j ≤ 60; l ≤ m ≤ 60 initialisieren {{jεφi j.m} = {jεφj.m i+l}; nj = nj + l
4. Wenn { {{mεφi j.m} = {mεφj.m i+l}; nm = nm + l
5. Wenn {jεφⁱ _j.m} # {jεφ_j.m ^i+l} und {mεφⁱ _j.m} # {mεφ_j.m ^i+l}, wird die folgende Zusammenfassung oder Gruppierung durchgeführt: f = Indexmax {nj,nm l ≤ j ≤ 60; l ≤ m ≤ 60} {φt j.m}; s ≤ t ≤ e → φf i = i + l; wenn i < L – l, zu Unterschritt 3 zurückkehren und die Segmentierung abschließen.
6. i = i + l; wenn i < L – l, zu Unterschritt 4 zurückkehren, sonst zu Unterschritt 5 gehen und die Segmentierung abschließen.

Mit diesem Algorithmus werden die subphonischen Elemente zu Phonemen zusammengefasst, welches die Elemente sind, die schließlich in der Datenbank gespeichert werden. Damit kann die Menge an Informationen, die in der Datenbank gespeichert werden sollen, um einen Faktor in der Größenordnung von 6 bis 9 reduziert werden, was die anschließende Verarbeitung erleichtert.
Literaturhinweise
Nachstehend sind sämtliche bibliographischen Hinweise aufgeführt, die in der obigen Beschreibung zitiert worden sind. Alle der folgenden bibliographischen Verweise (1), (2), (3), (4), (5), (6), (7), (8), (9), (10), (11), (12) und (13) sind aus Gründen der Bezugnahme in dieser Patentbeschreibung enthalten.

(1) Rabiner, L. und Juang, B.H., "Fundamentals of Speech Recognition", Prentice-Hall, Englewood Cliffs, N.J., 1993.
(2) Levinson, S.E., Rabiner, L.R. and Sondhi, M.M., "An Introduction to the Application of the Theory of Probabilistic Functions of a Markov Process to Automatic Speech Recognition", The Bell System Technical Journal, Vol. 62, No. 4, April 1983, pp. 1035–1074.
(3) Itakura, F., "Minimum Prediction Residual Principle Applied to Speech Recognition", IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-23, No. 1, Feb. 1975, pp. 66–72.
(4) Deng, Li and Ma, Jeff, "Spontaneous speech recognition using a statistical coarticulatory model for the vocal-tract-resonance-dynamics", Journal of the Acoustical Society of America, Vol. 108, No. 5, Nov. 2000.
(5) Corinna, Ng., Wilkinson, Ross and Zobel, Justin, "Experiments in spoken document retrieval using phoneme n-grams", Speech Communication, Vol. 32, 2000, pp. 61–77.
(6) Renals, S., Abberley, D., Kirby, D. and Robinson, T., "Indexing and retrieval of broadcast news", Speech Communication, Vol. 32, 2000, pp. 5–20.
(7) Johnson, S.E., Jourlin, P., Spärck Jones, K. and Woodland, P.C., "Spoken Document Retrieval for TREC-9 at Cambridge University", Proceedings of the TREC-9 Conference, to be published.
(8) Picone, J.W., "Signal Modeling Techniques in Speech Recognition", Proceedings of the IEEE, Vol. 81, No. 9, Sept. 1993, pp. 1215–1247.
(9) Gray, R.M., Abut, H., "Full search and tree searched vector quantisation of waveforms", Proceedings of the IEEEICASSP, pp. 593–596, Paris, 1982.
(10) Watanabe, T., "Pattern recognition with a tree structure used for reference pattern feature vectors of for HMMM", EPO627726, Nippon Electric Co., 1994.
(11) Seide,F., "Method and system for pattern recognition based on tree organized probability densities", US5857169, Philips Corp., 1999.
(12) Linde, Y., Buzo, A., Gray, R.M., "An algorithm for vector quantiser design", IEEE Transactions on Communications, pp. 84–95, Jan. 1980.
(13) Barnes, C.F., Frost, R.L., "Residual vector quantisers with jointly optimized codebooks", Advances in Electronics and Electron Physics, 1991

Claims

Spracherkennungsverfahren, das folgendes besitzt (a) einen Schritt der Zerlegung eines digitalisierten Sprachsignals in eine Vielzahl von Bruchteilen, (b) einen Schritt der Darstellung eines jeden der Bruchteile durch einen repräsentativen Vektor X_t, und (c) einen Schritt der Klassifizierung der repräsentativen Vektoren X_t, wobei jeder repräsentative Vektor X_t mit einer phonetischen Darstellung verbunden ist, so das man eine Sequenz phonetischer Darstellungen erhalten kann, dadurch gekennzeichnet, dass der Klassifizierungsschritt mindestens eine residuelle, vektorielle Quantisierung mit Mehrstufen-Binärbaum umfasst.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Klassifizierungsschritt mindestens zwei aufeinanderfolgende, vektorielle Quantisierungen umfasst.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der Klassifizierungsschritt eine erste vektorielle Quantisierung umfasst, die für die Klassifizierung jedes der repräsentativen Vektoren X_t in einer Gruppe unter 256 möglichen Gruppen geeignet ist, und eine zweite vektorielle Quantisierung umfasst, die geeignet ist für die Klassifizierung jedes der repräsentativen Vektoren X_t, die in jeder der 256 Gruppen klassifiziert sind, in einer Untergruppe unter mindestens 4096 möglichen Untergruppen, und vorteilhafterweise 16.777.216 möglichen Untergruppen, für jede der Gruppen.
Verfahren nach einer der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass es sich bei mindestens einer der vektoriellen Quantisierungen um einen Mehr stufen-Binärbaum mit residueller, vektorieller Quantisierung mit symmetrischer Reflexion handelt.
Verfahren nach mindestens einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass es sich bei der phonetischen Darstellung um ein subphonisches Element handelt.
Verfahren nach mindestens einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Bruchteile teilweise überlappen.
Verfahren nach mindestens einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass dem Klassifizierungsschritt ein Segmentierungsschritt folgt, so dass die phonetischen Darstellungen zu Gruppen mit einer größeren phonetischen Länge zusammengefügt werden können.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass der Segmentierungsschritt eine Gruppendurchsuchung von mindestens zwei subphonischen Elementen umfasst, die jeweils mindestens ein Hilfsphonem besitzen, sowie eine Zusammenfassung oder Gruppierung der subphonischen Elemente, die sich zwischen jedem Gruppenpaar befinden, welche Segmente subphoner Elemente bilden.
Verfahren nach einem der Ansprüche 7 oder 8, dadurch gekennzeichnet, dass der Segmentierungsschritt einen Schritt umfasst, in dem die subphonen Elemente zu Phonemen zusammengefasst werden, wobei der Schritt der Zusammenfassung in Bezug auf jedes der Segmente subphoner Elemente durchgeführt wird, und die folgenden Unterschritte umfasst: 1. Beginnend mit der Sequenz von Segmenten subphoner Elemente: {φt j.m} l ≤ t ≤ Lwobei L das Segment Länge ist. 2. i = L initialisieren 3. s = i; e = i; n_j = 0; n_m = 0 für l ≤ j ≤ 60; l ≤ m ≤ 60 initialisieren {{jεφi j.m} = {jεφj.m l+1}; nj = nj + l 4. Wenn { {{mεφi j.m} = {mεφj.m i+1}; nm = nm + l 5. Wenn {jεφⁱ _j.m} # {{jεφ_j.m ⁱ⁺¹} und {mεφⁱ _j.m} # {mεφ_j.m ⁱ⁺¹} wird die folgende Zusammenfassung oder Gruppierung durchgeführt: f = Indexmax {nj, nm l ≤ j ≤ 60; l ≤ m ≤ 60} {φt j.m}; s ≤ t ≤ e → φf i = i + l; wenn i < L – 1, zu Unterschritt 3 zurückkehren und die Segmentierung abschließen. 6. i = i + l; wenn i < L – 1, zu Unterschritt 4 zurückkehren, sonst zu Unterschritt 5 gehen und die Segmentierung abschließen.
Verfahren nach mindestens einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass es einen Lernschritt umfasst, bei dem mindestens ein bekanntes, digitalisiertes Sprachsignal in eine Sequenz von Phonemen und jedes Phonem in eine Sequenz subphonischer Elemente zerlegt wird, und anschließend jedem repräsentativen Vektor X_t nach den folgenden Regeln ein subphonisches Element zugeordnet wird: 1. φ_k-l, φ_k, φ_k+l, .... ist die Phonemsequenz, in der das Phonem φt in dem Zeitsegment [t^k _i, t^k _f] in Übereinstimmung mit der Sequenz repräsentativer Vektoren {X_t} erzeugt wird. 2. Die repräsentativen Vektoren {X_t} werden subphonischen Einheiten nach der folgenden Regel zugeordnet: {Xt → /φk-l-φk/ ;tk i < t ≤ tk i + 0,2 (tk f – tk i) {Xt → /φk-φk/ ;tk i + 0,2 (tk f – tk i) < t ≤ tk i + 0,8 (tk f – tk i) {Xt → /φk-φk+l/ ;tk i + 0,8 (tk f – tk i) < t ≤ tk f
Verfahren nach mindestens einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass es einen Schritt zur Reduzierung des residuellen, vektoriellen Quantisierungsbaumes besitzt, der die folgenden Unterschritte beinhaltet: 1. p = Anzahl der Schritte wird ein Anfangswert zugewiesen. 2. Die Verzweigungen der residuellen, vektoriellen Quantisierungen, die sich in Schritt p befinden, werden genommen, d.h. die Vektoren c_y, so dass die Länge (j^p) = p ist. 3. Wenn der Vektor c_y-l-0 und der Vektor c_y-l-1 beide mit dem gleichen subphonischen Element φ_j,m, verbunden sind, wird der Schritt p weggelassen, und das subphonische Element φ_j,m wird mit dem Vektor c_y-l verbunden. 4. Wenn p > 2, wird p = p – 1 genommen, und der Unterschritt 2 wird wiederholt.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass dieser Schritt der Reduzierung des residuellen, vektoriellen Quantisierungsbaumes nach dem Lernschritt durchgeführt wird.
Verfahren nach mindestens einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass der repräsentative Vektor 39 Abmessungen hat, was 12 standardisierten Mel-Cepstrum-Koeffizienten entspricht, und die Energie, sowie ihre Derivationen erster und zweiter Ordnung, einen logarithmischem Maßstab besitzt.
System der Informationstechnik, das eine Ausführungsumgebung besitzt, die für die Ausführung eines Programmes der Informationstechnik geeignet ist, dadurch gekennzeichnet, dass es Spracherkennungsfunktionen mit mindestens einer residuellen, vektoriellen Quantisierung mit Mehrstufen-Binärbaum besitzt, die ein Verfahren gemäß mindestens einem der Ansprüche 1 bis 13 durchführen kann.
Programm der Informationstechnik, das, wenn es direkt in den internen Speicher eines Computers geladen wird, dadurch gekennzeichnet ist, dass es Anweisungen zur Durchführung eines Verfahrens gemäß mindestens einem der Ansprüche 1 bis 13 für den Computer besitzt.
Programm der Informationstechnik, das auf einem Medium gespeichert ist, welches für die Verwendung mit einem Computer geeignet ist, dadurch gekennzeichnet, dass es vom Computer ausführbare Anweisungen für die Durchführung eines Verfahrens gemäß mindestens einem der Ansprüche 1 bis 13 besitzt, wenn es auf diesen Computer geladen wurde.