DE60209706T2 - Spracherkennungsverfahren - Google Patents

Spracherkennungsverfahren Download PDF

Info

Publication number
DE60209706T2
DE60209706T2 DE60209706T DE60209706T DE60209706T2 DE 60209706 T2 DE60209706 T2 DE 60209706T2 DE 60209706 T DE60209706 T DE 60209706T DE 60209706 T DE60209706 T DE 60209706T DE 60209706 T2 DE60209706 T2 DE 60209706T2
Authority
DE
Germany
Prior art keywords
subphonic
vector
vectorial
sequence
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60209706T
Other languages
English (en)
Other versions
DE60209706D1 (de
Inventor
Josep Prous Blancafort
Jesús SALILLAS TELLAECHE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Prous Institute for Biomedical Research SA
Original Assignee
Prous Institute for Biomedical Research SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Prous Institute for Biomedical Research SA filed Critical Prous Institute for Biomedical Research SA
Publication of DE60209706D1 publication Critical patent/DE60209706D1/de
Application granted granted Critical
Publication of DE60209706T2 publication Critical patent/DE60209706T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

  • Gebiet der Erfindung
  • Diese Erfindung bezieht sich auf das Gebiet der automatischen Spracherkennung für einen umfassenden und kontinuierlichen Wortschatz und in einer Art und Weise, die sprecherunabhängig ist.
  • Die Erfindung bezieht sich auf ein Spracherkennungsverfahren, das folgendes besitzt:
    • (a) einen Schritt der Zerlegung eines digitalisierten Sprachsignals in eine Vielzahl von Bruchteilen,
    • (b) einen Schritt der Darstellung eines jeden dieser Bruchteile durch einen repräsentativen Vektor Xt, und
    • (c) einen Schritt der Klassifizierung der repräsentativen Vektoren Xt, wobei jeder repräsentative Vektor Xt mit einer phonetischen Darstellung verbunden ist, so dass man eine Sequenz phonetischer Darstellungen erhalten kann.
  • Die Erfindung bezieht sich weiterhin auf ein System der Informationstechnik, das eine Ausführungsumgebung besitzt, die für die Ausführung eines Programmes der Informationstechnik geeignet ist, welches Spracherkennungsfunktionen besitzt.
  • Die Erfindung bezieht sich auch auf ein Programm der Informationstechnik, das direkt in den internen Speicher eines Computers geladen werden kann, und ein Programm der Informationstechnik, das auf einem Medium gespeichert ist, welches für die Verwendung mit einem Computer geeignet ist.
  • Bisheriger Stand der Technik
  • Im allgemeinen funktionieren automatische Spracherkennungssysteme in der folgenden Art und Weise: in einem ersten Schritt wird das Analogsignal, das dem Schalldruck entspricht, mit einem Mikrofon erfasst, und in einen Analog-/Digital-Konverter eingegeben, der das Signal mit einer vorgegebenen Abtastfrequenz abtastet. Bei der verwendeten Abtastfrequenz handelt es sich normalerweise um die doppelte Höchstfrequenz des Signals, die bei Sprachsignalen ungefähr zwischen 8 und 10 kHz und bei Sprachsignalen, die über das Telefon übertragen werden, 4 kHz beträgt. Sobald es digitalisiert ist, wird das Signal in Bruchteile von 10 bis 30 Millisekunden Dauer aufgeteilt, im allgemeinen mit einer gewissen Überlappung zwischen einem Bruchteil und dem nächsten.
  • Ein repräsentativer Vektor wird aus jedem Bruchteil berechnet, im allgemeinen mittels einer Umwandlung auf die Spektralebene unter Verwendung der schnellen Fouriertransformation (FFT) oder einer anderen Transformation, und anschließender Übernahme einer bestimmten Anzahl von Koeffizienten der Transformation. In den meisten Fällen werden Derivationen der ersten und zweiten Ordnung für das umgewandelte Signal ebenfalls verwendet, um die Abweichungen des Signals über der Zeit besser darzustellen. Derzeit ist die Verwendung von Cepstrum-Koeffzienten recht weit verbreitet, die man durch spektrale Darstellung des Signals erhält, das anschließend in seine Mel- und Bark-Formen aufgeteilt wird, und dem Delta- und Delta-Delta-Koeffizienten hinzugefügt werden. Die Details dieser Implementierungen sind bekannt und können beispielsweise in (1) nachgelesen werden.
  • Sobald man die repräsentativen Vektoren erhalten hat, folgt ein Klassifizierungs- oder Decodifikationsverfahren in Bezug auf sie, um einige Untereinheiten zu erkennen, die in dem Sprachsignal vorhanden sind: Wörter, Silben oder Phoneme. Dieses Verfahren basiert auf der Bearbeitung des akustischen Signals durch Techniken wie die Hidden-Markov-Modelle (HMM), die in (2) beschrieben werden, Dynamic Time Warping (DTW), das in (3) beschrieben wird, oder Hidden Dynamic Models (HDM), von dem (4) ein jüngstes Beispiel ist. Bei allen diesen Systemen wird eine große Menge an Testdaten verwendet, um die optimalen Parameter für das Modell auszutesten und zu berechnen, die anschließend zur Klassifizierung oder Decodierung der repräsentativen Vektoren des Sprachsignals, das man erkennen möchte, verwendet werden.
  • Ein weiteres Beispiel für ein bekanntes automatisches Spracherkennungssystem wird in EP-A-0788090 offenbar gemacht.
  • Derzeit sind die am meisten verbreiteten Systeme diejenigen, die Markov-Modelle verwenden. In der kontinuierlichen Sprache werden häufige Koartikulations-Phänomene erzeugt, welche die Modifizierung der Aussprachemerkmale der Phoneme und sogar das Verschwinden vieler in einer kontinuierlichen Sequenz verursachen. Kombiniert mit der Variabilität, die den Sprachsignalmerkmalen eines jeden einzelnen Sprechers eigen sind, bedeutet dies, dass die Quote der direkten Erkennung stimmlicher Untereinheiten in einem kontinuierlichen Sprachsignal und mit unbegrenztem Wortschatz relativ niedrig ist. Die meisten Systeme verwenden in erster Linie Phoneme als stimmliche Untereinheiten, wobei sie diese in n-Gruppen (genannt n-Gramme) einteilen, um statistische Informationen in Bezug auf die Wahrscheinlichkeiten anwenden zu können, dass in einer bestimmten Sprache ein Phonem einem anderen folgt, wie in (5) beschrieben. Wie in (5) gezeigt wird, ist die Anwendung von n-Grammen auch weiterhin ungenügend, um akzeptable Erkennungsquoten zu erzielen, weshalb alle fortgeschrittenen Systeme Sprachenmodelle verwenden, welche einen Wortschatz mit einer
    großen Anzahl vorcodierter Wörter (meistens zwischen 60.000 und 90.000), und Informationen über die Wahrscheinlichkeiten des Auftretens einzelner Wörter und geordneter Kombinationen von Wörtern verwenden. Beispiele für diese Systeme sind (6) und (7). Die Anwendung dieser Techniken verbessert die Erkennungsquote für einzelne Wörter erheblich, jedoch mit dem Nachteil, dass das System komplexer wird und seine allgemeine Verwendung in Situationen, in denen eine große Anzahl von Wörtern auftreten kann, die nicht im Wörterbuch zu finden sind, begrenzt ist.
  • Zusammenfassung der Erfindung
  • Es ist das Ziel der vorliegenden Erfindung, wie in den beigefügten Ansprüchen beansprucht, diese Nachteile zu überwinden. Das Ziel wird durch ein Spracherkennungs verfahren erreicht, wie es am Anfang dieser Patentschrift beschrieben wurde, dadurch gekennzeichnet, dass der Klassifizierungsschritt mindestens eine residuelle, vektorielle Quantisierung mit Mehrstufen-Binärbaum umfasst.
  • Ein weiteres Merkmal der Erfindung ist ein System der Informationstechnik, das eine Ausführungsumgebung besitzt, die für die Ausführung eines Programmes der Informationstechnik geeignet ist, welches durch mindestens eine residuelle, vektorielle Quantisierung mit Mehrstufen-Binärbaum gemäß der Erfindung Spracherkennungsfunktionen besitzt.
  • Ein weiteres Merkmal der Erfindung ist ein Programm der Informationstechnik, das direkt in den internen Speicher eines Computers geladen werden kann, und Anweisungen enthält, die für die Durchführung eines Verfahrens gemäß der Erfindung geeignet sind.
  • Schließlich ist ein weiteres Merkmal der Erfindung ein Programm der Informationstechnik, das auf einem Medium gespeichert ist, welches für die Verwendung mit einem Computer geeignet ist, und das Anweisungen enthält, die für die Durchführung eines Verfahrens gemäß der Erfindung geeignet sind.
  • Der Klassifizierungsschritt umfasst vorzugsweise mindestens zwei aufeinanderfolgende, vektorielle Quantisierungen, und der Klassifizierungsschritt umfasst in noch weiter bevorzugter Weise eine erste vektorielle Quantisierung, die für die Klassifizierung jedes der repräsentativen Vektoren Xt in einer Gruppe unter 256 möglichen Gruppen geeignet ist, und eine zweite vektorielle Quantisierung, die geeignet ist für die Klassifizierung jedes der repräsentativen Vektoren Xt, die in jeder der 256 Gruppen klassifiziert sind, in einer Untergruppe unter mindestens 4096 möglichen Untergruppen, und vorteilhafterweise 16.777.216 möglichen Untergruppen, für jede der Gruppen. Eine besonders vorteilhafte Ausführungsart der Erfindung wird erzielt, wenn es sich bei mindestens einer der vektoriellen Quantisierungen um einen Mehrstufen- Binärbaum mit residueller, vektorieller Quantisierung mit symmetrischer Reflexion handelt.
  • Bei der phonetischen Darstellung handelt es sich vorzugsweise um ein subphonisches Element, obwohl die Darstellung im allgemeinen jede bekannte Untereinheit eines Sprachsignals sein kann (Silben, Phoneme oder subphonische Elemente).
  • Das digitalisierte Sprachsignal wird vorzugsweise in eine Vielzahl von Bruchteilen zerlegt, die teilweise überlappen.
  • Eine weitere vorteilhafte Ausführungsart des Verfahrens gemäß der Erfindung erhält man, wenn dem Klassifizierungsschritt ein Segmentierungsschritt folgt, so dass die phonetischen Darstellungen zu Gruppen mit einer größeren phonetischen Länge zusammengefügt werden können, d.h. man nimmt die Sequenz subphonischer Elemente, die man erhalten hat, segmentiert sie in kleine Fragmente, und anschließend werden die subphonischen Elemente der Fragmente, die man erhalten hat, in Phonemen innerhalb des gleichen Segmentes oder Fragmentes zusammengefasst. Der Segmentierungsschritt umfasst vorzugsweise eine Gruppendurchsuchung von mindestens zwei subphonischen Elementen, die jeweils mindestens ein Hilfsphonem besitzen, sowie eine Zusammenfassung oder Gruppierung der subphonischen Elemente, die sich zwischen jedem Gruppenpaar befinden, welche Segmente subphoner Elemente bilden.
  • Es ist besonders vorteilhaft, dass der Segmentierungsschritt einen Schritt umfasst, in dem die subphonen Elemente zu Phonemen zusammengefasst werden, wobei der Schritt der Zusammenfassung in Bezug auf jedes der Segmente subphoner Elemente durchgeführt wird, und die folgenden Unterschritte umfasst
    • 1. Beginnend mit der Sequenz von Segmenten subphoner Elemente t j.m} l ≤ t ≤ L wobei L das Segment Länge ist.
    • 2. i = 1 initialisieren
    • 3. s = i; e = i; nj = 0; nm = 0 für l ≤ j ≤ 60; l ≤ m ≤ 60 initialisieren {{jεφi j.m} = {jεφj.m l+1}; nj = nj + l
    • 4. Wenn { {{mεφi j.m} = {mεφj.m i+1}; nm = nm + l
    • 5. Wenn {jεφij.m} ≠ {jεφj.m i+1} und {mεφij.m} ≠ {mεφj.m i+1}, wird die folgende Zusammenfassung oder Gruppierung durchgeführt: f = Indexmax{nj, nm l ≤ j ≤ 60; l ≤ m ≤ 60} t j.m}; s ≤ t ≤ e → φf i = i + l; wenn i < L – 1, zu Unterschritt 3 zurückkehren und die Segmentierung abschließen.
    • 6. i = i + l; wenn i < L – 1, zu Unterschritt 4 zurückkehren, sonst zu Unterschritt 5 gehen und die Segmentierung abschließen.
  • Was in diesem Fall stattfindet, ist im Grunde folgendes: man nimmt die Segmente, die man erhalten hat, und führt eine Gruppierung oder Zusammenfassung der Ketten subphonischer Elemente zu Phonemen durch.
  • Vorzugsweise umfasst das Verfahren einen Lernschritt, bei dem mindestens ein bekanntes, digitalisiertes Sprachsignal in eine Sequenz von Phonemen und jedes Pho nem in eine Sequenz subphonischer Elemente zerlegt wird, und anschließend jedem repräsentativen Vektor Xt nach den folgenden Regeln ein subphonisches Element zugeordnet wird:
    • 1. φk-l, φk, φk+l, .... ist die Phonemsequenz, in der das Phonem φt in dem Zeitsegment [tk i, tk f] in Übereinstimmung mit der Sequenz repräsentativer Vektoren {Xt} erzeugt wird.
    • 2. Die repräsentativen Vektoren {Xt} werden subphonischen Einheiten nach der folgenden Regel zugeordnet: {Xt→ /φk-l-φk/ ;tk i < t ≤ tk i + 0,2 (tk f – tk i) {Xt→ /φk-φk/ ;tk i + 0,2 (tk f – tk i) < t ≤ tk i + 0,8 (tk f – tk i) {Xt→ /φk-φk+l/ ;tk i + 0,8 (tk f – tk i) < t ≤ tk f
  • Im allgemeinen wird die Zerlegung der digitalisierten Sprachsignale in Phoneme, die beim Lernen verwendet wird, manuell durchgeführt, und die Zerlegung in subphonische Elemente kann, ausgehend von der manuellen Zerlegung in Phoneme, mit Hilfe der obigen Regeln automatisch erfolgen.
  • Vorteilhafterweise besitzt das Verfahren einen Schritt zur Reduzierung des residuellen, vektoriellen Quantisierungsbaumes, der die folgenden Unterschritte beinhaltet:
    • 1. p = Anzahl der Schritte wird ein Anfangswert zugewiesen.
    • 2. Die Verzweigungen der residuellen, vektoriellen Quantisierungen, die sich in Schritt p befinden, werden genommen, d.h. die Vektoren cy, so dass die Länge (jp) = p ist.
    • 3. Wenn der Vektor cy-l-0 und der Vektor cy-l-1 beide mit dem gleichen subphonischen Element φj.m, verbunden sind, wird der Schritt p weggelassen, und das subphonische Element φj.m wird mit dem Vektor cy-l verbunden.
    • 4. Wenn p > 2, wird p = p – 1 genommen, und der Unterschritt 2 wird wiederholt.
  • Dieser Schritt der Reduzierung des residuellen, vektoriellen Quantisierungsbaumes wird vorteilhafterweise nach dem Lernschritt durchgeführt.
  • Der repräsentative Vektor hat vorzugsweise 39 Abmessungen, was 12 standardisierten Mel-Cepstrum-Koeffizienten entspricht und die Energie, sowie ihre Derivationen erster und zweiter Ordnung, hat einen logarithmischem Maßstab.
  • Kurze Beschreibung der Zeichnungen
  • Die weiteren Vorteile und Merkmale der Erfindung werden aus der nachfolgenden Beschreibung noch deutlicher, welche unter Bezugnahme auf die beigefügten Zeichnungen einige bevorzugte Ausführungsarten der Erfindung veranschaulicht, ohne dabei einen Anspruch auf Vollständigkeit zu erheben. Es zeigen
  • 1 ein Blockdiagramm eines Verfahrens gemäß der Erfindung, und
  • 2 ein Diagramm eines Schrittes der Erkennung phonetischer Darstellungen.
  • Detaillierte Beschreibung einiger Ausführungsarten der Erfindung
  • Diese Erfindung beschreibt ein Verfahren zur automatischen Spracherkennung für einen unbegrenzten und kontinuierlichen Wortschatz, das sprecherunabhängig ist. Das Verfahren basiert auf der Anwendung vektorieller Quantisierungstechniken in mehreren Stufen oder Schritten, um die Segmentierung und Klassifizierung der Phoneme in höchst präziser Art und Weise durchzuführen.
  • Insbesondere werden die durchschnittliche Energie jedes Bruchteils, zusammen mit einer Gesamtheit von Mel-Cepstrum-Koeffizienten und den ersten und zweiten Derivationen sowohl der Durchschnittsenergie als auch des Cepstrum-Vektors verwendet, um einen repräsentativen Vektor eines jeden Bruchteils in 39 Abmessungen zu bilden. Diese Vektoren durchlaufen einen ersten Quantisierungsschritt, der von einem vektoriellen Quantisierer mit 8-Stufen-Binärbaum gebildet wird, welcher eine erste Klassifizierung des Bruchteils durchführt, und der mit den herkömmlichen Techniken der vektoriellen Quantisierung entwickelt und ausgetestet wurde. Die Funktion dieses ersten Quantisierers besteht einfach darin, die Bruchteile in 256 Segmente zu segmentieren. Für jedes dieser Segmente wird ein 24-Stufen-Binärbaum mit vektoriellem Quantisierer mit symmetrischer Reflexion separat entwickelt.
  • Danach ist also jeder Vektor in eine Binärkette oder einen binären String, bestehend aus 32 Ziffern, segmentiert: 8 aus der ersten Segmentierung und 24 aus dem nachfolgenden Schritt. Diese Binärketten oder binären Strings werden während des Übungsschrittes des vektoriellen Quantisierers mit den phonetischen Darstellungen verbunden.
  • Ab diesem Punkt wird die Decodierung eines jeden Vektors anhand dieses Verfahrens und mit den phonetischen Darstellungen, die mit der resultierenden Binärkette oder dem resultierenden binären String verbunden sind, durchgeführt. Die Wörter werden erkannt, indem eine Gleichheitsprüfung der Zeichenketten (string matching) unter den Sequenzen phonetischer Darstellungen, die sich aus einer neuen phonetischen Distanzformel ergeben, durchgeführt wird.
  • Sämtliche Vektoren aus den Wörterbüchern können in einem 75 Mb Speicher gespeichert werden und jede Decodierung erfordert die Berechnung von maximal 32 vektoriellen Verzerrungen. Wenn sich die Wörterbücher im Speicher befinden, kann das gesamte Verfahren mit einem PC mit mittelmäßiger Leistung in Echtzeit durchgeführt werden.
  • Die Erkennungsquote einzelner Phoneme liegt bei über 90%, was eine Worterkennung mit hoher Präzision erlaubt, ohne dass vorher ein Wörterverzeichnis benötigt wird, und die Berechnungskomplexität ist weitaus einfacher.
  • Das erfindungsgemäße Verfahren ist in 1 veranschaulicht. Das ursprüngliche Sprachsignal, bei dem es sich im allgemeinen um ein Schallsignal oder ein Videosignal handeln kann, kann analog (AVA) oder digital (AVD) sein. Wenn das Sprachsignal ursprünglich nicht digitales Format hat, muss es zunächst einen Abtast- und Quantisierungsschritt (10) durchlaufen. Sobald es Digitalformat hat, durchläuft das Signal einen akustischen Vorverarbeitungsblock (20), so dass man eine Reihe repräsentativer Vektoren erhält, welche die wichtigsten Merkmale beschreiben, um eine phonetische Erkennung durchzuführen. Diese Vektoren werden anschließend in dem Schritt der phonetischen Erkennung (30) verarbeitet, wo sie mit den Verzeichnissen subphonischer Elemente (40) verglichen werden, um die Sequenz an Elementen zu erhalten, die der Sequenz der Eingangsvektoren am nächsten kommt. Schließlich wird die Sequenz subphonischer Elemente, die man auf diese Art und Weise erhalten hat, segmentiert (50), und auf eine einfachere phonetische Darstellung reduziert, und in einer Datenbank (60) gespeichert, so dass sie bei Durchführung einer Suche effizient abgerufen werden können. Die obigen Schritte werden nachstehend im einzelnen beschrieben.
  • Schritt 10 entspricht einem herkömmlichen Analog-/Digital-Konverter. Das von einem Mikrofon, Videoband oder einer anderen analogen Vorrichtung kommende Signal wird mit einer Frequenz von 11 kHz und einer Auflösung von 16 Bits abgetastet. Die Abtastung kann auch mit jeder anderen Frequenz (beispielsweise 16 kHz) durchgeführt werden, ohne dass dadurch der Schutzbereich eingeschränkt wird. Die Wahl der optimalen Abtastfrequenz hängt tatsächlich von der Systemanwendung ab: bei Anwendungen, bei denen der ursprüngliche Ton von Aufnahmestudios kommt, oder wenn es sich um eine Aufnahme hoher Qualität handelt, wird eine Abtastfrequenz von 16 kHz bevorzugt, da sie die Darstellung eines größeren Frequenzbereichs des ursprünglichen Sprachsignals erlaubt. Wenn der ursprüngliche Ton andererseits von Aufnahmen schlechter Qualität stammt (Konferenzen, Aufnahmen mit einem PC-Mikrofon, Multimedia-Dateien, die zur Übertragung über das Internet in eine niedrige Auflösung codiert worden sind ....), wäre es besser, eine niedrigere Abtastfrequenz, wie beispielsweise 11 kHz, zu verwenden, so dass ein Teil des Hintergrundgeräusches reduziert werden würde, oder damit die Frequenz eher dem ursprünglichen Signal entspricht (im Falle von Dateien beispielsweise, die zur Übertragung über das Internet codiert worden sind). Wenn eine bestimmte Abtastfrequenz gewählt wurde, muss natürlich das gesamte System mit dieser Frequenz abgetastet werden.
  • Schritt 20 entspricht der akustischen Vorverarbeitung. Ziel dieses Schrittes ist es, die Sequenz der ursprünglichen Abtastwerte des Signals in eine Sequenz repräsentativer Vektoren umzuwandeln, die Merkmale des Signals darstellen und eine bessere Bearbeitung der phonetischen Phänomene erlauben, und die nicht so stark voneinander abhängen. Man erhält die repräsentativen Vektoren wie folgt:
    • 1. Die Sequenz der ursprünglichen Signalabtastwerte wird in Bruchteile von 30 MSek. pro Signal aufgegliedert. Die Bruchteile werden alle 10 MSek. genommen, d.h. sie überlappen. Um einen Teil der unerwünschten Auswirkungen zu eliminieren, der durch die Überlappung der Bruchteile erzeugt wird, werden sie mit einem Hamming-Fenster gewichtet.
    • 2. Ein Preemphasis-Filter mit der folgenden Transferenzfunktion. H = (z) = l – 0,972 -1 wird auf die Bruchteile angewendet.
    • 3. Für jede Funktion wird ein Vektor mit 12 Mel-Cepstral-Koeffizienten berechnet: xt(k) l ≤ k ≤ 12wobei t der Bruchzahl entspricht, d.h. sie wird alle 10 MSek. aufgenommen.
    • 4. Der Mel-Cepstral-Koeffizient wird in Bezug auf den Bruchdurchschnitt, der in der Phrase vorhanden ist, normiert. Da die exakte Dauer der Phrase und auch die An fangs- und Endpunkte nicht bekannt sind, wird eine durchschnittliche Dauer von 5,5 Sekunden genommen, und somit lautet die Normierung:
      Figure 00120001
    • 5. Die Derivationen erster und zweiter Ordnung der normierten Vektoren werden ebenfalls genommen:
      Figure 00120002
    • 6. Schließlich wird die Energie im logarithmischen Maßstab jedes Bruchteils in Bezug auf ihren Höchstwert normiert und es werden die Derivationen erster und zweiter Ordnung genommen:
      Figure 00120003
      Somit besitzt der repräsentative Vektor X39 Dimensionen und wird gebildet durch:
      Figure 00120004
  • Einzelheiten zu den Berechnungen für den akustischen Vorverarbeitungsschritt finden sich in (8), (1).
  • Die Erkennung der phonetischen Darstellungen findet in Schritt 30 statt. Ziel dieses Schrittes ist es, den repräsentativen Eingangsvektor Xt mit einem subphonischen Element zu assoziieren. Jeder Einzelne spricht mit einer unterschiedlichen Geschwindigkeit und außerdem variiert die Geschwindigkeit (gemessen in Phonemen pro Sekunde) bei jeder Person auch je nach ihrer geistigen Verfassung oder ihrem Angstzustand. Im allgemeinen variiert die Sprache zwischen 10 und 24 Phonemen pro Sekunde. Da die repräsentativen Vektoren Xt alle 10 ms berechnet werden, gibt es 100 Vektoren pro Sekunde und damit wird jedes Phonem durch 4 bis 10 repräsentative Vektoren repräsentiert. Das bedeutet, dass jeder repräsentative Vektor Xt eine subphonische, akustische Einheit repräsentiert, da seine Dauer geringer ist als die eines einzelnen Phonems.
  • Jede Sprache lässt sich mit einer Gesamtheit an Phonemen einer begrenzten Größe beschreiben. Die englische Sprache lässt sich beispielsweise mit ungefähr 50 einzelnen Phonemen beschreiben. Weitere 10 fiktive Phoneme kommen hinzu, um verschiedene Arten von Klängen in dem Signal darzustellen:
    Figure 00130001
    Figure 00140001
    das insgesamt 60 phonetische Einheiten bildet. Jede andere Anzahl von Phonemen kann ohne Einschränkungen im Umfang verwendet werden.
  • Während man spricht, werden auch häufig Koartikulationsphänomene erzeugt, wobei die Aussprache jedes Phonems durch die Phoneme erfolgt, die ihm unmittelbar vorausgehen oder folgen, da das Artikulationssystem des Menschen die Position zwischen der Aussprache eines Phonems und des nächsten nicht sofort wechseln kann. Dieser Effekt wird bearbeitet, indem man zur Bildung einer klassifikatorischen Einheit mit den 3600 möglichen Kombinationen Binärkombinationen der sechzig ursprünglichen Phänomene heranzieht, auch wenn viele dieser Kombinationen in der Praxis nie vorkommen. Die Heranziehung von Binärkombinationen ist ausreichend, da das Modell auf subphonischer Ebene funktioniert.
  • Ein Beispiel: die einzelne Aussprache des englischen Wortes bat (Schläger; Fledermaus) könnte in dem System im letzten Schritt 30 durch folgende Sequenz dargestellt werden:
    ..., /eSIL_B/, /B_B/, /B_B/, /B_AE/, /B_AE/, /AE_AE/, /AE_AE/, /AE_AE/, /AE_AE/, /AE_AE/, /AE_TD/, /AE_TD/, /TD_TD/, /TD_TD/, /TD_TD/, /TD_bSIL/, /TD_bSIL/, ....
  • 2 zeigt ein Blockdiagramm von Schritt 30. Die Sequenz der repräsentativen Vektoren {Xt} verläuft zunächst durch einen vektoriellen Quantisierer mit 8-Stufen-Binärbaum (100), der eine erste Klassifizierung
    des Schallsignals durchführt. Beim Verlassen des Quantisierers erhält man repräsentative Vektoren, die im Vergleich zum Eintritt unverändert sind, aber in 256 verschiedene Gruppen klassifiziert sind, d.h. es wird eine erste Aufteilung des Raums von {Xt} in Bereiche und eine Aufteilung der Eintrittssequenz in {Xt→i} l ≤ i ≤ 256 durchgeführt. Der vektorielle Quantisierer von 100 wird in der herkömmlichen Art und Weise nach dem ursprünglichen Algorithmus, der in (9) präsentiert wird, unter Verwendung des Euklidschen Abstandes in dem Raum mit 39 Abmessungen bemessen und abgetastet, um die Verzerrung zu berechnen.
  • Um den vektoriellen Quantisierer 100 und allgemein das gesamte System abzutasten, wurden 300 Audiostunden unterschiedlichen Ursprungs und mit unterschiedlichen Sprechern vorbereitet, die sodann manuell segmentiert und bis zur Stufe der Phoneme kommentiert wurden. Da die erste Erkennung auf der Stufe subphonischer Einheiten erfolgt, wurde die Zerlegung der Phoneme in subphonische Einheiten für die Abtastsequenzen nach den folgenden Regeln durchgeführt:
    • 1. Angenommen, es wird die Phonemsequenz ... φk-l, φk, φk+l, .... genommen, bei der das Phonem φk in dem Zeitsegment [tk i, tk f] erzeugt wird, und t in Übereinstimmung mit der Sequenz repräsentativer Vektoren {Xt} in Einheiten von 10 ms erfolgt.
    • 2. Die repräsentativen Vektoren {Xt} werden den subphonischen Einheiten nach der folgenden Regel zugeordnet: {Xt → /φk-l-φk/ ;tk i < t ≤ tk i + 0,2 (tk f – tk i) {Xt → /φk-φk/ ;tk i + 0,2 (tk f – tk i) < t ≤ tk i + 0,8 (tk f – tk i) {Xt → /φk-φk+l/ ;tk i + 0,8 (tk f – tk i) < t ≤ tk f
  • Weitere Beispiele von Algorithmen auf der Grundlage von vektoriellen Quantisierern mit Baum zur Berechnung der Wahrscheinlichkeitsfunktionen, oder für Aufgaben der Erkennung, finden sich in den Patenten (10) und (11), auch wenn sich die Algorithmen und Verfahren sehr stark von jenen unterscheiden, die in der vorliegenden Erfindung beschrieben werden.
  • Sobald der Raum {Xt} segmentiert wurde, wird in Schritt 110 die Klassifizierung der repräsentativen Vektoren {Xt→i} in subphonische Einheiten durchgeführt. Wenn das Modell übernommen wird, hat man beim Ausgang von 110 eine subphonemische Sequenz {φt j.m}erhalten, so dass: φj.m = /φj-φm/ l ≤ j ≤ 60; l ≤ m ≤ 60die erkannten subphonischen Einheiten darstellt.
  • Schritt 110 stellt einen residuellen, vektoriellen 24-Stufen-Quantisierer dar. Im allgemeinen wird X1 als ein k-dimensionaler, wahlloser Vektor mit der Wahrscheinlichkeitsverteilungsfunktion Fx 1(.) definiert. Ein k-dimensionaler, vektorieller Quantisierer (VQ) wird durch das Triplett (C, Q, P) beschrieben, wobei C das Wörterbuch der Vektoren, Q die Assoziationsfunktion und P die Teilung darstellen. Wenn der Quantisierer N Vektoren besitzt, verhält er sich so, dass der quantisierte Vektor Q (xl) angesichts einer Realisierung von xl von Xl der Vektor ci ε C; l ≤ i ≤ N ist, so dass der Abstand zwischen xl und ci für jedes ci ε C; l ≤ i ≤ N immer weniger wird. Das heißt, der Vektor c1 wird genommen, der für den Eingangvektor xl für eine bestimmte Abstandsfunktion, im allgemeinen den Euklidschen Abstand, die beste Annäherung darstellt. Die Teilung P segmentiert den Raum in N Bereiche und die Vektoren C sind die Schwerpunkte ihrer jeweiligen Bereiche. Das Problem der Berechnung des Tripletts (C, Q, P) – damit das VQ mit N Vektoren die beste Annäherung an einen gegebenen, wahllosen Vektor Xl darstellt – kann allgemein mit dem Algorithmus LBG (12) gelöst werden, der im wesentlichen darauf basiert, dass er eine ausreichend lange Abtastsequenz liefert, die für Xl repräsentativ ist, und nacheinander die Position der Vektoren C in den Teilungen P und anschließend die Position der Teilungen P in Bezug auf die Vektoren C optimiert, bis ein Minimum an Verzerrung in der Abtastsequenz erreicht wird. Das VQ von Schritt 100 stellt einen besonderen Fall von, mit einem Binärbaum organisiertem, VQ dar, so dass die Quantisierung hinsichtlich der Komplexität der Berechnung weniger aufwendig ist. Im vorliegenden Fall wird Xl als der repräsentative Vektor Xt angesehen, und mit jedem Vektor ci ε C; l ≤ i ≤ N wird eine subphonische Darstellung φj.m verbunden, so dass VQ eine Erkennung der repräsentativen Eingangsvektoren {X1} durchführt.
  • Natürlich ist es wünschenswert, ein VQ mit dem größtmöglichen N und mit mäßiger Berechnungskomplexität zu haben, um die beste Annäherung an {X1} zu erhalten. Das Problem besteht darin, dass durch ein größeres N auch die Länge der erforderlichen Abtastsequenz und die Komplexität der Abtastung von VQ und der anschließenden Decodierung und Erkennung erhöht werden. Eine Lösung besteht in der Verwendung residueller, vektorieller Quantisierer (RVQ). Ein RVQ mit P Schritten wird durch eine Gesamtheit von geordneten
    'P VQs {CP, QP, PP); l ≤ p ≤ P} gebildet, so dass das VQ (Cl, Ql, Pl) für eine Realisierung von xl von Xl den Vektor xl quantisiert, und die restlichen Schritte (Cp+l, Qp+l, Pp+l) quantisieren die restlichen Vektoren Xp-l = Xp – Q(XP) des vorhergehenden Schrittes (CP, QP, PP) für l ≤ p ≤ P. Jedes Wörterbuch CP enthält NP Vektoren. Sowohl die Vektoren CP als auch die Zellen von PP sind mit dem Subindex jp indexiert, wobei jp ε JP = {0,1, ..., NP – 1} ist. Der Mehrstufen-Index jp ist der p-Tupel, der durch die Verkettung der einzelnen Indizes jedes Schrittes jp gebildet wird, und er stellt den Verlauf durch alle RVQ dar, d.h. jP = (jl, j2, ....jp) und man erhält den Vektor Xl als die Summe der in jedem Schritt quantisierten Vektoren
    Figure 00180001
  • Der Vorteil der RVQs besteht darin, dass jeder einzelne VQ Np Vektoren haben wird, und man eine ausreichend lange Abtastsequenz erhalten kann, doch die Gesamtzahl an RVQ hat
    Figure 00180002
  • Vektoren, eine viel größere Anzahl könnte nicht abgetastet werden. Wenn es sich bei jedem der Schritte außerdem um einen baumstrukturierten VQ handelt, wird die Komplexität der gesamten Dekodifikation niedrig sein.
  • Doch das Problem der RVQs besteht darin, dass die Quantisierungsqualität, die man mit insgesamt N Vektoren erhält, weitaus geringer ist als die eines normalen VQ oder eines baumstrukturierten VQ eines einzigen Schrittes mit den gleichen N Vektoren, was der Grund dafür ist, dass sie keine große Verwendung gefunden haben. Es wurde in (13) gezeigt, dass der Qualitätsverlust auf die Tatsache zurückzuführen ist, dass jeder der Schritte mit dem LBG-Algorithmus separat von dem Rest optimiert wurde, und auch die Dekodifikation wird separat in jedem Schritt durchgeführt. Dadurch kann der akkumulierte Effekt der Entscheidungen, die in den Schritten nach einem bestimmten Schritt getroffen wurden, dazu führen, dass sich der resultierende, quantisierte Vektor außerhalb der Teilungszelle befindet, die in dem ersten Schritt gewählt wurde. Wenn außerdem die VQs in jedem der Schritte eine Baumstruktur haben, werden im Ergebnis viele der Vektorenkombinationen der verschiedenen Schritte effektiv unzugänglich sein.
  • Schritt 110 wurde aus einem in (13) vorgeschlagenen Algorithmus entwickelt, um RVQs basierend auf Binärbäumen mit symmetrischer Reflexion zu konstruieren. Insbesondere wird ein 24-Stufen-Binärbaum mit RVQ und symmetrischer Reflexion verwendet. Die Gesamtheit der Schritte {(Cp, Qp, Pp); l ≤ p ≤ P} mit P = 24, die den RVQ bilden, ist in 1 als Element 40 gezeigt. Natürlich könnte auch eine Konstruktion mit einer anderen Anzahl von Schritten verwendet werden, ohne dass der Schutzbereich dadurch eingeschränkt wird.
  • Diesmal werden 232 verschiedene Vektoren bearbeitet, von denen jeder mit einem phonetischen Unterelement verbunden ist, von dem es 602 verschiedene Werte gibt. Außerdem ist in der Realität bekannt, dass viele der möglichen φj.m -Kombinationen nicht erzeugt werden. So ist bekannt, dass für jede φj.m -Kombination, die man erhalten hat, tatsächlich eine große Anzahl möglicher Vektoren cy der RVQ in 40 der genannten Kombination entspricht. Um die Menge an erforderlichem Speicher und die Komplexität der Dekodifikation zu reduzieren, wird der folgende RVQ-Baumreduzierungs-Algorithmus angewendet, sobald bereits abgetastet wurde:
    • 1. p = 24 initialisieren.
    • 2. Die Verzweigungen des RVQ, die sich in Schritt p befinden, d.h. die Vektoren cy, werden genommen, so dass die Länge (jp) = p ist
    • 3. Wenn der Vektor cy-l-0 und der Vektor cy-l-l beide mit dem gleichen subphonischen Element φj.m assoziiert werden, wird der Schritt p weggelassen, und das subphonische Element φj.m wird mit dem Vektor cy -l assoziiert.
    • 4. Wenn p > 2, wird p = p – l > genommen, und der Unterschritt 2 wird wiederholt.
  • In Punkt 2 ist jp der Binärindex des Vektors innerhalb des binären, vektoriellen Quantisierers, so dass seine Länge damit die Stufe des Baumes darstellt, auf die er abgestiegen ist, d.h., die residuelle Quantisierungsstufe, auf der er sich befindet, wobei es sich bei den Quantisierern um Mehrstufen-Binärbaum-Quantisierer mit symmetrischer Reflexion handelt.
  • In Bezug auf Punkt 3 sollte berücksichtigt werden, dass es in jedem Schritt zwei Vektoren gibt, da es sich um einen Binärbaum handelt, und die Vektoren mit den Subindices _0 und _1 gekennzeichnet sind. Um den quantisierten Vektor zu definieren, ist diese Unterscheidung nicht erforderlich, denn mit dem Wert des entsprechenden Bit in dem Index wird bereits angezeigt, welcher der beiden gewählt wurde. An diesem Punkt wird angeschaut, ob die beiden Vektoren demselben subphonischen Element entsprechen, doch dieser Schritt ist nicht mehr nötig, da man unabhängig von der Auflösung zu der gleichen Klassifizierung gelangt.
  • Dieser Algorithmus erlaubt die Reduzierung der Anzahl der zu speichernden Assoziationen um ungefähr 29 und zusätzlich reduziert er auch die Anzahl der bei der Decodierung durchzuführenden Vergleiche, ohne dass dabei ein Verlust an Erkennungsgenauigkeit entsteht.
  • Am Ende von Schritt 110 ist dann die Sequenz erkannter subphonischer Elemente {φt f.m} vorhanden. In Schritt 50 wird die Segmentierung der subphonischen Elemente durchgeführt. Zuerst wird die Sequenz subphonischer Elemente {φt j.m} segmentiert, indem eine Erkennung der subphonischen Elemente durchgeführt wird, welche eines der Hilfsphoneme besitzen, die in der oben angegebenen Tabelle dargestellt sind. Die ursprüngliche Sequenz wird immer dann segmentiert, wenn zwei aufeinanderfolgende, subphonische Elemente eines der Hilfsphoneme umfassen. Diese Segmente liefern eine erste Einschätzung der Wörter, auch wenn die Segmentierung nicht sehr präzise ist, und man verschiedene Gruppen verbundener Wörter im gleichen Segment erhält. Anschließend wird der folgende Algorithmus verwendet, um die subphonischen Elemente in Phoneme zusammenzufassen:
    • 1. Beginnend mit der segmentierten Sequenz subphoner Elemente: t j.m} l ≤ t ≤ Lwobei L das Segment Länge ist,
    • 2. i = L initialisieren
    • 3. s = i; e = i; nj = 0; nm = 0 für l ≤ j ≤ 60; l ≤ m ≤ 60 initialisieren {{jεφi j.m} = {jεφj.m i+l}; nj = nj + l
    • 4. Wenn { {{mεφi j.m} = {mεφj.m i+l}; nm = nm + l
    • 5. Wenn {jεφi j.m} # {jεφj.m i+l} und {mεφi j.m} # {mεφj.m i+l}, wird die folgende Zusammenfassung oder Gruppierung durchgeführt: f = Indexmax {nj,nm l ≤ j ≤ 60; l ≤ m ≤ 60} t j.m}; s ≤ t ≤ e → φf i = i + l; wenn i < L – l, zu Unterschritt 3 zurückkehren und die Segmentierung abschließen.
    • 6. i = i + l; wenn i < L – l, zu Unterschritt 4 zurückkehren, sonst zu Unterschritt 5 gehen und die Segmentierung abschließen.
  • Mit diesem Algorithmus werden die subphonischen Elemente zu Phonemen zusammengefasst, welches die Elemente sind, die schließlich in der Datenbank gespeichert werden. Damit kann die Menge an Informationen, die in der Datenbank gespeichert werden sollen, um einen Faktor in der Größenordnung von 6 bis 9 reduziert werden, was die anschließende Verarbeitung erleichtert.
  • Literaturhinweise
  • Nachstehend sind sämtliche bibliographischen Hinweise aufgeführt, die in der obigen Beschreibung zitiert worden sind. Alle der folgenden bibliographischen Verweise (1), (2), (3), (4), (5), (6), (7), (8), (9), (10), (11), (12) und (13) sind aus Gründen der Bezugnahme in dieser Patentbeschreibung enthalten.
    • (1) Rabiner, L. und Juang, B.H., "Fundamentals of Speech Recognition", Prentice-Hall, Englewood Cliffs, N.J., 1993.
    • (2) Levinson, S.E., Rabiner, L.R. and Sondhi, M.M., "An Introduction to the Application of the Theory of Probabilistic Functions of a Markov Process to Automatic Speech Recognition", The Bell System Technical Journal, Vol. 62, No. 4, April 1983, pp. 1035–1074.
    • (3) Itakura, F., "Minimum Prediction Residual Principle Applied to Speech Recognition", IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-23, No. 1, Feb. 1975, pp. 66–72.
    • (4) Deng, Li and Ma, Jeff, "Spontaneous speech recognition using a statistical coarticulatory model for the vocal-tract-resonance-dynamics", Journal of the Acoustical Society of America, Vol. 108, No. 5, Nov. 2000.
    • (5) Corinna, Ng., Wilkinson, Ross and Zobel, Justin, "Experiments in spoken document retrieval using phoneme n-grams", Speech Communication, Vol. 32, 2000, pp. 61–77.
    • (6) Renals, S., Abberley, D., Kirby, D. and Robinson, T., "Indexing and retrieval of broadcast news", Speech Communication, Vol. 32, 2000, pp. 5–20.
    • (7) Johnson, S.E., Jourlin, P., Spärck Jones, K. and Woodland, P.C., "Spoken Document Retrieval for TREC-9 at Cambridge University", Proceedings of the TREC-9 Conference, to be published.
    • (8) Picone, J.W., "Signal Modeling Techniques in Speech Recognition", Proceedings of the IEEE, Vol. 81, No. 9, Sept. 1993, pp. 1215–1247.
    • (9) Gray, R.M., Abut, H., "Full search and tree searched vector quantisation of waveforms", Proceedings of the IEEEICASSP, pp. 593–596, Paris, 1982.
    • (10) Watanabe, T., "Pattern recognition with a tree structure used for reference pattern feature vectors of for HMMM", EPO627726, Nippon Electric Co., 1994.
    • (11) Seide,F., "Method and system for pattern recognition based on tree organized probability densities", US5857169, Philips Corp., 1999.
    • (12) Linde, Y., Buzo, A., Gray, R.M., "An algorithm for vector quantiser design", IEEE Transactions on Communications, pp. 84–95, Jan. 1980.
    • (13) Barnes, C.F., Frost, R.L., "Residual vector quantisers with jointly optimized codebooks", Advances in Electronics and Electron Physics, 1991

Claims (16)

  1. Spracherkennungsverfahren, das folgendes besitzt (a) einen Schritt der Zerlegung eines digitalisierten Sprachsignals in eine Vielzahl von Bruchteilen, (b) einen Schritt der Darstellung eines jeden der Bruchteile durch einen repräsentativen Vektor Xt, und (c) einen Schritt der Klassifizierung der repräsentativen Vektoren Xt, wobei jeder repräsentative Vektor Xt mit einer phonetischen Darstellung verbunden ist, so das man eine Sequenz phonetischer Darstellungen erhalten kann, dadurch gekennzeichnet, dass der Klassifizierungsschritt mindestens eine residuelle, vektorielle Quantisierung mit Mehrstufen-Binärbaum umfasst.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Klassifizierungsschritt mindestens zwei aufeinanderfolgende, vektorielle Quantisierungen umfasst.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der Klassifizierungsschritt eine erste vektorielle Quantisierung umfasst, die für die Klassifizierung jedes der repräsentativen Vektoren Xt in einer Gruppe unter 256 möglichen Gruppen geeignet ist, und eine zweite vektorielle Quantisierung umfasst, die geeignet ist für die Klassifizierung jedes der repräsentativen Vektoren Xt, die in jeder der 256 Gruppen klassifiziert sind, in einer Untergruppe unter mindestens 4096 möglichen Untergruppen, und vorteilhafterweise 16.777.216 möglichen Untergruppen, für jede der Gruppen.
  4. Verfahren nach einer der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass es sich bei mindestens einer der vektoriellen Quantisierungen um einen Mehr stufen-Binärbaum mit residueller, vektorieller Quantisierung mit symmetrischer Reflexion handelt.
  5. Verfahren nach mindestens einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass es sich bei der phonetischen Darstellung um ein subphonisches Element handelt.
  6. Verfahren nach mindestens einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Bruchteile teilweise überlappen.
  7. Verfahren nach mindestens einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass dem Klassifizierungsschritt ein Segmentierungsschritt folgt, so dass die phonetischen Darstellungen zu Gruppen mit einer größeren phonetischen Länge zusammengefügt werden können.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass der Segmentierungsschritt eine Gruppendurchsuchung von mindestens zwei subphonischen Elementen umfasst, die jeweils mindestens ein Hilfsphonem besitzen, sowie eine Zusammenfassung oder Gruppierung der subphonischen Elemente, die sich zwischen jedem Gruppenpaar befinden, welche Segmente subphoner Elemente bilden.
  9. Verfahren nach einem der Ansprüche 7 oder 8, dadurch gekennzeichnet, dass der Segmentierungsschritt einen Schritt umfasst, in dem die subphonen Elemente zu Phonemen zusammengefasst werden, wobei der Schritt der Zusammenfassung in Bezug auf jedes der Segmente subphoner Elemente durchgeführt wird, und die folgenden Unterschritte umfasst: 1. Beginnend mit der Sequenz von Segmenten subphoner Elemente: t j.m} l ≤ t ≤ Lwobei L das Segment Länge ist. 2. i = L initialisieren 3. s = i; e = i; nj = 0; nm = 0 für l ≤ j ≤ 60; l ≤ m ≤ 60 initialisieren {{jεφi j.m} = {jεφj.m l+1}; nj = nj + l 4. Wenn { {{mεφi j.m} = {mεφj.m i+1}; nm = nm + l 5. Wenn {jεφi j.m} # {{jεφj.m i+1} und {mεφi j.m} # {mεφj.m i+1} wird die folgende Zusammenfassung oder Gruppierung durchgeführt: f = Indexmax {nj, nm l ≤ j ≤ 60; l ≤ m ≤ 60} t j.m}; s ≤ t ≤ e → φf i = i + l; wenn i < L – 1, zu Unterschritt 3 zurückkehren und die Segmentierung abschließen. 6. i = i + l; wenn i < L – 1, zu Unterschritt 4 zurückkehren, sonst zu Unterschritt 5 gehen und die Segmentierung abschließen.
  10. Verfahren nach mindestens einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass es einen Lernschritt umfasst, bei dem mindestens ein bekanntes, digitalisiertes Sprachsignal in eine Sequenz von Phonemen und jedes Phonem in eine Sequenz subphonischer Elemente zerlegt wird, und anschließend jedem repräsentativen Vektor Xt nach den folgenden Regeln ein subphonisches Element zugeordnet wird: 1. φk-l, φk, φk+l, .... ist die Phonemsequenz, in der das Phonem φt in dem Zeitsegment [tk i, tk f] in Übereinstimmung mit der Sequenz repräsentativer Vektoren {Xt} erzeugt wird. 2. Die repräsentativen Vektoren {Xt} werden subphonischen Einheiten nach der folgenden Regel zugeordnet: {Xt → /φk-l-φk/ ;tk i < t ≤ tk i + 0,2 (tk f – tk i) {Xt → /φk-φk/ ;tk i + 0,2 (tk f – tk i) < t ≤ tk i + 0,8 (tk f – tk i) {Xt → /φk-φk+l/ ;tk i + 0,8 (tk f – tk i) < t ≤ tk f
  11. Verfahren nach mindestens einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass es einen Schritt zur Reduzierung des residuellen, vektoriellen Quantisierungsbaumes besitzt, der die folgenden Unterschritte beinhaltet: 1. p = Anzahl der Schritte wird ein Anfangswert zugewiesen. 2. Die Verzweigungen der residuellen, vektoriellen Quantisierungen, die sich in Schritt p befinden, werden genommen, d.h. die Vektoren cy, so dass die Länge (jp) = p ist. 3. Wenn der Vektor cy-l-0 und der Vektor cy-l-1 beide mit dem gleichen subphonischen Element φj,m, verbunden sind, wird der Schritt p weggelassen, und das subphonische Element φj,m wird mit dem Vektor cy-l verbunden. 4. Wenn p > 2, wird p = p – 1 genommen, und der Unterschritt 2 wird wiederholt.
  12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass dieser Schritt der Reduzierung des residuellen, vektoriellen Quantisierungsbaumes nach dem Lernschritt durchgeführt wird.
  13. Verfahren nach mindestens einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass der repräsentative Vektor 39 Abmessungen hat, was 12 standardisierten Mel-Cepstrum-Koeffizienten entspricht, und die Energie, sowie ihre Derivationen erster und zweiter Ordnung, einen logarithmischem Maßstab besitzt.
  14. System der Informationstechnik, das eine Ausführungsumgebung besitzt, die für die Ausführung eines Programmes der Informationstechnik geeignet ist, dadurch gekennzeichnet, dass es Spracherkennungsfunktionen mit mindestens einer residuellen, vektoriellen Quantisierung mit Mehrstufen-Binärbaum besitzt, die ein Verfahren gemäß mindestens einem der Ansprüche 1 bis 13 durchführen kann.
  15. Programm der Informationstechnik, das, wenn es direkt in den internen Speicher eines Computers geladen wird, dadurch gekennzeichnet ist, dass es Anweisungen zur Durchführung eines Verfahrens gemäß mindestens einem der Ansprüche 1 bis 13 für den Computer besitzt.
  16. Programm der Informationstechnik, das auf einem Medium gespeichert ist, welches für die Verwendung mit einem Computer geeignet ist, dadurch gekennzeichnet, dass es vom Computer ausführbare Anweisungen für die Durchführung eines Verfahrens gemäß mindestens einem der Ansprüche 1 bis 13 besitzt, wenn es auf diesen Computer geladen wurde.
DE60209706T 2002-05-06 2002-05-06 Spracherkennungsverfahren Expired - Fee Related DE60209706T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/ES2002/000210 WO2003094151A1 (es) 2002-05-06 2002-05-06 Procedimiento de reconocimiento de voz

Publications (2)

Publication Number Publication Date
DE60209706D1 DE60209706D1 (de) 2006-05-04
DE60209706T2 true DE60209706T2 (de) 2006-10-19

Family

ID=29286293

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60209706T Expired - Fee Related DE60209706T2 (de) 2002-05-06 2002-05-06 Spracherkennungsverfahren

Country Status (7)

Country Link
US (1) US20050228661A1 (de)
EP (1) EP1505572B1 (de)
JP (1) JP2005524869A (de)
AU (1) AU2002302651A1 (de)
DE (1) DE60209706T2 (de)
ES (1) ES2258624T3 (de)
WO (1) WO2003094151A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
CN105448290B (zh) * 2015-11-16 2019-03-01 南京邮电大学 一种变帧率的音频特征提取方法
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
JP7286894B2 (ja) * 2019-02-07 2023-06-06 国立大学法人山梨大学 信号変換システム、機械学習システムおよび信号変換プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5734791A (en) * 1992-12-31 1998-03-31 Apple Computer, Inc. Rapid tree-based method for vector quantization
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
WO1997008686A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on tree organised probability densities
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
US6131089A (en) * 1998-05-04 2000-10-10 Motorola, Inc. Pattern classifier with training system and methods of operation therefor
WO2000054254A1 (de) * 1999-03-08 2000-09-14 Siemens Aktiengesellschaft Verfahren und anordnung zur bestimmung eines repräsentativen lautes
US6789063B1 (en) * 2000-09-01 2004-09-07 Intel Corporation Acoustic modeling using a two-level decision tree in a speech recognition system

Also Published As

Publication number Publication date
US20050228661A1 (en) 2005-10-13
JP2005524869A (ja) 2005-08-18
EP1505572B1 (de) 2006-03-08
DE60209706D1 (de) 2006-05-04
ES2258624T3 (es) 2006-09-01
AU2002302651A1 (en) 2003-11-17
EP1505572A1 (de) 2005-02-09
WO2003094151A1 (es) 2003-11-13

Similar Documents

Publication Publication Date Title
DE60120323T2 (de) System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum
DE60126722T2 (de) Aussprache von neuen Wörtern zur Sprachverarbeitung
DE69925479T2 (de) Dynamisch konfigurierbares akustisches modell für spracherkennungssysteme
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
DE602004003512T2 (de) Kompression gausscher Modelle
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE10109648C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
EP1611568B1 (de) Dreistufige einzelworterkennung
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
EP0925579A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE10030105A1 (de) Spracherkennungseinrichtung
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
EP1407446A1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
DE69724485T2 (de) Lokalisierung eines Musters in einem Signal
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
DE60209706T2 (de) Spracherkennungsverfahren
WO2005098827A1 (de) Verfahren zur geräuschreduktion bei einem sprach-eingangssignal
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP1039447A2 (de) Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee