DE60000074T2 - Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung - Google Patents

Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung

Info

Publication number
DE60000074T2
DE60000074T2 DE60000074T DE60000074T DE60000074T2 DE 60000074 T2 DE60000074 T2 DE 60000074T2 DE 60000074 T DE60000074 T DE 60000074T DE 60000074 T DE60000074 T DE 60000074T DE 60000074 T2 DE60000074 T2 DE 60000074T2
Authority
DE
Germany
Prior art keywords
feature vector
features
speech recognition
speech
mel filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60000074T
Other languages
English (en)
Other versions
DE60000074D1 (de
Inventor
Rathinevelu Chengalvarayan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Application granted granted Critical
Publication of DE60000074D1 publication Critical patent/DE60000074D1/de
Publication of DE60000074T2 publication Critical patent/DE60000074T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die Erfindung betrifft das Gebiet der Spracherkennung und insbesondere ein Verfahren und eine Vorrichtung zur verbesserten Spracherkennung auf der Grundlage von Hidden-Markov-Modellen (HMM).
  • Die Struktur einer typischen Erkennungsvorrichtung für kontinuierliche Sprache besteht aus einer Front-End- Merkmalanalysestufe, der eine Klassifizierungsvorrichtung für statistische Muster folgt. Der Merkmalvektor, Schnittstelle zwischen diesen beiden, sollte idealerweise alle Informationen des Sprachsignals enthalten, die für die nachfolgende Klassifizierung relevant sind, unempfindlich gegenüber irrelevanten Schwankungen aufgrund von Änderungen der akustischen Umgebungen sein und gleichzeitig eine geringe Dimensionalität aufweisen, um die rechnerischen Anforderungen der Klassifizierungsvorrichtung möglichst gering zu halten. Es wurden mehrere Arten von Merkmalvektoren als Approximationen der idealen Spracherkennungsvorrichtung vorgeschlagen, wie in dem Artikel von J.W. Picone mit dem Titel "Signal Modeling Techniques in Speech Recognition", Proceedings of the IEEE, Band 81, Nr. 9, 1993, Seiten 1215-1247. Die meisten Spracherkennungsvorrichtungen haben traditionell Cepstral-Parameter verwendet, die aus einer linear-prädiktiven Analyse (LP-Analyse) abgeleitet werden, und zwar aufgrund der Vorteile, die diese LP-Analyse im Hinblick auf die Erzeugung eines glatten und von Tonhöhenoberschwingungen freien Spektrums liefert, und ihrer Fähigkeit, Spektralspitzen relativ gut zu modellieren. Melgestützte Cepstral-Parameter nutzen andererseits die Wahrnehmungseigenschaften des menschlichen Gehörs aus, indem das Spektrum in Mel-Skala-Intervallen abgetastet wird. Logischerweise sollte eine Kombination der Vorteile sowohl der LP-Analyse als auch der Mel-Filterbankanalyse theoretisch eine verbesserte Menge von Cepstral-Merkmalen erzeugen.
  • Dies läßt sich auf mehrere Weisen durchführen. Zum Beispiel könnte man das Log.-Betragsspektrum der LP- Parameter berechnen und dann die Frequenzen so verzerren, daß sie der Mel-Skala entsprechen. Existierende Studien haben über ermutigende Spracherkennungsergebnisse berichtet, wenn das LP-Spektrum vor der Berechnung des Cepstrum durch eine Bilineartransformation verzerrt wird, anstatt die Verzerrung nicht zu verwenden, wie zum Beispiel bei M. Rahim und B.H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Band 4, Nr. 1, 1996, Seiten 19-30. Es wurden mehrere andere Frequenzverzerrungstechniken vorgeschlagen, zum Beispiel wird in H.W. Strube, "Linear Prediction on a Warped Frequency Scale", Journal of Acoustical Society of America, Band 68, Nr. 4, 1980, Seiten 1071-1076, ein Mel-artiges Verfahren der spektralen Verzerrung durch Allpaßfilterung im Zeitbereich vorgeschlagen. Ein anderer Ansatz besteht darin, die Mel-Filterbananalyse mit anschließender LP-Analyse auf das Signal anzuwenden, um später als Mel-linear-prädiktive Cepstral-Merkmale (Mel-LPC-Merkmale) zu erhalten (siehe M. Rahim und B.H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing), Band 4, Nr. 1, 1996, Seiten 19-30). Die Berechnung der Mel- LPC-Merkmale gleicht in gewissem Sinne den wahrnehmungsbezogenen Linearprädiktions-PLP-Koeffizienten, die von H. Hermansky in "Perceptual Linear Predictive (PLO) analysis of Speech", Journal of Acoustical Society of America, Band 87, Nr. 4, 1990, Seiten 1738-1752, erläutert werden. Beide Techniken wenden vor der LP- Analyse eine Mel-Filterbank an. Mel-LPC verwendet jedoch eine LP-Analyse höherer Ordnung ohne wahrnehmungsbezogene Gewichtung oder Amplitudenkomprimierung. Alle obigen Techniken sind Versuche, das Spektrum des Sprachsignals für verbesserte Sprachqualität wahrnehmungsbezogen zu modellieren, und eine effizientere Darstellung des Spektrums zur Sprachanalyse, -synthese und -erkennung in einem Ganzbandansatz bereitzustellen.
  • In den letzten Jahren wurde an teilbandgestützten Merkmalextraktionstechniken gearbeitet, wie zum Beispiel in H. Bourlard und S. Dupont, "Subband-Based Speech Recognition", Proc. ICASSP, 1997, Seiten 1251- 1254; P. McCourt, 5. Vaseghi und N. Harte, "Multi- Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP; 1998, Seiten 557-650; S. Okawa, E. Bocchieri und A. Potamianos, "Multi-Band Speech Recognition in Noisy Environments", Proc. ICASSP, 1998, Seiten 641-644; und S. Tibrewala und H. Hermansky, "Subband Based Recognition of Noisy Speech", Proc. ICASSP, 1997, Seiten 1255-1258. Der Artikel P. McCourt, S. Vaseghi und N. Harte, "Multi- Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, Seiten 557-560, zeigt an, daß die Verwendung mehrerer Auflösungsebenen keine weiteren Vorteile liefert. Außerdem haben jüngste theoretische und empirische Ergebnisse gezeigt, daß die autoregressive Spektralabschätzung aus Teilbändern robuster und effizienter als die autoregressive Vollbandspektralabschätzung ist, S. Rao und W.A. Pearlman, "Analysis of Linear Prediction, Coding and Spectral Estimation from Subbands", IEEE Transactions on Information Theory, Band 42, 1996, Seiten 1160-1178.
  • Wie die oben angeführten Artikel tendenziell anzeigen, werden weiterhin Fortschritte und Verbesserungen in der Technik der Spracherkennungsvorrichtungen benötigt.
  • Eine Aufgabe der vorliegenden Erfindung ist die Bereitstellung einer Spracherkennungsvorrichtung, die die Vorteile sowohl einer linear-prädiktiven Analyse als auch einer Teilbandanalyse aufweist.
  • Kurz gefaßt, wird ein Fortschritt in der Technik der Spracherkennungsvorrichtungen gemäß den Ansprüchen 1-20 erzielt, indem ein Ansatz zur Prädiktionsanalyse bereitgestellt wird, wobei der Prädiktor aus einer Anzahl von Mel-verzerrten teilbandgestützten Autokorrelationsfunktionen berechnet wird, die aus dem Frequenzspektrum der Eingangssprache erhalten werden. Darüber hinaus kann ein Grad der Teilbandzerlegung und der nachfolgenden Cepstral-Analyse vergrößert werden, so daß Merkmale aus einer Pyramide von Auflösungsebenen gewählt werden können. Ein erweiterter Merkmalvektor wird auf der Grundlage der Verkettung von LP-Cepstral- Merkmalen aus jedem Mehrfach-Auflösungs-Teilband gebildet, wobei ein vieldimensionaler Raum definiert wird, auf dem die statistischen Parameter abgeschätzt werden.
  • Bei einer bevorzugten Ausführungsform wird ein Fortschritt in der Technik erzielt durch ein Verfahren und eine Vorrichtung für eine Erkennungsvorrichtung auf der Grundlage des Hidden-Markov-Modells (HMM), das kontinuierliche Dichtemischungen verwendet, um die Zustände des HMM zu charakterisieren. Ein zusätzlicher relativer Vorteil wird erzielt durch Verwendung einer Mehrfachauflösungs-Merkmalmenge, bei der die Aufnahme verschiedener Auflösungen der Teilbandzerlegung effektiv die Einschränkung der Verwendung einer einzigen festen Sprachbandzerlegung lockert und zu weniger Kettenfehlern führt.
  • Gemäß einer weiteren Ausführungsform der Erfindung wird ein Fortschritt in der Technik erzielt durch Bereitstellung einer verbesserten Spracherkennungsvorrichtung, die Mehrfachauflösungs-Mel-LPC-Merkmale verwendet.
  • Fig. 1 ist ein Blockschaltbild des Verfahrens und der Vorrichtung einer Spracherkennungsvorrichtung für Teilbänder einer ersten Ebene und einer zweiten Ebene gemäß der Erfindung.
  • Fig. 2 ist ein Blockschaltbild des Verfahrens und der Vorrichtung einer Spracherkennungsvorrichtung für Teilbänder einer ersten, einer zweiten und einer dritten Ebene gemäß der Erfindung.
  • Fig. 1 ist ein Blockschaltbild einer hierarchischen linear-prädiktiven Teilband-Spracherkennungsvorrichtung 100, die zwei Ebenen von Teilbändern aufweist. Die erste Ebene ist die standardmäßige Sprachbandbreite von zum Beispiel 0 bis 4000 Hertz. Die zweite Ebene weist zwei Teilbänder auf, 0-2000 Hertz und 2000-4000 Hertz. Diese Bandbreitengrenzen werden in einem hierarchischen teilbandgestützten linear-prädiktiven Cepstral-Merkmalextraktionsprozeß (HSLPC - Merkmalextraktionsprozeß) 102 auferlegt. Die verbesserte Spracherkennung wird ermöglicht durch die Menge von HSLPC-Merkmalen, die durch den Prozeß 102 gemäß der vorliegenden Erfindung extrahiert wird. Wie bei Spracherkennungsvorrichtungen normal ist, wird die Erkennungsvorrichtung zunächst trainiert, um ein Sprachmodell aufzubauen, und nach dem Training wird das Sprachmodell verwendet, um Eingangssprache zu erkennen. Die Spracherkennungsvorrichtung 100 wird zunächst mit signalkonditioniertem Minimal-Ketten-Fehlerratentraining trainiert.
  • Die Erfindung ergab sich zum Teil aus einer Untersuchung der Verwendung von Korrelaten zur Bereitstellung besser trennbarer Merkmale zur Klassifizierung. Obwohl es anscheinend ein allgemeines Prinzip gab, daß besser trennbare Merkmale bessere Erkennungsvorrichtungen erzeugen würden, stellte dieses allgemeine Prinzip nicht spezifisch heraus, daß Korrelate eine Quelle trennbarer Merkmale sein würden, und das allgemeine Prinzip lieferte auch keine spezifische Ausführungsform zur Verwendung von Korrelaten, um besser trennbare Merkmale zu erhalten.
  • Fig. 1 zeigt den Gesamtprozeß der Berechnung der hierarchischen Mel-LPC-Merkmale für einen Sprachrahmen. Der HSLPC-Merkmalextraktionsprozeß 102 wird zusammen mit einem Signalkonditionierungsprozeß 160 und einem diskriminativen Trainingsprozeß 170 verwendet, um die Spracherkennungsvorrichtung 100 zu trainieren und dann mit der Spracherkennungsvorrichtung 100 Spracheingaben zu erkennen. Der Trainingsprozeß wird zuerst nachfolgend ausführlich beschrieben.
  • Die Spracherkennungsvorrichtung 100 ist ein Prozeß, der auf einer Digitalprozessorplattform arbeitet, wie zum Beispiel der in Fig. 1 des US-Patents US-A-6112175 "SPEAKER ADAPTION USING DISCRIMINATIVE LINEAR REGRESSION ON TIME-VARYING MEAN PARAMETERS IN TRENDED HMM" von R. Chengalvarayan gezeigten. Die Digitalprozessorplattform des US-Patents US-A-6112175 kann umprogrammiert werden, um die Prozesse bereitzustellen, die die Spracherkennungsvorrichtung 100 der vorliegenden Erfindung benötigt. Zunächst ist der HSLPC-Merkmalextraktionsprozeß 102 als ein gestrichelter Block gezeigt. Der HSLPC-Merkmalextraktionsprozeß 102 verarbeitet zeitveränderliche Eingangssprache. Diese Verarbeitung umfaßt eine Präemphase, wobei Sprache zu Rahmen aufgeblockt wird, Rahmenfensterbildung und Fouriertransformationen. Diese konkreten Funktionen werden durch eine schnelle Fouriertransformation (FFT) 104 bereitgestellt. Die FFT 104 setzt die Zeitfunktion der Eingangssprache in ein Frequenz-(Leistungs-)Spektrum um. Als nächstes folgen die Mel-Filterbänke 110 und 120. Die Mittenfrequenzen der Filter 110 und 120 liegen in gleichmäßigem Abstand auf einer linearen Skala von 100 bis 1000 Hz und gleichermaßen auf einer logarithmischen Skala oberhalb von 1000 Hz. Oberhalb von 1000 Hz beträgt jede Mittenfrequenz des 1,1-fache der Mittenfrequenz des vorherigen Filters. Der Betragsfrequenzgang jedes Filters weist eine dreieckige Form im Frequenzbereich auf, die bei der Mittenfrequenz gleich 1 ist und bei den Mittenfrequenzen der beiden angrenzenden Filter linear auf Null abnimmt. Das Frequenzbereichsspektrum für jeden Rahmen wird durch eine Menge von M dreieckigen Mel-Filterbänken geleitet, wobei M für die Erkennungsvorrichtung 100 auf 24 gesetzt wird.
  • Als nächstes wird die Autokorrelationsanalyse unter Verwendung inverser diskreter Fouriertransformationen (IDFT) 112, 122 und 123 durchgeführt. Die IDFTs werden auf das geglättete Leistungsspektrum angewandt, d.h. ohne die Log.-Operation, um Q Autokorrelationskoeffizienten zu erhalten, wobei Q für die Ebene 1 auf 10 gesetzt wird. Für die Ebene 2 wird Q für die Teilbänder der unteren Hälfte und der oberen Hälfte (0-2 kHz und 2-4 kHz) auf 8 gesetzt. Fig. 1 zeigt die Folge von Operationen in jedem Teilband für die Auflösungsebenen 1 und 2. Auflösungsebenen von mehr als 2 werden in Betracht gezogen, zwei und drei (Fig. 1 und 2) wurden einfach nur als zweckmäßige Beispiele gewählt und sollen die Erfindung oder die Ansprüche auf keinerlei Weise beschränken.
  • Als drittes wird die Cepstral-Analyse durch die linearprädiktiven Cepstral-Analyseprozesse 116, 126 und 127 durchgeführt. Jede Menge von Autokorrelationskoeffizienten wird zunächst in LP- Koeffizienten umgesetzt, wobei der Durbinsche Rekursionsalgorithmus verwendet wird, der aus L.R. Rabiner und Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, New Jersey, 1993, Seiten 115-117, bekannt ist, und dann unter Verwendung eines standardmäßigen LP-zu-Cepstrum-Rekursionsalgorithmus in Cepstral-Parameter umgesetzt. Die LPC-Analyseprozesse wird für jede Ebene, wie zum Beispiel Ebene 1 und Ebene 2 und für jedes Teilband von den Einheiten 116 bzw. 126 bzw. 127 wiederholt. Die LPC-Prozesse werden wiederholt, bis die vorbestimmte erforderliche Anzahl von Cepstral-Merkmalen aus allen Ebenen erreicht ist.
  • Sobald die erforderliche Anzahl von Cepstral-Merkmalen aus allen Ebenen erreicht ist, werden die Mehrebenen- Teilbandmerkmale verkettet, um in der Einheit 150 einen einzigen erweiterten Merkmalvektor zu bilden. Die letztendliche Dimension des verketteten Cepstral- Vektors wird bei der bevorzugten Ausführungsform der vorliegenden Erfindung auf 12 gesetzt. Bei einer bevorzugten Ausführungsform wurden drei Arten von Merkmalmengen untersucht:
  • (12,0,0) zeigt 12 Merkmale von der Ebene 1 an, 0 aus dem unteren und 0 aus dem oberen Teilband.
  • (0,6,6) zeigt 12 Merkmale aus Ebene 2 an, (6 Merkmale aus dem unteren Teilband und 6 Merkmale aus dem oberen Teilband), und 0 Merkmale aus Ebene 1.
  • (6,3,3) zeigt 6 Merkmale aus Ebene 1 und 6 Merkmale aus Ebene 2 an (3 Merkmale aus dem unteren Teilband und 3 Merkmale aus dem oberen Teilband).
  • Neben den 12 HSLPC-Merkmalen, die von dem Prozeß 102 für jeden Sprachrahmen bereitgestellt werden, wird jeder Eingangsmerkmalvektor über die 12 HSLPC-Merkmale (und die Energie) hinaus erweitert, um die ersten und zweiten Ableitungen mit aufzunehmen. Insgesamt führt dies zu einem 39-dimensionalen Merkmalvektor, ähnlich dem Vektor in B.H. Juang, W. Chou und C.H. Lee, "Minimum classification error rate methods for speech recognition," IEEE Transactions on Speech and Audio Processing, Band 5, Nr. 3, Seiten 257-265, 1997, und US-Patent US-A-6112175, "SPEAKER ADAPTION USING DISCRIMINATIVE LINEAR REGRESSION ON TIME-VARYING MEAN PARAMETERS IN TRENDED HMM", von R. Chengalvarayan, worauf hiermit ausdrücklich Bezug genommen wird. Und doch von diesen verschieden, wegen der Verwendung von Teilbandinformationen in 12 der 39 Merkmale.
  • Wie bei vorbekannten Spracherkennungssystemen wurde, um die Erkennungsvorrichtung zu trainieren und zu prüfen, eine große und komplexe Verbundzifferndatenbasis (CD- Datenbasis) für die bevorzugte Ausführungsform verwendet. Diese CD-Datenbasis ist eine relativ große Herausforderung für Spracherkennungsvorrichtungen wegen ihrer Sprecherdiversität. Die verwendete CD-Datenbasis war eine Zusammenstellung von Datenbasen, die während mehreren unabhängigen Datensammelbemühungen, Versuchen am Einsatzort und Live-Diensteinsätzen gesammelt wurden. Die CD-Datenbasis enthält die englischen Ziffern one bis nine, zero und oh. Diese CD-Datenbasen reichen im Umfang von einer, bei der Sprecher vorbereitete Listen von Ziffernketten lesen, bis zu einer, bei der Kunden tatsächlich ein Erkennungssystem verwenden, um auf Informationen über ihre Kreditkartenkonten zuzugreifen. Diese Daten wurden über Drahtleitungsnetzkanäle unter Verwendung vielfältiger Telefonhörer gesammelt. Die Ziffernkettenlängen reichten von 1 bis 16 Ziffern. Wie üblich wurde die CD-Datenbasis in zwei Mengen aufgeteilt: eine Trainingsmenge und eine Prüfmenge. Die Trainingsmenge enthielt sowohl gelesene als auch spontane Zifferneingaben aus vielfältigen Netzkanälen, Mikrofonen und Dialektregionen.
  • Während des Trainings entfernte der Prozeß 162 der hierarchischen Signal-Bias-Entfernung (HSBR) ein Bias aus Signalen mit verschiedenen Eingangsbedingungen. Die Ergebnisse des HSBR-Prozesses 162 wurden zu dem Minimal-Kettenfehler-Generalized-Probabalistic- Decent-(MSE/GPD-)Trainings und Erkennungsprozeß 172 weitergeleitet. Während des Trainings bauen der Prozeß 162 und der Prozeß 172 HMMs in dem Speicher 174 auf. Die HMMs im Speicher 174 werden verwendet, um während des Trainings HSBR-Codebücher in dem Speicher 164 aufzubauen.
  • Danach wurde die Prüfmenge so ausgelegt, daß sie Datenketten sowohl aus angepaßten als auch fehlangepaßten Umgebungsbedingungen enthält. Alle Aufzeichnungen in der Trainings- und Prüfmenge waren gültige Ziffernketten, insgesamt 7461 und 13114 Ketten zum Training bzw. Prüfen. Das Training und Prüfen glich dem Training und Prüfen, das in der US-Patentanmeldung Nr. 09/071,214, registriert am 1.5.1998, mit dem Titel "Use of periodicity and jitter as speech recognition features" von D.L. Thomson und R. Chengalvarayan beschrieben wird.
  • Nach der Merkmalanalyse wird jeder Merkmalvektor zu der HMM-Erkennungsvorrichtung geleitet, die jedes Wort in dem Vokabular durch eine Menge von links-nach-rechts- kontinuierlicher Mischungsdichte-HMM unter Verwendung von kontextabhängigen Head-Body-Tail-Modellen modelliert. Jedes Signal wurde unter verschiedenen Fernsprechbedingungen und mit verschiedenen Wandlergeräten aufgezeichnet. Danach wurde jeder erzeugte HSLPC- Merkmalvektor weiter mit einem Bias-Entfernungsprozeß verarbeitet, um die Effekte der Kanalverzerrung zu reduzieren. Vorzugsweise wird ein Cepstral-Mean- Substraktions-Bias-Entfernungsprozeß (CMSBR-Prozeß) verwendet, wobei ein Prozeß der hierarchischen Signal- Bias-Entfernung (HSBR) eine alternative Wahl ist. Ein ähnlicher Prozeß wie HSBR wird in M. Rahim und B.H. Juang in "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Band 4, Nr. 1, 1996, Seiten 19-30, beschrieben. Bei einer weiteren Ausführungsform der vorliegenden Erfindung verwendet die Bias-Entfernungsvorrichtung 162 auf einem Teil des Groß-Merkmalvektors, z.B. den Merkmalen, die einer spezifischen Ebene oder spezifischen Ebenen entsprechen, HSBR und CMSBR auf dem übrigen Teil des Groß- Merkmalvektors, z.B. den Merkmalen, die den übrigen Ebenen entsprechen.
  • Jedes Wort im Vokabular wird in ein Kopf-, ein Hauptteil- und ein Endsegment aufgeteilt. Um die Zwischenwort-Koartikulation zu modellieren, besteht jedes Wort aus einem Hauptteil mit mehreren Köpfen und mehreren Enden abhängig von den vorausgehenden und folgenden Kontexten. Bei der bevorzugten Ausführungsform der vorliegenden Erfindung wurde jede mögliche Zwischenwort-Koartikulation, wobei sich insgesamt 276 kontextabhängige Teilwortmodelle ergeben, modelliert.
  • Sowohl die Kopf- als auch die Endmodelle werden mit 3 Zuständen dargestellt, während die Hauptteilmodelle mit 4 Zuständen dargestellt werden, die jeweils 4 Mischungskomponenten aufweisen. Stille wird mit einem Modell mit einem einzigen Zustand mit 32 Mischungskomponenten modelliert. Diese Konfiguration führt zu insgesamt 276 Modellen, 837 Zuständen und 3376 Mischungskomponenten. Das Training umfaßte eine Aktualisierung aller Parameter des Modells, nämlich Mittelwerte, Varianzen und Mischungsverstärkungen unter Verwendung einer Maximum-Likelihood-Abschätzung (MLE), der drei Epochen des Trainings des Minimal- Kettenfehlers und des Generalised Probabilistic Decent (MSE/GPD) folgen, um die Abschätzung der Parameter weiter zu verfeinern. Dieses Training gleicht dem in der US-Patentanmeldung Nr. 09/071,214, registriert am 1.5.1998, mit dem Titel "Use of periodicity and jitter as speech recognition features" von D.L. Thomson und R. Chengalvarayan, wie oben erwähnt, dargelegten. Der Unterschied sind die HSLPC-Merkmalvektoren, die von dem HSLPC-Merkmalextraktionsprozeß 102 erzeugt werden. Das BR-Codebuch der Größe Vier wird aus den Mittelwertvektoren von HMMs extrahiert, und jede Trainingsäußerung wird vor der Verwendung bei dem MSE/GPD-Training durch Anwendung von HSBR signalkonditioniert. In dem Trainingsteil der Entwicklung der Spracherkennungsvorrichtung wurde die Anzahl konkurrierender Kettenmodelle auf Vier gesetzt, und die Schrittlänge wurde auf Eins gesetzt. Die Länge der Eingangsziffernketten wurde sowohl während des Trainings als auch des Prüfens als unbekannt angenommen.
  • Nach dem Training wurden mehrere Gruppen von Prüfungen durchgeführt, um die Erkennungsvorrichtung 100 für verbundene Ziffern mit drei Arten von HMMs (HSLPC_{12,0,0}, HSLPC_{0,6,6} und HSLPC_{6,3,3}) und zwei Arten von Training (ML und MSE) zu bewerten. Diese Prüfungen wurden fast genauso wie tatsächlicher Betrieb durchgeführt. Für die Prüfungen und den tatsächlichen Betrieb war die Verarbeitung durch die HSLPC-Merkmalextraktionseinheit 102 dieselbe wie beim Training. Der Bias-Entfernungsprozeß 162 ist im Prinzip derselbe wie das Training, mit der Ausnahme, daß das Training vorüber sein wird und die HMMs und die BR-Codebücher sich beim Training in dieser Stufe nicht ändern sollten. Für das tatsächliche Prüfen und die tatsächliche Spracherkennung wird die Ausgabe der Bias- Entfernungsvorrichtung 162 zu einem Decodiererprozeß 180 gesendet. Der Decodiererprozeß 180 erhält außerdem HMM aus der HMM-Speicherung 174. Der Decodiererprozeß vergleicht den Groß-Merkmalvektor nach der Entfernung eines etwaigen Bias mit den HMMs des Vokabulars der Erkennungsvorrichtung, die während des Trainings aufgebaut wurden. Dieser Decodiererprozeß ist dem Prozeß sehr ähnlich, der in der US-Patentanmeldung Nr. 09/071,214, supra, verwendet wird.
  • Die Gesamtleistung der Erkennungsvorrichtung 100 in sechs verschiedenen Konfigurationen und bei einer Organisation mit der Kettengenauigkeit als Funktion des Merkmaltyps ist in Tabelle 1 zusammengefaßt. Tabelle 1 zeigt zum Beispiel, die Menge HSLPC_{6,3,3} zeigt an, daß 6 Mel-LPC-Merkmale aus der ersten Auflösung und 3 Mel-LPC-Merkmale aus dem unteren und 3 aus dem oberen Band der zweiten Auflösungsebene genommen werden. Die normierte Rahmenenergie wird zusammen mit den Mehrfachauflösungs-Merkmalen aufgenommen, und die Ergebnisse stellen die Merkmale dar, die in allen Fällen durch die delta- und delta-delta-Trajektorienmerkmale ergänzt werden. Tabelle 1 zeigt 4 wichtige Ergebnisse. Erstens ist das MSE-Training dem MLE-Training überlegen, und die MSE-gestützte Erkennungsvorrichtung erzielt im Mittel 55% Kettenfehlerratenreduktion, gleichförmig über alle Arten von Sprachmodellen hinweg, gegenüber der MLE-gestützten Erkennungsvorrichtung. Zweitens werden außerdem einige Verbesserungen der Leistung unter Verwendung der Teilband-Cepstral-Merkmale alleine (HSLPC_{0,6,6}) im Vergleich zu dem Voll-Bandbreiten- Cepstral-HSLPC_{12,0,0} beobachtet. Drittens erhält man eine weitere Verbesserung der Erkennungsleistung, wenn die Mehrfachauflösungs-Merkmalmengen verwendet werden, wie in der dritten Zeile von Tabelle 1 gezeigt.
  • Schließlich stammt das beste in Tabelle 1 erhaltene Ergebnis aus der Verwendung der Merkmale aus beiden Auflösungsebenen (HSLPC_{6,3,3}) mit einer Reduktion der Fehlerrate von 15% im Vergleich mit der ersten Auflösungsmerkmalmenge alleine (HSLPC_{12,0,0}). In Tabelle 1 ist bemerkenswert, daß gezeigt wurde, daß die Mehrfachauflösungs-Mel-LPC-Merkmale gemäß der vorliegenden Erfindung die Erkennung an der Datenbasis von verbundenen Telefon-Ziffern im Vergleich zu Mel-LPC- Merkmalen mit einer Auflösung verbessern. Die Ergebnisse in Tabelle 1 stehen im Kontrast zu vorherigen Ergebnissen, die von P. McCourt, S. Vaseghi und N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, Seiten 557-560, gemeldet wurden, wobei sich zeigt, daß die Verwendung beider Auflösungsebenen keine weiteren Vorteile liefert. Tabelle 1
  • Die Kettengenauigkeitsrate für eine auf Grammatik basierende Erkennungsaufgabe mit verbundenen Ziffern unbekannter Länge unter Verwendung der ML- und MSE- Trainingsverfahren als Funktion des HSLPC-Merkmaltyps.
  • Es ist bemerkenswert, daß die Prüfungen, die an der trainierten Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung durchgeführt wurden, der tatsächlichen Verwendung von Spracheingaben sehr nahe kommen. Es können also ähnliche Ergebnisse wie die Prüfergebnisse der Spracherkennungsvorrichtung 100 vernünftigerweise erwartet werden.
  • Nunmehr mit Bezug auf Fig. 2 ist eine Spracherkennungsvorrichtung 200 gezeigt, die der in Fig. 1 gezeigten Erkennungsvorrichtung mit einer Ebene-3-Spracherkennungsvorrichtung gleicht. Die Spracherkennungsvorrichtung 200 gleicht der Spracherkennungsvorrichtung 100 mit zusätzlichen Mel-Filtern 230; IDFTs 232, 233, 234 und 235; Quad-LPC-Analysierer 236, 237, 238 und 239, Teilband. Für die IDFTs 232-235 wird Q für jeden Teilbandquadranten (0-1 kHz, 1-2 kHz, 2-3 kHz und 3-4 kHz) auf 6 gesetzt. Wenn höhere Ebenen verwendet werden, werden sie ähnlich gesetzt. Die Einheit 250 verkettet die Mehrebenen-Teilband-Merkmale, um wie in der Einheit 150 einen einzigen erweiterten Merkmalvektor zu bilden. Die letztendliche Dimension des verketteten Cepstral-Vektors kann mindestens 12 betragen, obwohl Prüfung zeigen kann, daß eine bestimmte höhere Zahl besser ist.
  • Es wurde also eine Spracherkennungsvorrichtung offengelegt, die Cepstral-Merkmale aus Teilbändern extrahiert, um die Erkennung zu verbessern. Es versteht sich, daß Fachleuten viele Modifikationen und Varianten einfallen werden. Zum Beispiel können ein breiteres Spracheingangsband, d.h. mehr als 4000 Hertz und verschiedengroße Teilbänder verwendet werden. Bei einem anderen Beispiel ist eine der Variablen für teilbandgestützte Erkennungsvorrichtungen die Anzahl von Bändern und die genaue Teilband-Grenzzerlegung.

Claims (20)

1. Trainingsverfahren für eine Spracherkennungsvorrichtung mit den folgenden Schritten:
Empfangen einer bandbegrenzten zeitveränderlichen Sprach-Eingangsäußerung;
Transformieren der Äußerung mit einem Prozeß (104) der schnellen Fouriertransformation in ein Frequenzbereichsspektrum;
Weiterleiten des Frequenzbereichsspektrums zu mehreren Mel-Filterbänken (110, 120), wobei mindestens eine der mehreren Mel-Filterbänke (120) mehrere Teilbänder aufweist, die das Frequenzspektrum filtern;
Transformieren eines Ausgangssignals jeder der mehreren Mel-Filterbänke unter Verwendung eines Prozesses (112, 122, 123) der inversen diskreten Fouriertransformation, um aus jeder der Mel- Filterbänke ein zeitveränderliches verarbeitetes Sprachausgangssignal und ein zusätzliches zeitveränderliches Ausgangssignal für jedes obige Teilband, eines für jede Mel-Filterbank, zu erhalten;
Analysieren jedes Ausgangssignals aller zeitveränderlichen Ausgangssignale jedes Prozesses der inversen diskreten Fouriertransformation unter Verwendung einer jeweiligen Cepstral-Analyse (116, 126, 127) mit linearer Prädiktion, um entsprechend jedem Ausgangssignal der inversen diskreten Fouriertransformation ein einzelnes Merkmalsvektorausgangssignal zu erzeugen;
Aneinanderhängen der einzelnen Merkmalsvektoren zur Bildung eines Groß-Merkmalsvektors (150);
Aufbereiten des Groß-Merkmalsvektors und Entfernen einer etwaigen Vorbetonung von dem Groß-Merkmalsvektor mit einer Vorbetonungs-Entfernungsvorrichtung (162);
Durchführen eines Trainings (171) der minimalen Zeichenkettenfehler bzw. des verallgemeinerten probabilistischen Abstiegs an dem Groß-Merkmalsvektor nach der Entfernung der Vorbetonung;
Aufbauen von Hidden-Markov-Modellen (174) aus dem Training der minimalen Zeichenkettenfehler bzw. des verallgemeinerten probabilistischen Abstiegs; und
Extrahieren eines Vorbetonungsentfernungscodebuchs (164) der Größe vier aus den mittleren Vektoren der Hidden-Markov-Modelle zur Verwendung bei der Vorbetonungsentfernung bei der Signalaufbereitung des Groß-Merkmalsvektors.
2. Verfahren nach Anspruch 1, wobei der Schritt des Transformierens Vorverzerrung, Aufteilung von Sprache in Rahmenblöcke, Rahmen-Fensterung und Fouriertransformationen umfaßt.
3. Verfahren nach Anspruch 1, wobei die Mel- Filterbänke Mittenfrequenzen der Filter aufweisen, die von 100 bis 1000 Hz gleichmäßig auf einer linearen Skala und oberhalb von 1000 Hz gleichmäßig auf einer logarithmischen Skala beabstandet sind.
4. Verfahren nach Anspruch 3, wobei oberhalb von 1000 Hz jede Mittenfrequenz 1,1mal die Mittenfrequenz des vorherigen Filters ist.
5. Verfahren nach Anspruch 4, wobei der Betragsfrequenzgang jedes Filters eine dreieckige Form im Frequenzbereich aufweist, die bei der Mittenfrequenz gleich Eins ist und bei den Mittenfrequenzen aller benachbarten Filter linear nach Null abnimmt.
6. Verfahren nach Anspruch 5, wobei das Frequenzbereichsspektrum für jeden Rahmen durch eine Menge von M Dreieck-Mel-Filterbänken geleitet wird.
7. Verfahren nach Anspruch 1, wobei die inversen diskreten Fouriertransformationen angewandt werden, um das Frequenzspektrum zu glätten und um mehrere Autokorrelationskoeffizienten zu erhalten.
8. Verfahren nach Anspruch 7, wobei die Anzahl der mehreren Autokorrelationskoeffizienten 10 für die Ebene 1 und 8 für die Ebene 2 beträgt.
9. Verfahren nach Anspruch 1, wobei eine letzte Dimension des Groß-Merkmalsvektors auf 12 Cepstral-Merkmale gesetzt wird.
10. Verfahren nach Anspruch 9, wobei von den 12 Cepstral-Merkmalen 6 Merkmale aus einem unteren Teilband und 6 Merkmale aus einem oberen Teilband stammen.
11. Verfahren nach Anspruch 9, wobei von den 12 Cepstral-Merkmalen 6 Merkmale aus einem Band der ersten Auflösungsebene, 3 Merkmale aus einem Teilband bzw. 3 Merkmale aus einem oberen Teilband der zweiten Auflösungsebene stammen.
12. Verfahren nach Anspruch 1, wobei der Groß- Merkmalsvektor mindestens ein Merkmal aus einem Teilband der ersten Auflösungsebene, mindestens ein Merkmal aus einem Teilband der zweiten Auflösungsebene und mindestens ein Merkmal aus einem Teilband der dritten Auflösungsebene aufweist.
13. Verfahren nach Anspruch 1, wobei jeder Eingangsmerkmalsvektor über die 12 hierarchischen teilbandgestützten linear-prädiktiven Cepstral- Merkmale und das Energiemerkmal mit der ersten und zweiten Ableitung davon erweitert wird, wodurch ein 39-dimensionaler Merkmalsvektor entsteht.
14. Spracherkennungsvorrichtung, umfassend:
ein Mittel zum Empfangen einer bandbegrenzten zeitveränderlichen Sprach-Eingangsäußerung;
ein Mittel (104) zum Transformieren der Äußerung mit einem Prozeß der schnellen Fouriertransformation in ein Frequenzbereichsspektrum;
ein Mittel zum Weiterleiten des Frequenzbereichsspektrums zu mehreren Mel-Filterbänken (110, 120), wobei mindestens eine (120) der mehreren Mel-Filterbänke mehrere Teilbänder aufweist, die das Frequenzspektrum filtern;
ein Mittel (112, 122, 123) zum Transformieren eines Ausgangssignals jeder der mehreren Mel- Filterbänke unter Verwendung eines Prozesses der inversen diskreten Fouriertransformation, um aus jeder der Mel-Filterbänke ein zeitveränderliches verarbeitetes Sprachausgangssignal und ein zusätzliches zeitveränderliches Ausgangssignal für jedes obige Teilband, eines für jede Mel- Filterbank, zu erhalten;
ein Mittel (116, 126, 127) zum Analysieren jedes Ausgangssignals aller zeitveränderlichen Ausgangssignale jedes Prozesses der inversen diskreten Fouriertransformation unter Verwendung einer jeweiligen Cepstral-Analyse mit linearer Prädiktion, um entsprechend jedem Ausgangssignal der inversen diskreten Fouriertransformation ein einzelnes Merkmalsvektorausgangssignal zu erzeugen;
ein Mittel (150) zum Aneinanderhängen der einzelnen Merkmalsvektoren zur Bildung eines Groß- Merkmalsvektors;
ein Mittel (162) zum Aufbereiten des Groß- Merkmalsvektors und Entfernen einer etwaigen Vorbetonung von dem Groß-Merkmalsvektor mit einer Vorbetonungs-Entfernungsvorrichtung; und
ein Mittel (180) zum Decodieren des Groß-Merkmalsvektors nach der Entfernung der Vorbetonung.
15. Spracherkennungsvorrichtung nach Anspruch 14, wobei die Decodierung unter Verwendung von Hidden- Markov-Modellen (174) und Vorbetonungsentfernungscodebüchern (164) an dem Groß-Merkmalsvektor ausgeführt wird.
16. Verfahren einer Spracherkennungsvorrichtung mit den folgenden Schritten:
Empfangen einer bandbegrenzten zeitveränderlichen Sprach-Eingangsäußerung;
Transformieren der Äußerung mit einem Prozeß (104) der schnellen Fouriertransformation in ein Frequenzbereichsspektrum;
Weiterleiten des Frequenzbereichsspektrums zu mehreren Mel-Filterbänken (110, 120), wobei mindestens eine (120) der mehreren Mel-Filterbänke mehrere Teilbänder aufweist, die das Frequenzspektrum filtern;
Transformieren eines Ausgangssignals jeder der mehreren Mel-Filterbänke unter Verwendung eines Prozesses (112, 122, 123) der inversen diskreten Fouriertransformation, um aus jeder der Mel- Filterbänke ein zeitveränderliches verarbeitetes Sprachausgangssignal und ein zusätzliches zeitveränderliches Ausgangssignal für jedes obige Teilband, eines für jede Mel-Filterbank, zu erhalten;
Analysieren jedes Ausgangssignals aller zeitveränderlichen Ausgangssignale jedes Prozesses der inversen diskreten Fouriertransformation unter Verwendung einer jeweiligen Cepstral-Analyse (116, 126, 127) mit linearer Prädiktion, um entsprechend jedem Ausgangssignal der inversen diskreten Fouriertransformation ein einzelnes Merkmalsvektorausgangssignal zu erzeugen;
Aneinanderhängen der einzelnen Merkmalsvektoren zur Bildung eines Groß-Merkmalsvektors (150);
Aufbereiten des Groß-Merkmalsvektors und Entfernen einer etwaigen Vorbetonung von dem Groß- Merkmalsvektor mit einer Vorbetonungs-Entfernungsvorrichtung (162); und
Decodieren des Groß-Merkmalsvektors nach der Entfernung der Vorbetonung (180).
17. Verfahren einer Spracherkennungsvorrichtung nach Anspruch 16, wobei der Schritt des Decodierens Hidden-Markov-Modelle (174); und Vorbetonungsentfernungscodebücher (164) verwendet.
18. Verfahren einer Spracherkennungsvorrichtung nach Anspruch 16, wobei die Vorbetonungs- Entfernungsvorrichtung eine Cepstral-Mittelwert- Subtraktions-Vorbetonungsentfernung verwendet.
19. Verfahren einer Spracherkennungsvorrichtung nach Anspruch 16, wobei die Vorbetonungs-Entfernungsvorrichtung eine hierarchische Signalvorbetonungsentfernung verwendet.
20. Verfahren einer Spracherkennungsvorrichtung nach Anspruch 16, wobei die Vorbetonungs-Entfernungsvorrichtung für einen Teil der Merkmale des Groß- Merkmalsvektors eine Cepstral-Mittelwert-Subtraktions-Vorbetonungsentfernung und für die übrigen Merkmale des Groß-Merkmalsvektors eine hierarchische Signalvorbetonungsentfernung verwendet.
DE60000074T 1999-03-12 2000-03-07 Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung Expired - Fee Related DE60000074T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/266,958 US6292776B1 (en) 1999-03-12 1999-03-12 Hierarchial subband linear predictive cepstral features for HMM-based speech recognition

Publications (2)

Publication Number Publication Date
DE60000074D1 DE60000074D1 (de) 2002-03-28
DE60000074T2 true DE60000074T2 (de) 2002-08-29

Family

ID=23016697

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60000074T Expired - Fee Related DE60000074T2 (de) 1999-03-12 2000-03-07 Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung

Country Status (5)

Country Link
US (1) US6292776B1 (de)
EP (1) EP1041540B1 (de)
JP (1) JP3810608B2 (de)
CA (1) CA2299051C (de)
DE (1) DE60000074T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006014507A1 (de) * 2006-03-19 2007-09-20 Technische Universität Dresden Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI19992350A (fi) * 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Parannettu puheentunnistus
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
JP3564501B2 (ja) 2001-03-22 2004-09-15 学校法人明治大学 乳幼児の音声解析システム
US7623114B2 (en) * 2001-10-09 2009-11-24 Immersion Corporation Haptic feedback sensations based on audio output from computer devices
US6703550B2 (en) * 2001-10-10 2004-03-09 Immersion Corporation Sound data output and manipulation using haptic feedback
WO2004004320A1 (en) * 2002-07-01 2004-01-08 The Regents Of The University Of California Digital processing of video images
JP4517163B2 (ja) * 2004-03-12 2010-08-04 株式会社国際電気通信基礎技術研究所 周波数特性等化装置
US7765333B2 (en) * 2004-07-15 2010-07-27 Immersion Corporation System and method for ordering haptic effects
US20060017691A1 (en) 2004-07-23 2006-01-26 Juan Manuel Cruz-Hernandez System and method for controlling audio output associated with haptic effects
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US20070055519A1 (en) * 2005-09-02 2007-03-08 Microsoft Corporation Robust bandwith extension of narrowband signals
US8700791B2 (en) 2005-10-19 2014-04-15 Immersion Corporation Synchronization of haptic effect data in a media transport stream
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8000825B2 (en) * 2006-04-13 2011-08-16 Immersion Corporation System and method for automatically producing haptic events from a digital audio file
US7979146B2 (en) * 2006-04-13 2011-07-12 Immersion Corporation System and method for automatically producing haptic events from a digital audio signal
US8378964B2 (en) 2006-04-13 2013-02-19 Immersion Corporation System and method for automatically producing haptic events from a digital audio signal
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US20080003550A1 (en) * 2006-06-30 2008-01-03 George Betsis Systems and method for recognizing meanings in sounds made by infants
US7873209B2 (en) 2007-01-31 2011-01-18 Microsoft Corporation Segment-discriminating minimum classification error pattern recognition
JP4762176B2 (ja) * 2007-03-05 2011-08-31 日本放送協会 音声認識装置および音声認識プログラム
JP5399271B2 (ja) * 2007-03-09 2014-01-29 ディーティーエス・エルエルシー 周波数ワープオーディオ等化器
US9019087B2 (en) 2007-10-16 2015-04-28 Immersion Corporation Synchronization of haptic effect data in a media stream
DE102007056221B4 (de) * 2007-11-27 2009-07-09 Siemens Ag Österreich Verfahren zur Spracherkennung
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
JP5499030B2 (ja) * 2008-08-11 2014-05-21 イマージョン コーポレーション 音楽ゲームのための触覚的に使用可能にしたゲーム周辺機器
US8200489B1 (en) * 2009-01-29 2012-06-12 The United States Of America As Represented By The Secretary Of The Navy Multi-resolution hidden markov model using class specific features
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
KR101008264B1 (ko) 2009-02-27 2011-01-13 전자부품연구원 선형예측계수 차수 선택방법 및 이를 이용한 신호처리장치
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
CN101944359B (zh) * 2010-07-23 2012-04-25 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
CN102254554B (zh) * 2011-07-18 2012-08-08 中国科学院自动化研究所 一种对普通话重音进行层次化建模和预测的方法
CN104221079B (zh) * 2012-02-21 2017-03-01 塔塔顾问服务有限公司 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
PL403724A1 (pl) 2013-05-01 2014-11-10 Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa
WO2016172363A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5590242A (en) 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
US5765124A (en) * 1995-12-29 1998-06-09 Lucent Technologies Inc. Time-varying feature space preprocessing procedure for telephone based speech recognition
FR2748342B1 (fr) * 1996-05-06 1998-07-17 France Telecom Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5930753A (en) * 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
FR2766604B1 (fr) * 1997-07-22 1999-10-01 France Telecom Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
US6112175A (en) * 1998-03-02 2000-08-29 Lucent Technologies Inc. Speaker adaptation using discriminative linear regression on time-varying mean parameters in trended HMM

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006014507A1 (de) * 2006-03-19 2007-09-20 Technische Universität Dresden Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten
DE102006014507B4 (de) * 2006-03-19 2009-05-07 Technische Universität Dresden Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten gleicher Instrumentengruppen

Also Published As

Publication number Publication date
EP1041540B1 (de) 2002-02-20
CA2299051A1 (en) 2000-09-12
EP1041540A1 (de) 2000-10-04
CA2299051C (en) 2004-04-13
JP2000267692A (ja) 2000-09-29
JP3810608B2 (ja) 2006-08-16
US6292776B1 (en) 2001-09-18
DE60000074D1 (de) 2002-03-28

Similar Documents

Publication Publication Date Title
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69705830T2 (de) Sprachverarbeitung
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE60120323T2 (de) System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69513919T2 (de) Sprachanalyse
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE68924134T2 (de) Spracherkennungssystem.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee