DE60000074T2 - Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung - Google Patents
Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte SpracherkennungInfo
- Publication number
- DE60000074T2 DE60000074T2 DE60000074T DE60000074T DE60000074T2 DE 60000074 T2 DE60000074 T2 DE 60000074T2 DE 60000074 T DE60000074 T DE 60000074T DE 60000074 T DE60000074 T DE 60000074T DE 60000074 T2 DE60000074 T2 DE 60000074T2
- Authority
- DE
- Germany
- Prior art keywords
- feature vector
- features
- speech recognition
- speech
- mel filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 67
- 239000013598 vector Substances 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000003750 conditioning effect Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 7
- 238000012360 testing method Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die Erfindung betrifft das Gebiet der Spracherkennung und insbesondere ein Verfahren und eine Vorrichtung zur verbesserten Spracherkennung auf der Grundlage von Hidden-Markov-Modellen (HMM).
- Die Struktur einer typischen Erkennungsvorrichtung für kontinuierliche Sprache besteht aus einer Front-End- Merkmalanalysestufe, der eine Klassifizierungsvorrichtung für statistische Muster folgt. Der Merkmalvektor, Schnittstelle zwischen diesen beiden, sollte idealerweise alle Informationen des Sprachsignals enthalten, die für die nachfolgende Klassifizierung relevant sind, unempfindlich gegenüber irrelevanten Schwankungen aufgrund von Änderungen der akustischen Umgebungen sein und gleichzeitig eine geringe Dimensionalität aufweisen, um die rechnerischen Anforderungen der Klassifizierungsvorrichtung möglichst gering zu halten. Es wurden mehrere Arten von Merkmalvektoren als Approximationen der idealen Spracherkennungsvorrichtung vorgeschlagen, wie in dem Artikel von J.W. Picone mit dem Titel "Signal Modeling Techniques in Speech Recognition", Proceedings of the IEEE, Band 81, Nr. 9, 1993, Seiten 1215-1247. Die meisten Spracherkennungsvorrichtungen haben traditionell Cepstral-Parameter verwendet, die aus einer linear-prädiktiven Analyse (LP-Analyse) abgeleitet werden, und zwar aufgrund der Vorteile, die diese LP-Analyse im Hinblick auf die Erzeugung eines glatten und von Tonhöhenoberschwingungen freien Spektrums liefert, und ihrer Fähigkeit, Spektralspitzen relativ gut zu modellieren. Melgestützte Cepstral-Parameter nutzen andererseits die Wahrnehmungseigenschaften des menschlichen Gehörs aus, indem das Spektrum in Mel-Skala-Intervallen abgetastet wird. Logischerweise sollte eine Kombination der Vorteile sowohl der LP-Analyse als auch der Mel-Filterbankanalyse theoretisch eine verbesserte Menge von Cepstral-Merkmalen erzeugen.
- Dies läßt sich auf mehrere Weisen durchführen. Zum Beispiel könnte man das Log.-Betragsspektrum der LP- Parameter berechnen und dann die Frequenzen so verzerren, daß sie der Mel-Skala entsprechen. Existierende Studien haben über ermutigende Spracherkennungsergebnisse berichtet, wenn das LP-Spektrum vor der Berechnung des Cepstrum durch eine Bilineartransformation verzerrt wird, anstatt die Verzerrung nicht zu verwenden, wie zum Beispiel bei M. Rahim und B.H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Band 4, Nr. 1, 1996, Seiten 19-30. Es wurden mehrere andere Frequenzverzerrungstechniken vorgeschlagen, zum Beispiel wird in H.W. Strube, "Linear Prediction on a Warped Frequency Scale", Journal of Acoustical Society of America, Band 68, Nr. 4, 1980, Seiten 1071-1076, ein Mel-artiges Verfahren der spektralen Verzerrung durch Allpaßfilterung im Zeitbereich vorgeschlagen. Ein anderer Ansatz besteht darin, die Mel-Filterbananalyse mit anschließender LP-Analyse auf das Signal anzuwenden, um später als Mel-linear-prädiktive Cepstral-Merkmale (Mel-LPC-Merkmale) zu erhalten (siehe M. Rahim und B.H. Juang, "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing), Band 4, Nr. 1, 1996, Seiten 19-30). Die Berechnung der Mel- LPC-Merkmale gleicht in gewissem Sinne den wahrnehmungsbezogenen Linearprädiktions-PLP-Koeffizienten, die von H. Hermansky in "Perceptual Linear Predictive (PLO) analysis of Speech", Journal of Acoustical Society of America, Band 87, Nr. 4, 1990, Seiten 1738-1752, erläutert werden. Beide Techniken wenden vor der LP- Analyse eine Mel-Filterbank an. Mel-LPC verwendet jedoch eine LP-Analyse höherer Ordnung ohne wahrnehmungsbezogene Gewichtung oder Amplitudenkomprimierung. Alle obigen Techniken sind Versuche, das Spektrum des Sprachsignals für verbesserte Sprachqualität wahrnehmungsbezogen zu modellieren, und eine effizientere Darstellung des Spektrums zur Sprachanalyse, -synthese und -erkennung in einem Ganzbandansatz bereitzustellen.
- In den letzten Jahren wurde an teilbandgestützten Merkmalextraktionstechniken gearbeitet, wie zum Beispiel in H. Bourlard und S. Dupont, "Subband-Based Speech Recognition", Proc. ICASSP, 1997, Seiten 1251- 1254; P. McCourt, 5. Vaseghi und N. Harte, "Multi- Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP; 1998, Seiten 557-650; S. Okawa, E. Bocchieri und A. Potamianos, "Multi-Band Speech Recognition in Noisy Environments", Proc. ICASSP, 1998, Seiten 641-644; und S. Tibrewala und H. Hermansky, "Subband Based Recognition of Noisy Speech", Proc. ICASSP, 1997, Seiten 1255-1258. Der Artikel P. McCourt, S. Vaseghi und N. Harte, "Multi- Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, Seiten 557-560, zeigt an, daß die Verwendung mehrerer Auflösungsebenen keine weiteren Vorteile liefert. Außerdem haben jüngste theoretische und empirische Ergebnisse gezeigt, daß die autoregressive Spektralabschätzung aus Teilbändern robuster und effizienter als die autoregressive Vollbandspektralabschätzung ist, S. Rao und W.A. Pearlman, "Analysis of Linear Prediction, Coding and Spectral Estimation from Subbands", IEEE Transactions on Information Theory, Band 42, 1996, Seiten 1160-1178.
- Wie die oben angeführten Artikel tendenziell anzeigen, werden weiterhin Fortschritte und Verbesserungen in der Technik der Spracherkennungsvorrichtungen benötigt.
- Eine Aufgabe der vorliegenden Erfindung ist die Bereitstellung einer Spracherkennungsvorrichtung, die die Vorteile sowohl einer linear-prädiktiven Analyse als auch einer Teilbandanalyse aufweist.
- Kurz gefaßt, wird ein Fortschritt in der Technik der Spracherkennungsvorrichtungen gemäß den Ansprüchen 1-20 erzielt, indem ein Ansatz zur Prädiktionsanalyse bereitgestellt wird, wobei der Prädiktor aus einer Anzahl von Mel-verzerrten teilbandgestützten Autokorrelationsfunktionen berechnet wird, die aus dem Frequenzspektrum der Eingangssprache erhalten werden. Darüber hinaus kann ein Grad der Teilbandzerlegung und der nachfolgenden Cepstral-Analyse vergrößert werden, so daß Merkmale aus einer Pyramide von Auflösungsebenen gewählt werden können. Ein erweiterter Merkmalvektor wird auf der Grundlage der Verkettung von LP-Cepstral- Merkmalen aus jedem Mehrfach-Auflösungs-Teilband gebildet, wobei ein vieldimensionaler Raum definiert wird, auf dem die statistischen Parameter abgeschätzt werden.
- Bei einer bevorzugten Ausführungsform wird ein Fortschritt in der Technik erzielt durch ein Verfahren und eine Vorrichtung für eine Erkennungsvorrichtung auf der Grundlage des Hidden-Markov-Modells (HMM), das kontinuierliche Dichtemischungen verwendet, um die Zustände des HMM zu charakterisieren. Ein zusätzlicher relativer Vorteil wird erzielt durch Verwendung einer Mehrfachauflösungs-Merkmalmenge, bei der die Aufnahme verschiedener Auflösungen der Teilbandzerlegung effektiv die Einschränkung der Verwendung einer einzigen festen Sprachbandzerlegung lockert und zu weniger Kettenfehlern führt.
- Gemäß einer weiteren Ausführungsform der Erfindung wird ein Fortschritt in der Technik erzielt durch Bereitstellung einer verbesserten Spracherkennungsvorrichtung, die Mehrfachauflösungs-Mel-LPC-Merkmale verwendet.
- Fig. 1 ist ein Blockschaltbild des Verfahrens und der Vorrichtung einer Spracherkennungsvorrichtung für Teilbänder einer ersten Ebene und einer zweiten Ebene gemäß der Erfindung.
- Fig. 2 ist ein Blockschaltbild des Verfahrens und der Vorrichtung einer Spracherkennungsvorrichtung für Teilbänder einer ersten, einer zweiten und einer dritten Ebene gemäß der Erfindung.
- Fig. 1 ist ein Blockschaltbild einer hierarchischen linear-prädiktiven Teilband-Spracherkennungsvorrichtung 100, die zwei Ebenen von Teilbändern aufweist. Die erste Ebene ist die standardmäßige Sprachbandbreite von zum Beispiel 0 bis 4000 Hertz. Die zweite Ebene weist zwei Teilbänder auf, 0-2000 Hertz und 2000-4000 Hertz. Diese Bandbreitengrenzen werden in einem hierarchischen teilbandgestützten linear-prädiktiven Cepstral-Merkmalextraktionsprozeß (HSLPC - Merkmalextraktionsprozeß) 102 auferlegt. Die verbesserte Spracherkennung wird ermöglicht durch die Menge von HSLPC-Merkmalen, die durch den Prozeß 102 gemäß der vorliegenden Erfindung extrahiert wird. Wie bei Spracherkennungsvorrichtungen normal ist, wird die Erkennungsvorrichtung zunächst trainiert, um ein Sprachmodell aufzubauen, und nach dem Training wird das Sprachmodell verwendet, um Eingangssprache zu erkennen. Die Spracherkennungsvorrichtung 100 wird zunächst mit signalkonditioniertem Minimal-Ketten-Fehlerratentraining trainiert.
- Die Erfindung ergab sich zum Teil aus einer Untersuchung der Verwendung von Korrelaten zur Bereitstellung besser trennbarer Merkmale zur Klassifizierung. Obwohl es anscheinend ein allgemeines Prinzip gab, daß besser trennbare Merkmale bessere Erkennungsvorrichtungen erzeugen würden, stellte dieses allgemeine Prinzip nicht spezifisch heraus, daß Korrelate eine Quelle trennbarer Merkmale sein würden, und das allgemeine Prinzip lieferte auch keine spezifische Ausführungsform zur Verwendung von Korrelaten, um besser trennbare Merkmale zu erhalten.
- Fig. 1 zeigt den Gesamtprozeß der Berechnung der hierarchischen Mel-LPC-Merkmale für einen Sprachrahmen. Der HSLPC-Merkmalextraktionsprozeß 102 wird zusammen mit einem Signalkonditionierungsprozeß 160 und einem diskriminativen Trainingsprozeß 170 verwendet, um die Spracherkennungsvorrichtung 100 zu trainieren und dann mit der Spracherkennungsvorrichtung 100 Spracheingaben zu erkennen. Der Trainingsprozeß wird zuerst nachfolgend ausführlich beschrieben.
- Die Spracherkennungsvorrichtung 100 ist ein Prozeß, der auf einer Digitalprozessorplattform arbeitet, wie zum Beispiel der in Fig. 1 des US-Patents US-A-6112175 "SPEAKER ADAPTION USING DISCRIMINATIVE LINEAR REGRESSION ON TIME-VARYING MEAN PARAMETERS IN TRENDED HMM" von R. Chengalvarayan gezeigten. Die Digitalprozessorplattform des US-Patents US-A-6112175 kann umprogrammiert werden, um die Prozesse bereitzustellen, die die Spracherkennungsvorrichtung 100 der vorliegenden Erfindung benötigt. Zunächst ist der HSLPC-Merkmalextraktionsprozeß 102 als ein gestrichelter Block gezeigt. Der HSLPC-Merkmalextraktionsprozeß 102 verarbeitet zeitveränderliche Eingangssprache. Diese Verarbeitung umfaßt eine Präemphase, wobei Sprache zu Rahmen aufgeblockt wird, Rahmenfensterbildung und Fouriertransformationen. Diese konkreten Funktionen werden durch eine schnelle Fouriertransformation (FFT) 104 bereitgestellt. Die FFT 104 setzt die Zeitfunktion der Eingangssprache in ein Frequenz-(Leistungs-)Spektrum um. Als nächstes folgen die Mel-Filterbänke 110 und 120. Die Mittenfrequenzen der Filter 110 und 120 liegen in gleichmäßigem Abstand auf einer linearen Skala von 100 bis 1000 Hz und gleichermaßen auf einer logarithmischen Skala oberhalb von 1000 Hz. Oberhalb von 1000 Hz beträgt jede Mittenfrequenz des 1,1-fache der Mittenfrequenz des vorherigen Filters. Der Betragsfrequenzgang jedes Filters weist eine dreieckige Form im Frequenzbereich auf, die bei der Mittenfrequenz gleich 1 ist und bei den Mittenfrequenzen der beiden angrenzenden Filter linear auf Null abnimmt. Das Frequenzbereichsspektrum für jeden Rahmen wird durch eine Menge von M dreieckigen Mel-Filterbänken geleitet, wobei M für die Erkennungsvorrichtung 100 auf 24 gesetzt wird.
- Als nächstes wird die Autokorrelationsanalyse unter Verwendung inverser diskreter Fouriertransformationen (IDFT) 112, 122 und 123 durchgeführt. Die IDFTs werden auf das geglättete Leistungsspektrum angewandt, d.h. ohne die Log.-Operation, um Q Autokorrelationskoeffizienten zu erhalten, wobei Q für die Ebene 1 auf 10 gesetzt wird. Für die Ebene 2 wird Q für die Teilbänder der unteren Hälfte und der oberen Hälfte (0-2 kHz und 2-4 kHz) auf 8 gesetzt. Fig. 1 zeigt die Folge von Operationen in jedem Teilband für die Auflösungsebenen 1 und 2. Auflösungsebenen von mehr als 2 werden in Betracht gezogen, zwei und drei (Fig. 1 und 2) wurden einfach nur als zweckmäßige Beispiele gewählt und sollen die Erfindung oder die Ansprüche auf keinerlei Weise beschränken.
- Als drittes wird die Cepstral-Analyse durch die linearprädiktiven Cepstral-Analyseprozesse 116, 126 und 127 durchgeführt. Jede Menge von Autokorrelationskoeffizienten wird zunächst in LP- Koeffizienten umgesetzt, wobei der Durbinsche Rekursionsalgorithmus verwendet wird, der aus L.R. Rabiner und Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall, New Jersey, 1993, Seiten 115-117, bekannt ist, und dann unter Verwendung eines standardmäßigen LP-zu-Cepstrum-Rekursionsalgorithmus in Cepstral-Parameter umgesetzt. Die LPC-Analyseprozesse wird für jede Ebene, wie zum Beispiel Ebene 1 und Ebene 2 und für jedes Teilband von den Einheiten 116 bzw. 126 bzw. 127 wiederholt. Die LPC-Prozesse werden wiederholt, bis die vorbestimmte erforderliche Anzahl von Cepstral-Merkmalen aus allen Ebenen erreicht ist.
- Sobald die erforderliche Anzahl von Cepstral-Merkmalen aus allen Ebenen erreicht ist, werden die Mehrebenen- Teilbandmerkmale verkettet, um in der Einheit 150 einen einzigen erweiterten Merkmalvektor zu bilden. Die letztendliche Dimension des verketteten Cepstral- Vektors wird bei der bevorzugten Ausführungsform der vorliegenden Erfindung auf 12 gesetzt. Bei einer bevorzugten Ausführungsform wurden drei Arten von Merkmalmengen untersucht:
- (12,0,0) zeigt 12 Merkmale von der Ebene 1 an, 0 aus dem unteren und 0 aus dem oberen Teilband.
- (0,6,6) zeigt 12 Merkmale aus Ebene 2 an, (6 Merkmale aus dem unteren Teilband und 6 Merkmale aus dem oberen Teilband), und 0 Merkmale aus Ebene 1.
- (6,3,3) zeigt 6 Merkmale aus Ebene 1 und 6 Merkmale aus Ebene 2 an (3 Merkmale aus dem unteren Teilband und 3 Merkmale aus dem oberen Teilband).
- Neben den 12 HSLPC-Merkmalen, die von dem Prozeß 102 für jeden Sprachrahmen bereitgestellt werden, wird jeder Eingangsmerkmalvektor über die 12 HSLPC-Merkmale (und die Energie) hinaus erweitert, um die ersten und zweiten Ableitungen mit aufzunehmen. Insgesamt führt dies zu einem 39-dimensionalen Merkmalvektor, ähnlich dem Vektor in B.H. Juang, W. Chou und C.H. Lee, "Minimum classification error rate methods for speech recognition," IEEE Transactions on Speech and Audio Processing, Band 5, Nr. 3, Seiten 257-265, 1997, und US-Patent US-A-6112175, "SPEAKER ADAPTION USING DISCRIMINATIVE LINEAR REGRESSION ON TIME-VARYING MEAN PARAMETERS IN TRENDED HMM", von R. Chengalvarayan, worauf hiermit ausdrücklich Bezug genommen wird. Und doch von diesen verschieden, wegen der Verwendung von Teilbandinformationen in 12 der 39 Merkmale.
- Wie bei vorbekannten Spracherkennungssystemen wurde, um die Erkennungsvorrichtung zu trainieren und zu prüfen, eine große und komplexe Verbundzifferndatenbasis (CD- Datenbasis) für die bevorzugte Ausführungsform verwendet. Diese CD-Datenbasis ist eine relativ große Herausforderung für Spracherkennungsvorrichtungen wegen ihrer Sprecherdiversität. Die verwendete CD-Datenbasis war eine Zusammenstellung von Datenbasen, die während mehreren unabhängigen Datensammelbemühungen, Versuchen am Einsatzort und Live-Diensteinsätzen gesammelt wurden. Die CD-Datenbasis enthält die englischen Ziffern one bis nine, zero und oh. Diese CD-Datenbasen reichen im Umfang von einer, bei der Sprecher vorbereitete Listen von Ziffernketten lesen, bis zu einer, bei der Kunden tatsächlich ein Erkennungssystem verwenden, um auf Informationen über ihre Kreditkartenkonten zuzugreifen. Diese Daten wurden über Drahtleitungsnetzkanäle unter Verwendung vielfältiger Telefonhörer gesammelt. Die Ziffernkettenlängen reichten von 1 bis 16 Ziffern. Wie üblich wurde die CD-Datenbasis in zwei Mengen aufgeteilt: eine Trainingsmenge und eine Prüfmenge. Die Trainingsmenge enthielt sowohl gelesene als auch spontane Zifferneingaben aus vielfältigen Netzkanälen, Mikrofonen und Dialektregionen.
- Während des Trainings entfernte der Prozeß 162 der hierarchischen Signal-Bias-Entfernung (HSBR) ein Bias aus Signalen mit verschiedenen Eingangsbedingungen. Die Ergebnisse des HSBR-Prozesses 162 wurden zu dem Minimal-Kettenfehler-Generalized-Probabalistic- Decent-(MSE/GPD-)Trainings und Erkennungsprozeß 172 weitergeleitet. Während des Trainings bauen der Prozeß 162 und der Prozeß 172 HMMs in dem Speicher 174 auf. Die HMMs im Speicher 174 werden verwendet, um während des Trainings HSBR-Codebücher in dem Speicher 164 aufzubauen.
- Danach wurde die Prüfmenge so ausgelegt, daß sie Datenketten sowohl aus angepaßten als auch fehlangepaßten Umgebungsbedingungen enthält. Alle Aufzeichnungen in der Trainings- und Prüfmenge waren gültige Ziffernketten, insgesamt 7461 und 13114 Ketten zum Training bzw. Prüfen. Das Training und Prüfen glich dem Training und Prüfen, das in der US-Patentanmeldung Nr. 09/071,214, registriert am 1.5.1998, mit dem Titel "Use of periodicity and jitter as speech recognition features" von D.L. Thomson und R. Chengalvarayan beschrieben wird.
- Nach der Merkmalanalyse wird jeder Merkmalvektor zu der HMM-Erkennungsvorrichtung geleitet, die jedes Wort in dem Vokabular durch eine Menge von links-nach-rechts- kontinuierlicher Mischungsdichte-HMM unter Verwendung von kontextabhängigen Head-Body-Tail-Modellen modelliert. Jedes Signal wurde unter verschiedenen Fernsprechbedingungen und mit verschiedenen Wandlergeräten aufgezeichnet. Danach wurde jeder erzeugte HSLPC- Merkmalvektor weiter mit einem Bias-Entfernungsprozeß verarbeitet, um die Effekte der Kanalverzerrung zu reduzieren. Vorzugsweise wird ein Cepstral-Mean- Substraktions-Bias-Entfernungsprozeß (CMSBR-Prozeß) verwendet, wobei ein Prozeß der hierarchischen Signal- Bias-Entfernung (HSBR) eine alternative Wahl ist. Ein ähnlicher Prozeß wie HSBR wird in M. Rahim und B.H. Juang in "Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition", IEEE Transactions on Speech and Audio Processing, Band 4, Nr. 1, 1996, Seiten 19-30, beschrieben. Bei einer weiteren Ausführungsform der vorliegenden Erfindung verwendet die Bias-Entfernungsvorrichtung 162 auf einem Teil des Groß-Merkmalvektors, z.B. den Merkmalen, die einer spezifischen Ebene oder spezifischen Ebenen entsprechen, HSBR und CMSBR auf dem übrigen Teil des Groß- Merkmalvektors, z.B. den Merkmalen, die den übrigen Ebenen entsprechen.
- Jedes Wort im Vokabular wird in ein Kopf-, ein Hauptteil- und ein Endsegment aufgeteilt. Um die Zwischenwort-Koartikulation zu modellieren, besteht jedes Wort aus einem Hauptteil mit mehreren Köpfen und mehreren Enden abhängig von den vorausgehenden und folgenden Kontexten. Bei der bevorzugten Ausführungsform der vorliegenden Erfindung wurde jede mögliche Zwischenwort-Koartikulation, wobei sich insgesamt 276 kontextabhängige Teilwortmodelle ergeben, modelliert.
- Sowohl die Kopf- als auch die Endmodelle werden mit 3 Zuständen dargestellt, während die Hauptteilmodelle mit 4 Zuständen dargestellt werden, die jeweils 4 Mischungskomponenten aufweisen. Stille wird mit einem Modell mit einem einzigen Zustand mit 32 Mischungskomponenten modelliert. Diese Konfiguration führt zu insgesamt 276 Modellen, 837 Zuständen und 3376 Mischungskomponenten. Das Training umfaßte eine Aktualisierung aller Parameter des Modells, nämlich Mittelwerte, Varianzen und Mischungsverstärkungen unter Verwendung einer Maximum-Likelihood-Abschätzung (MLE), der drei Epochen des Trainings des Minimal- Kettenfehlers und des Generalised Probabilistic Decent (MSE/GPD) folgen, um die Abschätzung der Parameter weiter zu verfeinern. Dieses Training gleicht dem in der US-Patentanmeldung Nr. 09/071,214, registriert am 1.5.1998, mit dem Titel "Use of periodicity and jitter as speech recognition features" von D.L. Thomson und R. Chengalvarayan, wie oben erwähnt, dargelegten. Der Unterschied sind die HSLPC-Merkmalvektoren, die von dem HSLPC-Merkmalextraktionsprozeß 102 erzeugt werden. Das BR-Codebuch der Größe Vier wird aus den Mittelwertvektoren von HMMs extrahiert, und jede Trainingsäußerung wird vor der Verwendung bei dem MSE/GPD-Training durch Anwendung von HSBR signalkonditioniert. In dem Trainingsteil der Entwicklung der Spracherkennungsvorrichtung wurde die Anzahl konkurrierender Kettenmodelle auf Vier gesetzt, und die Schrittlänge wurde auf Eins gesetzt. Die Länge der Eingangsziffernketten wurde sowohl während des Trainings als auch des Prüfens als unbekannt angenommen.
- Nach dem Training wurden mehrere Gruppen von Prüfungen durchgeführt, um die Erkennungsvorrichtung 100 für verbundene Ziffern mit drei Arten von HMMs (HSLPC_{12,0,0}, HSLPC_{0,6,6} und HSLPC_{6,3,3}) und zwei Arten von Training (ML und MSE) zu bewerten. Diese Prüfungen wurden fast genauso wie tatsächlicher Betrieb durchgeführt. Für die Prüfungen und den tatsächlichen Betrieb war die Verarbeitung durch die HSLPC-Merkmalextraktionseinheit 102 dieselbe wie beim Training. Der Bias-Entfernungsprozeß 162 ist im Prinzip derselbe wie das Training, mit der Ausnahme, daß das Training vorüber sein wird und die HMMs und die BR-Codebücher sich beim Training in dieser Stufe nicht ändern sollten. Für das tatsächliche Prüfen und die tatsächliche Spracherkennung wird die Ausgabe der Bias- Entfernungsvorrichtung 162 zu einem Decodiererprozeß 180 gesendet. Der Decodiererprozeß 180 erhält außerdem HMM aus der HMM-Speicherung 174. Der Decodiererprozeß vergleicht den Groß-Merkmalvektor nach der Entfernung eines etwaigen Bias mit den HMMs des Vokabulars der Erkennungsvorrichtung, die während des Trainings aufgebaut wurden. Dieser Decodiererprozeß ist dem Prozeß sehr ähnlich, der in der US-Patentanmeldung Nr. 09/071,214, supra, verwendet wird.
- Die Gesamtleistung der Erkennungsvorrichtung 100 in sechs verschiedenen Konfigurationen und bei einer Organisation mit der Kettengenauigkeit als Funktion des Merkmaltyps ist in Tabelle 1 zusammengefaßt. Tabelle 1 zeigt zum Beispiel, die Menge HSLPC_{6,3,3} zeigt an, daß 6 Mel-LPC-Merkmale aus der ersten Auflösung und 3 Mel-LPC-Merkmale aus dem unteren und 3 aus dem oberen Band der zweiten Auflösungsebene genommen werden. Die normierte Rahmenenergie wird zusammen mit den Mehrfachauflösungs-Merkmalen aufgenommen, und die Ergebnisse stellen die Merkmale dar, die in allen Fällen durch die delta- und delta-delta-Trajektorienmerkmale ergänzt werden. Tabelle 1 zeigt 4 wichtige Ergebnisse. Erstens ist das MSE-Training dem MLE-Training überlegen, und die MSE-gestützte Erkennungsvorrichtung erzielt im Mittel 55% Kettenfehlerratenreduktion, gleichförmig über alle Arten von Sprachmodellen hinweg, gegenüber der MLE-gestützten Erkennungsvorrichtung. Zweitens werden außerdem einige Verbesserungen der Leistung unter Verwendung der Teilband-Cepstral-Merkmale alleine (HSLPC_{0,6,6}) im Vergleich zu dem Voll-Bandbreiten- Cepstral-HSLPC_{12,0,0} beobachtet. Drittens erhält man eine weitere Verbesserung der Erkennungsleistung, wenn die Mehrfachauflösungs-Merkmalmengen verwendet werden, wie in der dritten Zeile von Tabelle 1 gezeigt.
- Schließlich stammt das beste in Tabelle 1 erhaltene Ergebnis aus der Verwendung der Merkmale aus beiden Auflösungsebenen (HSLPC_{6,3,3}) mit einer Reduktion der Fehlerrate von 15% im Vergleich mit der ersten Auflösungsmerkmalmenge alleine (HSLPC_{12,0,0}). In Tabelle 1 ist bemerkenswert, daß gezeigt wurde, daß die Mehrfachauflösungs-Mel-LPC-Merkmale gemäß der vorliegenden Erfindung die Erkennung an der Datenbasis von verbundenen Telefon-Ziffern im Vergleich zu Mel-LPC- Merkmalen mit einer Auflösung verbessern. Die Ergebnisse in Tabelle 1 stehen im Kontrast zu vorherigen Ergebnissen, die von P. McCourt, S. Vaseghi und N. Harte, "Multi-Resolution Cepstral Features for Phoneme Recognition Across Speech Subbands", Proc. ICASSP, 1998, Seiten 557-560, gemeldet wurden, wobei sich zeigt, daß die Verwendung beider Auflösungsebenen keine weiteren Vorteile liefert. Tabelle 1
- Die Kettengenauigkeitsrate für eine auf Grammatik basierende Erkennungsaufgabe mit verbundenen Ziffern unbekannter Länge unter Verwendung der ML- und MSE- Trainingsverfahren als Funktion des HSLPC-Merkmaltyps.
- Es ist bemerkenswert, daß die Prüfungen, die an der trainierten Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung durchgeführt wurden, der tatsächlichen Verwendung von Spracheingaben sehr nahe kommen. Es können also ähnliche Ergebnisse wie die Prüfergebnisse der Spracherkennungsvorrichtung 100 vernünftigerweise erwartet werden.
- Nunmehr mit Bezug auf Fig. 2 ist eine Spracherkennungsvorrichtung 200 gezeigt, die der in Fig. 1 gezeigten Erkennungsvorrichtung mit einer Ebene-3-Spracherkennungsvorrichtung gleicht. Die Spracherkennungsvorrichtung 200 gleicht der Spracherkennungsvorrichtung 100 mit zusätzlichen Mel-Filtern 230; IDFTs 232, 233, 234 und 235; Quad-LPC-Analysierer 236, 237, 238 und 239, Teilband. Für die IDFTs 232-235 wird Q für jeden Teilbandquadranten (0-1 kHz, 1-2 kHz, 2-3 kHz und 3-4 kHz) auf 6 gesetzt. Wenn höhere Ebenen verwendet werden, werden sie ähnlich gesetzt. Die Einheit 250 verkettet die Mehrebenen-Teilband-Merkmale, um wie in der Einheit 150 einen einzigen erweiterten Merkmalvektor zu bilden. Die letztendliche Dimension des verketteten Cepstral-Vektors kann mindestens 12 betragen, obwohl Prüfung zeigen kann, daß eine bestimmte höhere Zahl besser ist.
- Es wurde also eine Spracherkennungsvorrichtung offengelegt, die Cepstral-Merkmale aus Teilbändern extrahiert, um die Erkennung zu verbessern. Es versteht sich, daß Fachleuten viele Modifikationen und Varianten einfallen werden. Zum Beispiel können ein breiteres Spracheingangsband, d.h. mehr als 4000 Hertz und verschiedengroße Teilbänder verwendet werden. Bei einem anderen Beispiel ist eine der Variablen für teilbandgestützte Erkennungsvorrichtungen die Anzahl von Bändern und die genaue Teilband-Grenzzerlegung.
Claims (20)
1. Trainingsverfahren für eine
Spracherkennungsvorrichtung mit den folgenden Schritten:
Empfangen einer bandbegrenzten zeitveränderlichen
Sprach-Eingangsäußerung;
Transformieren der Äußerung mit einem Prozeß (104)
der schnellen Fouriertransformation in ein
Frequenzbereichsspektrum;
Weiterleiten des Frequenzbereichsspektrums zu
mehreren Mel-Filterbänken (110, 120), wobei
mindestens eine der mehreren Mel-Filterbänke (120)
mehrere Teilbänder aufweist, die das
Frequenzspektrum filtern;
Transformieren eines Ausgangssignals jeder der
mehreren Mel-Filterbänke unter Verwendung eines
Prozesses (112, 122, 123) der inversen diskreten
Fouriertransformation, um aus jeder der Mel-
Filterbänke ein zeitveränderliches verarbeitetes
Sprachausgangssignal und ein zusätzliches
zeitveränderliches Ausgangssignal für jedes obige
Teilband, eines für jede Mel-Filterbank, zu erhalten;
Analysieren jedes Ausgangssignals aller
zeitveränderlichen Ausgangssignale jedes Prozesses der
inversen diskreten Fouriertransformation unter
Verwendung einer jeweiligen Cepstral-Analyse (116,
126, 127) mit linearer Prädiktion, um entsprechend
jedem Ausgangssignal der inversen diskreten
Fouriertransformation ein einzelnes
Merkmalsvektorausgangssignal zu erzeugen;
Aneinanderhängen der einzelnen Merkmalsvektoren
zur Bildung eines Groß-Merkmalsvektors (150);
Aufbereiten des Groß-Merkmalsvektors und Entfernen
einer etwaigen Vorbetonung von dem
Groß-Merkmalsvektor mit einer
Vorbetonungs-Entfernungsvorrichtung (162);
Durchführen eines Trainings (171) der minimalen
Zeichenkettenfehler bzw. des verallgemeinerten
probabilistischen Abstiegs an dem
Groß-Merkmalsvektor nach der Entfernung der Vorbetonung;
Aufbauen von Hidden-Markov-Modellen (174) aus dem
Training der minimalen Zeichenkettenfehler bzw.
des verallgemeinerten probabilistischen Abstiegs;
und
Extrahieren eines Vorbetonungsentfernungscodebuchs
(164) der Größe vier aus den mittleren Vektoren
der Hidden-Markov-Modelle zur Verwendung bei der
Vorbetonungsentfernung bei der Signalaufbereitung
des Groß-Merkmalsvektors.
2. Verfahren nach Anspruch 1, wobei der Schritt des
Transformierens Vorverzerrung, Aufteilung von
Sprache in Rahmenblöcke, Rahmen-Fensterung und
Fouriertransformationen umfaßt.
3. Verfahren nach Anspruch 1, wobei die Mel-
Filterbänke Mittenfrequenzen der Filter aufweisen,
die von 100 bis 1000 Hz gleichmäßig auf einer
linearen Skala und oberhalb von 1000 Hz
gleichmäßig auf einer logarithmischen Skala
beabstandet sind.
4. Verfahren nach Anspruch 3, wobei oberhalb von
1000 Hz jede Mittenfrequenz 1,1mal die
Mittenfrequenz des vorherigen Filters ist.
5. Verfahren nach Anspruch 4, wobei der
Betragsfrequenzgang jedes Filters eine dreieckige Form im
Frequenzbereich aufweist, die bei der
Mittenfrequenz gleich Eins ist und bei den
Mittenfrequenzen aller benachbarten Filter linear nach
Null abnimmt.
6. Verfahren nach Anspruch 5, wobei das
Frequenzbereichsspektrum für jeden Rahmen durch eine Menge
von M Dreieck-Mel-Filterbänken geleitet wird.
7. Verfahren nach Anspruch 1, wobei die inversen
diskreten Fouriertransformationen angewandt
werden, um das Frequenzspektrum zu glätten und um
mehrere Autokorrelationskoeffizienten zu erhalten.
8. Verfahren nach Anspruch 7, wobei die Anzahl der
mehreren Autokorrelationskoeffizienten 10 für die
Ebene 1 und 8 für die Ebene 2 beträgt.
9. Verfahren nach Anspruch 1, wobei eine letzte
Dimension des Groß-Merkmalsvektors auf 12
Cepstral-Merkmale gesetzt wird.
10. Verfahren nach Anspruch 9, wobei von den 12
Cepstral-Merkmalen 6 Merkmale aus einem unteren
Teilband und 6 Merkmale aus einem oberen Teilband
stammen.
11. Verfahren nach Anspruch 9, wobei von den 12
Cepstral-Merkmalen 6 Merkmale aus einem Band der
ersten Auflösungsebene, 3 Merkmale aus einem
Teilband bzw. 3 Merkmale aus einem oberen Teilband
der zweiten Auflösungsebene stammen.
12. Verfahren nach Anspruch 1, wobei der Groß-
Merkmalsvektor mindestens ein Merkmal aus einem
Teilband der ersten Auflösungsebene, mindestens
ein Merkmal aus einem Teilband der zweiten
Auflösungsebene und mindestens ein Merkmal aus
einem Teilband der dritten Auflösungsebene
aufweist.
13. Verfahren nach Anspruch 1, wobei jeder
Eingangsmerkmalsvektor über die 12 hierarchischen
teilbandgestützten linear-prädiktiven Cepstral-
Merkmale und das Energiemerkmal mit der ersten und
zweiten Ableitung davon erweitert wird, wodurch
ein 39-dimensionaler Merkmalsvektor entsteht.
14. Spracherkennungsvorrichtung, umfassend:
ein Mittel zum Empfangen einer bandbegrenzten
zeitveränderlichen Sprach-Eingangsäußerung;
ein Mittel (104) zum Transformieren der Äußerung
mit einem Prozeß der schnellen
Fouriertransformation in ein Frequenzbereichsspektrum;
ein Mittel zum Weiterleiten des
Frequenzbereichsspektrums zu mehreren Mel-Filterbänken (110,
120), wobei mindestens eine (120) der mehreren
Mel-Filterbänke mehrere Teilbänder aufweist, die
das Frequenzspektrum filtern;
ein Mittel (112, 122, 123) zum Transformieren
eines Ausgangssignals jeder der mehreren Mel-
Filterbänke unter Verwendung eines Prozesses der
inversen diskreten Fouriertransformation, um aus
jeder der Mel-Filterbänke ein zeitveränderliches
verarbeitetes Sprachausgangssignal und ein
zusätzliches zeitveränderliches Ausgangssignal für
jedes obige Teilband, eines für jede Mel-
Filterbank, zu erhalten;
ein Mittel (116, 126, 127) zum Analysieren jedes
Ausgangssignals aller zeitveränderlichen
Ausgangssignale jedes Prozesses der inversen diskreten
Fouriertransformation unter Verwendung einer
jeweiligen Cepstral-Analyse mit linearer
Prädiktion, um entsprechend jedem Ausgangssignal der
inversen diskreten Fouriertransformation ein
einzelnes Merkmalsvektorausgangssignal zu erzeugen;
ein Mittel (150) zum Aneinanderhängen der
einzelnen Merkmalsvektoren zur Bildung eines Groß-
Merkmalsvektors;
ein Mittel (162) zum Aufbereiten des Groß-
Merkmalsvektors und Entfernen einer etwaigen
Vorbetonung von dem Groß-Merkmalsvektor mit einer
Vorbetonungs-Entfernungsvorrichtung; und
ein Mittel (180) zum Decodieren des
Groß-Merkmalsvektors nach der Entfernung der Vorbetonung.
15. Spracherkennungsvorrichtung nach Anspruch 14,
wobei die Decodierung unter Verwendung von Hidden-
Markov-Modellen (174) und
Vorbetonungsentfernungscodebüchern (164) an dem Groß-Merkmalsvektor
ausgeführt wird.
16. Verfahren einer Spracherkennungsvorrichtung mit
den folgenden Schritten:
Empfangen einer bandbegrenzten zeitveränderlichen
Sprach-Eingangsäußerung;
Transformieren der Äußerung mit einem Prozeß (104)
der schnellen Fouriertransformation in ein
Frequenzbereichsspektrum;
Weiterleiten des Frequenzbereichsspektrums zu
mehreren Mel-Filterbänken (110, 120), wobei
mindestens eine (120) der mehreren Mel-Filterbänke
mehrere Teilbänder aufweist, die das
Frequenzspektrum filtern;
Transformieren eines Ausgangssignals jeder der
mehreren Mel-Filterbänke unter Verwendung eines
Prozesses (112, 122, 123) der inversen diskreten
Fouriertransformation, um aus jeder der Mel-
Filterbänke ein zeitveränderliches verarbeitetes
Sprachausgangssignal und ein zusätzliches
zeitveränderliches Ausgangssignal für jedes obige
Teilband, eines für jede Mel-Filterbank, zu
erhalten;
Analysieren jedes Ausgangssignals aller
zeitveränderlichen Ausgangssignale jedes Prozesses
der inversen diskreten Fouriertransformation unter
Verwendung einer jeweiligen Cepstral-Analyse (116,
126, 127) mit linearer Prädiktion, um entsprechend
jedem Ausgangssignal der inversen diskreten
Fouriertransformation ein einzelnes
Merkmalsvektorausgangssignal zu erzeugen;
Aneinanderhängen der einzelnen Merkmalsvektoren
zur Bildung eines Groß-Merkmalsvektors (150);
Aufbereiten des Groß-Merkmalsvektors und Entfernen
einer etwaigen Vorbetonung von dem Groß-
Merkmalsvektor mit einer
Vorbetonungs-Entfernungsvorrichtung (162); und
Decodieren des Groß-Merkmalsvektors nach der
Entfernung der Vorbetonung (180).
17. Verfahren einer Spracherkennungsvorrichtung nach
Anspruch 16, wobei der Schritt des Decodierens
Hidden-Markov-Modelle (174); und
Vorbetonungsentfernungscodebücher (164) verwendet.
18. Verfahren einer Spracherkennungsvorrichtung nach
Anspruch 16, wobei die Vorbetonungs-
Entfernungsvorrichtung eine Cepstral-Mittelwert-
Subtraktions-Vorbetonungsentfernung verwendet.
19. Verfahren einer Spracherkennungsvorrichtung nach
Anspruch 16, wobei die
Vorbetonungs-Entfernungsvorrichtung eine hierarchische
Signalvorbetonungsentfernung verwendet.
20. Verfahren einer Spracherkennungsvorrichtung nach
Anspruch 16, wobei die
Vorbetonungs-Entfernungsvorrichtung für einen Teil der Merkmale des Groß-
Merkmalsvektors eine
Cepstral-Mittelwert-Subtraktions-Vorbetonungsentfernung und für die
übrigen Merkmale des Groß-Merkmalsvektors eine
hierarchische Signalvorbetonungsentfernung verwendet.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/266,958 US6292776B1 (en) | 1999-03-12 | 1999-03-12 | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60000074D1 DE60000074D1 (de) | 2002-03-28 |
DE60000074T2 true DE60000074T2 (de) | 2002-08-29 |
Family
ID=23016697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60000074T Expired - Fee Related DE60000074T2 (de) | 1999-03-12 | 2000-03-07 | Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US6292776B1 (de) |
EP (1) | EP1041540B1 (de) |
JP (1) | JP3810608B2 (de) |
CA (1) | CA2299051C (de) |
DE (1) | DE60000074T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006014507A1 (de) * | 2006-03-19 | 2007-09-20 | Technische Universität Dresden | Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI19992350A (fi) * | 1999-10-29 | 2001-04-30 | Nokia Mobile Phones Ltd | Parannettu puheentunnistus |
US20020065649A1 (en) * | 2000-08-25 | 2002-05-30 | Yoon Kim | Mel-frequency linear prediction speech recognition apparatus and method |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
JP3564501B2 (ja) | 2001-03-22 | 2004-09-15 | 学校法人明治大学 | 乳幼児の音声解析システム |
US7623114B2 (en) * | 2001-10-09 | 2009-11-24 | Immersion Corporation | Haptic feedback sensations based on audio output from computer devices |
US6703550B2 (en) * | 2001-10-10 | 2004-03-09 | Immersion Corporation | Sound data output and manipulation using haptic feedback |
WO2004004320A1 (en) * | 2002-07-01 | 2004-01-08 | The Regents Of The University Of California | Digital processing of video images |
JP4517163B2 (ja) * | 2004-03-12 | 2010-08-04 | 株式会社国際電気通信基礎技術研究所 | 周波数特性等化装置 |
US7765333B2 (en) * | 2004-07-15 | 2010-07-27 | Immersion Corporation | System and method for ordering haptic effects |
US20060017691A1 (en) | 2004-07-23 | 2006-01-26 | Juan Manuel Cruz-Hernandez | System and method for controlling audio output associated with haptic effects |
CN1296887C (zh) * | 2004-09-29 | 2007-01-24 | 上海交通大学 | 用于嵌入式自动语音识别系统的训练方法 |
US7676362B2 (en) * | 2004-12-31 | 2010-03-09 | Motorola, Inc. | Method and apparatus for enhancing loudness of a speech signal |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
US20070055519A1 (en) * | 2005-09-02 | 2007-03-08 | Microsoft Corporation | Robust bandwith extension of narrowband signals |
US8700791B2 (en) | 2005-10-19 | 2014-04-15 | Immersion Corporation | Synchronization of haptic effect data in a media transport stream |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8000825B2 (en) * | 2006-04-13 | 2011-08-16 | Immersion Corporation | System and method for automatically producing haptic events from a digital audio file |
US7979146B2 (en) * | 2006-04-13 | 2011-07-12 | Immersion Corporation | System and method for automatically producing haptic events from a digital audio signal |
US8378964B2 (en) | 2006-04-13 | 2013-02-19 | Immersion Corporation | System and method for automatically producing haptic events from a digital audio signal |
US20070250311A1 (en) * | 2006-04-25 | 2007-10-25 | Glen Shires | Method and apparatus for automatic adjustment of play speed of audio data |
US20080003550A1 (en) * | 2006-06-30 | 2008-01-03 | George Betsis | Systems and method for recognizing meanings in sounds made by infants |
US7873209B2 (en) | 2007-01-31 | 2011-01-18 | Microsoft Corporation | Segment-discriminating minimum classification error pattern recognition |
JP4762176B2 (ja) * | 2007-03-05 | 2011-08-31 | 日本放送協会 | 音声認識装置および音声認識プログラム |
JP5399271B2 (ja) * | 2007-03-09 | 2014-01-29 | ディーティーエス・エルエルシー | 周波数ワープオーディオ等化器 |
US9019087B2 (en) | 2007-10-16 | 2015-04-28 | Immersion Corporation | Synchronization of haptic effect data in a media stream |
DE102007056221B4 (de) * | 2007-11-27 | 2009-07-09 | Siemens Ag Österreich | Verfahren zur Spracherkennung |
CN101546556B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
JP5499030B2 (ja) * | 2008-08-11 | 2014-05-21 | イマージョン コーポレーション | 音楽ゲームのための触覚的に使用可能にしたゲーム周辺機器 |
US8200489B1 (en) * | 2009-01-29 | 2012-06-12 | The United States Of America As Represented By The Secretary Of The Navy | Multi-resolution hidden markov model using class specific features |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
KR101008264B1 (ko) | 2009-02-27 | 2011-01-13 | 전자부품연구원 | 선형예측계수 차수 선택방법 및 이를 이용한 신호처리장치 |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
CN101944359B (zh) * | 2010-07-23 | 2012-04-25 | 杭州网豆数字技术有限公司 | 一种面向特定人群的语音识别方法 |
US8639508B2 (en) * | 2011-02-14 | 2014-01-28 | General Motors Llc | User-specific confidence thresholds for speech recognition |
US8719019B2 (en) * | 2011-04-25 | 2014-05-06 | Microsoft Corporation | Speaker identification |
CN102254554B (zh) * | 2011-07-18 | 2012-08-08 | 中国科学院自动化研究所 | 一种对普通话重音进行层次化建模和预测的方法 |
CN104221079B (zh) * | 2012-02-21 | 2017-03-01 | 塔塔顾问服务有限公司 | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
PL403724A1 (pl) | 2013-05-01 | 2014-11-10 | Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie | System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa |
WO2016172363A1 (en) * | 2015-04-24 | 2016-10-27 | Cyber Resonance Corporation | Methods and systems for performing signal analysis to identify content types |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271088A (en) * | 1991-05-13 | 1993-12-14 | Itt Corporation | Automated sorting of voice messages through speaker spotting |
US5590242A (en) | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5806022A (en) * | 1995-12-20 | 1998-09-08 | At&T Corp. | Method and system for performing speech recognition |
US5765124A (en) * | 1995-12-29 | 1998-06-09 | Lucent Technologies Inc. | Time-varying feature space preprocessing procedure for telephone based speech recognition |
FR2748342B1 (fr) * | 1996-05-06 | 1998-07-17 | France Telecom | Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal |
US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
US5930753A (en) * | 1997-03-20 | 1999-07-27 | At&T Corp | Combining frequency warping and spectral shaping in HMM based speech recognition |
FR2766604B1 (fr) * | 1997-07-22 | 1999-10-01 | France Telecom | Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique |
US6112175A (en) * | 1998-03-02 | 2000-08-29 | Lucent Technologies Inc. | Speaker adaptation using discriminative linear regression on time-varying mean parameters in trended HMM |
-
1999
- 1999-03-12 US US09/266,958 patent/US6292776B1/en not_active Expired - Lifetime
-
2000
- 2000-02-21 CA CA002299051A patent/CA2299051C/en not_active Expired - Fee Related
- 2000-03-07 DE DE60000074T patent/DE60000074T2/de not_active Expired - Fee Related
- 2000-03-07 EP EP00301869A patent/EP1041540B1/de not_active Expired - Lifetime
- 2000-03-10 JP JP2000067094A patent/JP3810608B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006014507A1 (de) * | 2006-03-19 | 2007-09-20 | Technische Universität Dresden | Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten |
DE102006014507B4 (de) * | 2006-03-19 | 2009-05-07 | Technische Universität Dresden | Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten gleicher Instrumentengruppen |
Also Published As
Publication number | Publication date |
---|---|
EP1041540B1 (de) | 2002-02-20 |
CA2299051A1 (en) | 2000-09-12 |
EP1041540A1 (de) | 2000-10-04 |
CA2299051C (en) | 2004-04-13 |
JP2000267692A (ja) | 2000-09-29 |
JP3810608B2 (ja) | 2006-08-16 |
US6292776B1 (en) | 2001-09-18 |
DE60000074D1 (de) | 2002-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60000074T2 (de) | Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung | |
DE69836785T2 (de) | Audiosignalkompression, Sprachsignalkompression und Spracherkennung | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69807765T2 (de) | Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner | |
DE69816177T2 (de) | Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen | |
DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69220825T2 (de) | Verfahren und System zur Spracherkennung | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE69719236T2 (de) | Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten | |
DE60120323T2 (de) | System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
EP1368805B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69513919T2 (de) | Sprachanalyse | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
DE69534942T2 (de) | System zur sprecher-identifizierung und-überprüfung | |
DE68924134T2 (de) | Spracherkennungssystem. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |