DE69726235T2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung Download PDF

Info

Publication number
DE69726235T2
DE69726235T2 DE69726235T DE69726235T DE69726235T2 DE 69726235 T2 DE69726235 T2 DE 69726235T2 DE 69726235 T DE69726235 T DE 69726235T DE 69726235 T DE69726235 T DE 69726235T DE 69726235 T2 DE69726235 T2 DE 69726235T2
Authority
DE
Germany
Prior art keywords
speaker
class
speech recognition
output probability
classes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69726235T
Other languages
English (en)
Other versions
DE69726235D1 (de
Inventor
Yasuhiro Ohta-ku Komori
Tetsuo Ohta-ku Kosaka
Masayuki Ohta-ku Yamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69726235D1 publication Critical patent/DE69726235D1/de
Application granted granted Critical
Publication of DE69726235T2 publication Critical patent/DE69726235T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren und eine Vorrichtung dafür und insbesondere auf ein Spracherkennungsverfahren zum Erkennen der eingegebenen Sprache unter Nutzung eines Modells und eine Vorrichtung dafür.
  • Relevanter Stand der Technik
  • Unter den bekannten Spracherkennungstechnologien verwenden wenige Spracherkennungstechnologien Modelle mehrerer Sprecherklassen, und selbst falls derartige Modelle verwendet werden, wird ein Verfahren zur Nutzung von in männliche und weibliche Sprecher aufgeteilten Modellen und Auswahl des zu verwendenden Modells vor der Ausführung einer Spracherkennung angewendet. Es ist kein Verfahren zur Nutzung eines Modells von unbestimmtem Sprechermodell oder Nutzung eines männlichen Modells und eines weiblichen Modells zur Spracherkennung zu der gleichen Zeit vorhanden gewesen, und es ist kein ein derartiges Verfahren nutzender Hochgeschwindigkeitsprozeß vorhanden gewesen.
  • Bei der Modellvorbereitung zur Spracherkennung ist es allgemein bekannt, daß eine höhere Leistungsfähigkeit der Erkennung erhalten werden kann, indem Einzelheiten in dem Hidden-Markov-Modell (HMM) in der Richtung der Phonemumgebung erzeugt werden. Es wird ebenfalls bekannt, daß eine höhere Leistungsfähigkeit der Erkennung erhalten werden kann, indem durch Geschlechter dargestellte Einzelheiten in der Richtung von Sprecherklassen erzeugt werden. Während jedoch in dem Fall der Erzeugung des ausführlichen Modells in der Richtung der Phonemumgebung die Last des Erkennungsprozesses hauptsächlich bei der Ausgabewahrscheinlichkeitsberechnung des HMM zunimmt, nimmt in dem Fall der Erzeugung des ausführlichen Modells in der Richtung von Sprecherklassen die Last sowohl bei der Ausgabewahrscheinlichkeitsberechnung als auch bei der Sprachsuche zu. Bei der Spracherkennung ist der Echtzeitprozeß ein sehr wichtiger Faktor, der in Kombination mit der hohen Erkennungsrate erreicht werden muß. Es ist daher notwendig, den Echtzeitprozeß der Spracherkennung zu realisieren, während die Erkennungsrate davon verbessert wird, und zu diesem Zweck ist es notwendig, einen Sprecherklassenmodelle nutzenden Hochgeschwindigkeitsprozeß zu realisieren.
  • Es ist aus Kosaka et al. "Tree-structured Speaker Clustering for Fast Speaker Adaptation", Proceedings of the International Conference on Acoustics, Speech, Signal Processing (ICASSP), Speech Processing 1, Adelaide, 19.–22. April 1994, Seiten I-245–I-248 bekannt, eine sprecheradaptive Spracherkennung unter Verwendung einer hierarchischen Sprecheranhäufung bereitzustellen, bei der Sprechermodelle in einer Baumstruktur angeordnet sind, um sowohl eine genaue als auch eine grobe Adaption gemäß dem Ausmaß von Training zu erreichen.
  • Ausgestaltungen der vorliegenden Erfindung sind in den beigefügten Patentansprüchen definiert.
  • Ein Ausführungsbeispiel ermöglicht eine Hochgeschwindigkeitsspracherkennung mit einer hohen Erkennungsrate durch ein Analysieren der eingegebenen Sprache, ein Bestimmen der Ausgabewahrscheinlichkeit von Modellen, d. h. eines Modells eines unbestimmten Sprechers bzw. unbestimmten Sprechermodells und mehrerer gemäß mehreren Sprecherklassen geclusterter bzw. angehäufter Sprechermodelle, und des Ergebnisses der Analyse der eingegebenen Sprache, und ein Bestimmen des Ergebnisses der Erkennung der eingegebenen Sprache auf der Grundlage der so bestimmten Ausgabewahrscheinlichkeit.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt ein funktionelles Blockschaltbild eines Ausführungsbeispiels der vorliegenden Erfindung;
  • 2 zeigt ein Ablaufdiagramm, das den Prozeßablauf bei dem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
  • 3 zeigt eine Ansicht, die einen bekannten Prozeß unter Nutzung von Sprecherklassenmodellen darstellt;
  • 4 zeigt eine Ansicht, die einen Hochgeschwindigkeitsprozeß der vorliegenden Erfindung unter Nutzung von Sprecherklassenmodellen darstellt;
  • 5 zeigt eine Ansicht, die den Vergleich von Verarbeitungszeiten darstellt;
  • 6 zeigt eine Ansicht, die Sprecherklassen mit einer hierarchischen Struktur darstellt;
  • 7 zeigt eine Tabelle, die die Ergebnisse der Erkennung von Telefonsprache unter Nutzung von Sprecherklassen darstellt; und
  • 8 zeigt ein Blockschaltbild, das einen Hardwareaufbau einer die vorliegende Erfindung verkörpernden Vorrichtung darstellt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • 1 zeigt ein funktionelles Blockschaltbild einer die vorliegende Erfindung verkörpernden Vorrichtung.
  • In 1 sind eine Spracheingabevorrichtung 101 einschließlich eines Mikrofons oder eines A/D-Wandlers zum Eingeben der Sprache eines Eingabesprechers; eine akustische Verarbeitungseinheit 102 zum Bestimmen von Sprachparametern durch eine akustische Analyse; eine Ausgabewahrscheinlichkeitsberechnungseinheit 103 zum Berechnen einer gemeinsamen groben Ausgabewahrscheinlichkeit und einer feinen Ausgabewahrscheinlichkeit für jede Sprecherklasse; ein Sprecherklassenmodell (HMM: Hidden-Markov-Modell) 104; eine Sprachsucheinheit 105 für eine gemeinsame grobe Sprachsuche und eine feine Sprachsuche für jede Sprecherklasse; eine bei der Sprachverarbeitung verwendete Grammatik-/Wörterbucheinheit 106; und eine Anzeigevorrichtung 107 zum Ausgeben des Ergebnisses bereitgestellt.
  • 1 zeigt ein funktionelles Blockschaltbild einer die Erfindung verkörpernden Spracherkennungsvorrichtung, während 8 den Hardwareaufbau einer derartigen Spracherkennungsvorrichtung zeigt, und die Funktionen der Blöcke in 1 sind durch die in 8 gezeigten Komponenten realisiert.
  • Genauer ist die Funktion der Spracheingabevorrichtung 101 durch eine Spracheingabevorrichtung 86 realisiert, und die Funktionen der akustischen Verarbeitungseinheit 102, der Ausgabewahrscheinlichkeitsberechnungseinheit 103 und der Sprachsucheinheit 105 sind unter der Steuerung einer CPU 83 gemäß einem in einem ROM 81 oder einem RAM 82 gespeicherten Steuerprogramm realisiert.
  • Das Sprecherklassen-HMM-Modell 104 und die Grammatik/ das Wörterbuch 106 sind in dem ROM 81 oder dem RAM 82 gespeichert. Die Steuerprogramme, das HMM und das Wörterbuch, die in dem RAM 82 gespeichert sind, und die bei verschiedenen Prozessen erforderlichen Parameter können über eine Schnittstelle (I/F) 85 von einer CD-ROM 84 oder über eine öffentliche Übertragungsleitung von einem (nicht gezeigten) anderen Endgerät installiert werden.
  • Die Anzeigevorrichtung 107 kann durch eine Anzeigevorrichtung 87 wie beispielsweise eine CRT oder eine Flüssigkristallanzeigevorrichtung realisiert sein, und verschiedene Anweisungen können durch eine Eingabeeinrichtung 88 wie beispielsweise eine Tastatur, eine Maus und/oder ein Tablett eingegeben werden.
  • Die Spracherkennungsvorrichtung besteht aus den vorstehend angeführten Komponenten und funktioniert gemäß dem in 2 gezeigten Ablauf. Durch die Spracheingabevorrichtung 201 (101 entsprechend) herausgeschnittene Sprache wird durch die akustische Verarbeitungseinheit 202 (102 entsprechend) in Sprachparameter in jedem Rahmen analysiert, und die Aus gabewahrscheinlichkeitsberechnungseinheit 203 (103 entsprechend) berechnet unter Nutzung des HMM 204 (104 entsprechend) die Ausgabewahrscheinlichkeit. Das HMM 204 (104 entsprechend) speichert in mehreren Sprecherklassen geclusterte bzw. angehäufte Sprecherklassenmodelle. Bei der Ausgabewahrscheinlichkeitsberechnung in 203 berechnet die Ausgabewahrscheinlichkeitsberechnungseinheit zuerst eine gemeinsame grobe Ausgabewahrscheinlichkeit (203-a) und berechnet auf der Grundlage des Ergebnisses einer derartigen Berechnung wieder eine feine Ausgabewahrscheinlichkeit für jede Sprecherklasse, die zu dem Ergebnis der Erkennung beitragen kann (203-b). Daraufhin wird eine gemeinsame Ausgabewahrscheinlichkeit aus diesen Ausgabewahrscheinlichkeiten bestimmt, und die Sprachsucheinheit 205 (105 entsprechend) führt eine gemeinsame Sprachsuche auf der Grundlage der Grammatik/ des Wörterbuchs 206 (106 entsprechend) und der vorstehend bestimmten gemeinsamen Ausgabewahrscheinlichkeit aus, wodurch ein Kandidat der Erkennung bestimmt wird (205-a). Die Sprachsucheinheit 205 (105 entsprechend) führt daraufhin unter Nutzung der feinen Ausgabewahrscheinlichkeit für jede Sprecherklasse eine feine Sprachsuche für jede Sprecherklasse aus, wodurch ein Erkennungsergebnis und seine Wahrscheinlichkeit bestimmt werden (205-b). Diese Ergebnisse werden als die Ergebnisse der Erkennung bei 207 (107 entsprechend) ausgegeben.
  • [Verfahren zur Vorbereitung eines hochwertigen HMM unter Berücksichtigung von Sprecherklassen]
  • Nachstehend sind Verfahren zur Vorbereitung von Sprecherklassen und von Sprecherklassen-HMM erläutert.
  • I. Verfahren zur Vorbereitung von Sprecherklassen
  • Nachstehend ist das Verfahren zur Vorbereitung von Sprecherklassen erläutert. In einer Sprecherklasse sind Sprecher mit akustisch ähnlichen Merkmalen geclustert bzw. angehäuft. Die Ähnlichkeit der akustischen Merkmale der Sprecher kann durch verschiedene Verfahren gemessen werden, wie beispielsweise:
    • 1) ein Verfahren zur Betrachtung des akustischen Merkmals jedes Sprechers als eine Verteilung, Vorbereitung von Verteilungen für die jeweiligen Sprecher und Messung der Ähnlichkeit zwischen den Sprechern durch den Abstand zwischen derartigen Verteilungen;
    • 2) ein Verfahren zur Darstellung eines Raums eines unbestimmten Sprechers bzw. unbestimmten Sprecherraums durch mehrere repräsentative Punkte oder Verteilungen, Bestimmung der Abweichung der repräsentativen Punkte jedes Sprechers in dem unbestimmten Sprecherraum und Messung der Ähnlichkeit zwischen den Sprechern durch eine derartige Abweichung; und
    • 3) ein Verfahren zur Vorbereitung von Teilräumen für jeweilige Sprecher unter Berücksichtigung der Lauteigenschaft, Ausbildung einer Entsprechung zwischen derartigen Teilräumen unter Berücksichtigung der Lauteigenschaft und Messung der Ähnlichkeit zwischen den Sprechern durch die Summe der Ähnlichkeiten der Teilräume.
  • Das Verfahren (1) kann realisiert werden, indem das kontinuierliche HMM einer Verteilung für einen Zustand für jeden Sprecher unter Nutzung des ganzen Sprachraums untersucht wird und die Ähnlichkeit zwischen den Sprechern durch ein Bestimmen des Abstands des HMM der Sprecher gemessen wird. Bei diesem Verfahren wird jedoch der Durchschnitt der Verteilung jedes Sprechers ein Cepstrum-Mittelwert, da der ganze Sprachraum jedes Sprechers durch eine Verteilung dargestellt ist, so daß der Unterschied zwischen den Sprechern nicht deutlich werden kann. Folglich kann dieses Verfahren nicht als zu bevorzugend betrachtet werden.
  • Das Verfahren (2) kann realisiert werden, indem ein Codebuch (z. B. von einer Codewortgröße von 1024) eines unbestimmten Sprechers vorbereitet wird (d. h. das HMM der diskreten Verteilung eines Zustands von 1024 Codewörtern untersucht wird), die Wahrscheinlichkeiten des Auftretens derartiger Codewörter für jeden Sprecher bestimmt werden und die Ähnlichkeit zwischen den Sprechern durch die Abweichung derartiger Auftretenswahrscheinlichkeiten gemessen wird. Dieses Verfahren ist dem Verfahren (1) dahingehend vorzuziehen, daß der Sprachraum in Teilräume aufgeteilt wird. Da dieses Verfahren die Lauteigenschaft nicht berücksichtigt, kann jedoch die gemessene Ähnlichkeit zwischen den Sprechern auf der Ähnlichkeit zwischen einem Laut eines Sprechers und einem anderen Laut eines anderen Sprechers basieren, und in Anbetracht einer derartigen Möglichkeit kann dieses Verfahren nicht als zu bevorzugend betrachtet werden.
  • Das Verfahren (3) kann realisiert werden, indem Modelle unter Berücksichtigung des Lauts für jeden Sprecher vorbereitet werden und die Ähnlichkeit zwischen den Sprechern durch die Summen der Ähnlichkeiten der entsprechenden Modelle gemessen wird. Es werden z. B. Phonem-HMM von 1 Verteilung für 3 Zustände für jeden Sprecher vorbereitet, und die Ähnlichkeit zwischen den Sprechern wird durch ein Bestimmen der Ähnlichkeit in jedem entsprechenden Zustand jedes entsprechenden Phonems der Sprecher und ein Berechnen der Summe derartiger Ähnlichkeiten gemessen. Bei diesem Verfahren wird die Ähnlichkeit zwischen den Sprechern unter Berücksichtigung des ganzen Sprachraums der Sprecher gemessen, während eine Entsprechung zwischen den durch das Phonem dargestellten Phonemteilräumen und dem Zustand ausgebildet wird, und kann daher unter Berücksichtigung des Lautmerkmals angegeben werden, wobei auch der genaue Unterschied bei dem akustischen Merkmal jedes Sprechers widergespiegelt wird. Die Ähnlichkeit zwischen den Sprechern kann auch in einer genaueren Art und Weise gemessen werden, indem das Phonemmodell durch ein von der Phonemumgebung abhängiges genaueres HMM ersetzt wird.
  • In Anbetracht des Vorstehenden wird die Ähnlichkeit zwischen den Sprechern durch das vorstehend erläuterte Verfahren (3) bestimmt, und die Sprecherklassen werden gemäß einer derartigen Ähnlichkeit bestimmt. Nachstehend ist der Algorithmus zum Vorbereiten der Sprecherklassen erläutert.
  • II. Algorithmus zur Vorbereitung von Sprecherklassen
  • 1) Zuerst werden Phonem-HMM von 1 Verteilung für 3 Zustände vorbereitet.
  • Unter Ausschluß des lautlosen Zustands 24 Phoneme betrachtend wird jeder Sprecher durch 72 Teilräume (= 24 Phoneme × 3 Zustände) dargestellt. Für 204 Sprecher werden z. B. 4896 HMM vorbereitet, und die gesamte Anzahl von Verteilungen wird 14688 (4896 × Anzahl von Zuständen (3)).
  • 2) Die Ähnlichkeit zwischen den Sprechern wird durch die für jeden Sprecher vorbereiteten Phonem-HMM gemessen.
  • Für zwei Sprecher S(1) und S(2) wird durch ein Definieren von Zuständen ϕp, ϕq für einen entsprechenden Zustand n eines entsprechenden Phonems m unter den Phonem-HMM (24 Arten) die Ähnlichkeit zwischen derartigen Zuständen durch einen Abstand d (ϕp, ϕq) dargestellt, wobei ϕp und ϕq dargestellt werden durch:
  • Figure 00100001
  • Da jeder Zustand durch eine Verteilung dargestellt wird, kann der Abstand d(ϕp, ϕq) gemäß der folgenden Gleichung (2) unter Verwendung des Bhattacharyya-Abstands berechnet werden:
    Figure 00100002
    wobei μi und Σi jeweils für Mittelwert und Streuung stehen.
  • Die Abstände aller der Zustände aller der entsprechenden Phoneme der Sprecher werden durch die vorstehende Gleichung bestimmt, und die Ähnlichkeit der Sprecher ist durch den Abstand D(S(1), S(2)) bestimmt, bei dem es sich um die Summe der vorstehend angeführten Abstände handelt. Der Abstand D(S(1), S(2)) wird durch die folgende Gleichung (3) berechnet:
    Figure 00100003
    wobei M die Anzahl von Arten von HMM angibt und N die Anzahl von Zuständen pro HMM angibt.
  • Die Ähnlichkeit wird wie vorstehend erläutert für jeweils zwei Sprecher aller der Sprecher bestimmt.
  • 3) Die Sprecher werden durch einen LBG-Algorithmus auf der Grundlage der Ähnlichkeiten aller der Sprecher angehäuft. Der LBG-Algorithmus wird in der folgenden Prozedur ausgeführt:
    • 1. Es wird ein zentraler Sprecher ausgewählt, für den die Summe der Ähnlichkeiten für alle die Sprecher minimal wird. Der zentrale Sprecher bedeutet einen Sprecher, für den die Summe der Ähnlichkeiten in der betrachteten Klasse minimal wird;
    • 2. Es wird ein von dem zentralen Sprecher in der betrachteten Klasse am weitesten entfernter Sprecher Sa bestimmt;
    • 3. Es wird ein von dem vorstehend angeführten entfernten Sprecher Sa in der betrachteten Klasse am weitesten entfernter Sprecher Sb bestimmt;
    • 4. Die Sprecher in der betrachteten Klasse werden in eine dem Sprecher Sa nähere Gruppe und eine andere dem Sprecher Sb nähere Gruppe aufgeteilt, wodurch zwei Sprecherklassen erzeugt werden;
    • 5 . Zentrale Sprecher Sa1, Sb1 werden jeweils für so aufgeteilte zwei Sprecherklassen erneuert;
    • 6. Alle die Sprecher werden durch eine Zuweisung zu den nächsten zentralen Sprechern unter Nutzung aller der derzeit bestimmten zentralen Sprecher (deren Anzahl gleich der Anzahl von derzeit betrachteten Sprecherklassen ist) neu angehäuft. Dieser Schritt 6 wird wiederholt, während die Erneuerung der zentralen Sprecher fortgesetzt wird, aber die Folge geht zu dem nächsten Schritt 7 über, falls die zentralen Sprecher nicht mehr erneuert werden. Dieser Schritt wird beendet, wenn eine gewünschte Anzahl von Sprecherklassen erhalten wird; und
    • 7. Unter allen den Sprecherklassen wird eine Klasse bestimmt, die für den zentralen Sprecher die größte Summe der Ähnlichkeiten zeigt, und die vorstehenden Schritte 2, 3, 4, 5 und 6 werden bei einer derartigen Klasse ausgeführt.
  • Die Sprecherklassen werden wie vorstehend erläutert vorbereitet. Die vorbereiteten Sprecherklassen können genutzt werden wie sie sind, aber die Ausbreitung der Sprecher kann gemäß dem vorstehend angeführten Verfahren zur Vorbereitung in den verschiedenen Klassen verschieden sein. Falls es wünschenswert ist, ähnliche Niveaus der Ausbreitung zwischen den verschiedenen Sprecherklassen zu haben, ist es möglich, nacheinander einen näheren Sprecher für jede Sprecherklasse abzurufen, bis das Niveau der Ausbreitung (die Summe der Ähnlichkeiten zu dem zentralen Sprecher) der die breiteste Ausbreitung zeigenden (d. h. die größte Summe der Ähnlichkeiten zu dem zentralen Sprecher aufweisenden) Klasse dem Niveau der Ausbreitung anderer Klassen ähnlich wird. Eine derartige Bestimmung der Sprecherklassen stellt eine gleichmäßige Ausbreitung der Sprecherklassen bereit, und der Sprecher an der Grenze gehört zu mehreren Sprecherklassen, so daß die Spracherkennung von dem sich aus dem Fehler bei der Bestimmung der Sprecherklassen ergebenden bedeutenden Einfluß befreit werden kann.
  • III. Verfahren zur Vorbereitung von Sprecherklassen-HMM
  • Die von der Phonemumgebung abhängigen HMM werden durch den gewöhnlichen EM-Algorithmus vorbereitet, wobei die Sprachdaten der Sprecher genutzt werden, die zu jeder Sprecherklasse von so vorbereiteten Sprecherklassen gehören. Bei 4 Sprecherklassen werden z. B. von der Phonemumgebung abhängige HMM von 12 Verteilungen in 3 Zuständen (238 Arten) vorbereitet.
  • [Hochgeschwindigkeitsspracherkennungsverfahren unter Nutzung von Sprecherklassen-HMM]
  • Nachstehend ist ein Hochgeschwindigkeitsspracherkennungsverfahren unter Nutzung von Sprecherklassen-HMM erläutert.
  • Zuerst ist unter Bezugnahme auf 3 ein bekanntes Spracherkennungsverfahren unter Nutzung von Sprecherklassen-HMM erläutert. In diesem Fall werden grundsätzlich in einer parallelen Art und Weise die Spracherkennungsprozesse gemäß den Arten (N) der Sprecherklassen-HMM durchgeführt, wobei im Vergleich zu dem Fall des Verwendens nur einer Sprecherklasse, d. h. eines HMM einer unbestimmten Sprecherklasse bzw. unbestimmten Sprecherklassen-HMM, die Sprachverarbeitung N Mal erforderlich ist. Folglich sind die Ausgabewahrscheinlichkeitsberechnung und die Sprachsuche ebenfalls N Mal erforderlich. Falls die Berechnungen eines derartigen Ausmaßes notwendig sind, erfordert die Verwendung der Sprecherklassen-HMM bei der tatsächlichen Spracherkennung zwangsläufig einen Computer mit einer sehr hohen Geschwindigkeit oder mit paralleler Verarbeitung zum Realisieren des Echtzeitprozesses. Eine derartige Verwendung wird daher aufwendig und ist praktisch unrealistisch.
  • Nachstehend ist ein die Sprecherklassen-HMM nutzendes und zum deutlichen Verringern des Ausmaßes der vorstehend angeführten Berechnungen fähiges Spracherkennungsverfahren vorgeschlagen. Das vorgeschlagene Verfahren ist in 4 veranschaulicht. Der vorgeschlagene Spracherkennungsprozeß zeichnet sich durch die Tatsache aus, daß das HMM eines unbestimmten Sprechers bzw. unbestimmte Sprecher-HMM immer auch bei der Erkennung des Sprecherklassen-HMM verwendet wird. Das unbestimmte Sprecher-HMM entspricht einer Obersprecherklasse aller der Sprecherklassen-HMM. Es soll die Effizienz der Ausgabewahrscheinlichkeitsberechnung und der Sprachsuche durch ein Verwenden des Ergebnisses des unbestimmten Sprecher-HMM als den geschätzten Wert jedes Sprecherklassen-HMM verbessern.
  • Das vorgeschlagene Hochgeschwindigkeitsspracherkennungsverfahren unter Nutzung der Sprecherklassen-HMM funktioniert in der folgenden Art und Weise:
    • 1) Für das Ergebnis der akustischen Analyse wird der geschätzte Wert der Zustandsausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM (SI-HMM) durch das Hochgeschwindigkeitsausgabewahrscheinlichkeitsberechnungsverfahren IDMM + SQ unter Nutzung einer skalaren Quantisierung und einer dimensional unabhängigen Ausgabewahrscheinlichkeitsberechnung berechnet;
    • 2) Unter der Annahme, daß der Oberrang der durch IDMM + SQ geschätzten Ausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM ein zu dem Ergebnis der Erkennung beitragender Zustand ist, wird die Zustandsausgabewahrscheinlichkeit jedes Sprecherklassen-HMM unter Nutzung des unbestimmten Sprecher-HMM und jedes Sprecherklassen-HMM neu berechnet, um eine feine Ausgabewahrscheinlichkeit zu erhalten. Da das unbestimmte Sprecher-HMM die Oberklasse der Sprecherklassen-HMM bildet, kann bei dieser Operation eine relativ hohe Ausgabewahrscheinlichkeit bei dem unbestimmten Sprecher-HMM in einem Zustand erwartet werden, in dem mit einer hohen Ausgabewahrscheinlichkeit des Sprecherklassen-HMM zu rechnen ist. Folglich kann die durch IDMM + SQ geschätzte Ausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM als die Zustandsausgabewahrscheinlichkeit jedes Sprecherklassen-HMM verwendet werden;
    • 3) Anschließend wird eine Vorwärtssprachsuche unter Nutzung der gesamten Ausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM ausgeführt. In diesem Fall wird die Sprachsuche nicht in anderen Sprecherklassen ausgeführt. Bei dem vorliegenden Spracherkennungsverfahren wird das endgültige Ergebnis der Erkennung durch eine Rückwärtssprachsuche unter Nutzung der Tree-Trellis-basierten Suche auf der Grundlage der Astar-Suche bestimmt. Der heuristische Aufwand der Astar-Suche nutzt den Vorwärtspunktwert des unbestimmten Sprechers und erfordert nicht die Vorwärts-Viterbi-Suche für jede Sprecherklasse. In diesem Fall erfüllt der heuristische Aufwand die Bedingung der Astar-Suche in einem strenge Sinne nicht, aber in der Praxis ist der Unterschied kaum von Bedeutung, falls die endgültigen N besten Ergebnisse neu sortiert werden, da das eine Oberklasse der Sprecherklassen-HMM bildende unbestimmte Sprecher-HMM einen relativ zufriedenstellenden geschätzten Wert für den heuristischen Aufwand der Sprecherklassen-HMM bereitstellt. Die endgültigen N besten Ergebnisse müssen in jedem Fall neu sortiert werden, da die Ergebnisse unter mehreren Sprecherklassen verwendet werden;
    • 4) Daraufhin wird das endgültige Ergebnis der Erkennung durch eine Rückwärtssprachsuche für jede Sprecherklasse bestimmt. Bei dieser Operation wird das Ergebnis der Vorwärtssprachsuche des unbestimmten Sprechers als der heuristische Aufwand jeder Sprecherklasse verwendet, wie es vorstehend erläutert ist. Bei der Rückwärts-Viterbi-Suche wird die in dem Schritt (2) geschätzte Ausgabewahrscheinlichkeit für jede Sprecherklasse verwendet;
    • 5) Die für die verschiedenen Sprecherklassen bestimmten Ergebnisse der Erkennung werden neu sortiert, und das Ergebnis der höchsten Wahrscheinlichkeit wird als das Ergebnis der Erkennung des ersten Rangs genommen.
  • Bei dem vorstehend erläuterten Verfahren werden die meisten Berechnungen, die zu dem Ergebnis der Erkennung beitragen können, gemäß den sich auf jede Sprecherklasse beziehenden Informationen ausgebildet.
  • 5 zeigt schematisch den Vergleich der Verarbeitungszeit der das Sprecherklassen-HMM verwendenden Spracherkennung bei dem bekannten Verfahren und bei dem Verfahren gemäß der Erfindung, wobei die Verarbeitungszeit in der Abszisse genommen ist. Die oberste grafische Darstellung zeigt die Verarbeitungszeit der nur eine Sprecherklasse (unbestimmte Sprecherklasse) verwendenden bekannten Erkennung, und die zweite grafische Darstellung zeigt die Verarbeitungszeit der eine unbestimmte Sprecherklasse verwendenden Erkennung, die durch IDMM + SQ schneller gemacht worden ist (Erfindung). Die dritte grafische Darstellung zeigt die Verarbeitungszeit der IDMM + SQ und die Sprecherklassen-HMM von 3 Sprecherklassen einfach in einer parallelen Art und Weise verwendenden bekannten Erkennung (wie in 3 gezeigt), während die unterste grafische Darstellung die Verarbeitungszeit des Hochgeschwindigkeitsspracherkennungsverfahrens mit 3 Sprecherklassen unter Nutzung der vorgeschlagenen Sprecherklassen-HMM (wie in 4 gezeigt) zeigt. Die für die Ausgabewahrscheinlichkeitsberechnung (Bjot) und die Vorwärts-/Rückwärtssprachsuche erforderliche Verarbeitungszeit ist abhängig von der das Ziel der Erkennung bildenden Aufgabe und von der Leistungsfähigkeit von HMM variabel, kann aber als in dem betrachteten Bereich als eine angemessene Länge dargestellt angesehen werden. Die für die Rückwärtssprachsuche erforderliche Verarbeitungszeit, die in diesen grafischen Darstellungen als beträchtlich lang dargestellt ist, beträgt jedoch in der Praxis weniger als 0,1 Sekunden.
  • Folglich erfordert im Vergleich zu dem bekannten Verfahren des Berechnens der Sprecherklassen-HMM einfach in einer parallelen Art und Weise und Ausführens der IDMM + SQ-Berechnung und der Vorwärts-Viterbi-Suche gemäß der Anzahl N der Sprecherklassen das vorgeschlagene Verfahren die IDMM + SQ-Berechnung für das unbestimmte Sprecher-HMM und die Vorwärtssuche nur einmal, so daß der Vorteil des vorgeschlagenen Verfahrens mit der Erhöhung der Anzahl N größer wird. Demgegenüber ist das mit der Anzahl N der Sprecherklassen zunehmende Ausmaß der Ausgabewahrscheinlichkeitsneuberechnung für die Sprecherklassen und der Rückwärtssprachsuche bei den ganzen Berechnungen begrenzt. Folglich kann das Verfahren gemäß der Erfindung bei dem ganzen Prozeß mit einer sehr hohen Geschwindigkeit ausgeführt werden.
  • Folglich wird eine verbesserte Möglichkeit zur Realisierung des Echtzeitprozesses bereitgestellt, ohne auf einen Hochgeschwindigkeitscomputer oder parallele Computer angewiesen zu sein, und es kann eine praktische Spracherkennung realisiert werden.
  • [Versuchsergebnisse bei der Spracherkennung mit Sprecherklassen-HMM]
  • In 7 sind Ergebnisse eines mit mehreren Sprecherklassen durchgeführten Versuchs gezeigt. Die Spracherkennung wurde mit (a) einer unbestimmten Sprecherklasse (g1), (2) männlichen und weiblichen Sprecherklassen (g2) und (3) 8 aus vier männlichen Klassen und vier weiblichen Klassen zusammengesetzten Sprecherklassen (g8) versucht. Von der Phonemumgebung abhängige HMM von 6 Verteilungen für 3 Zustände wurden für jede der vorstehend angeführten Sprecherklassen (1)– (3) vorbereitet (insgesamt 238 Arten), und der Erkennungsversuch wurde für 520 durch zwanzig männliche und weibliche Sprecher ausgesprochene Wörter (Telefonsprache) durchgeführt.
  • Die Versuchsergebnisse in 7 geben die Wirkung der Verwendung der Sprecherklassen an. Gemäß diesen Ergebnissen hat der die unbestimmte Sprecherklasse in Kombination mit den Sprecherklassen nutzende Fall den Prozentsatz der maximalen Verschlechterung gesenkt und die Prozentsätze der maximalen Verbesserung und der mittleren Verbesserung erhöht.
  • Vorstehend ist ein Fall des Verwendens der unbestimmten Sprecherklasse und der männlichen und weiblichen Sprecherklassen erläutert, aber es kann auch eine große Anzahl der Sprecherklassen verwendet werden.
  • Außerdem ist vorstehend ein Fall des Nutzens der unbestimmten Sprecherklasse bei der Berechnung der gemeinsamen Ausgabewahrscheinlichkeit erläutert, aber es kann auch ein beliebiger Parameter verwendet werden, der aus den Ausgabewahrscheinlichkeitswerten der Sprecherklassen bestimmt werden kann. Es kann z. B. der maximale Wert der Ausgabewahrscheinlichkeiten der Sprecherklassen-HMM verwendet werden.
  • Ferner ist vorstehend ein Fall des Nutzens von IDMM + SQ bei der Berechnung der groben Ausgabewahrscheinlichkeit erläutert, aber es kann auch ein Verfahren des Verwendens eines HMM von kleinerem Bestand für die Berechnung der groben Ausgabewahrscheinlichkeit und Verwendens eines HMM von größerem Bestand für die Berechnung der feinen Ausgabewahrscheinlichkeit oder ein Verfahren des Verwendens eines Phonem-HMM für die Berechnung der groben Ausgabewahrscheinlichkeit und Verwendens eines von der Phonemumgebung abhängigen HMM für die Berechnung der feinen Ausgabewahrscheinlichkeit verwendet werden.
  • Ferner ist vorstehend ein Fall des Verdoppelns der Anzahl der Sprecherklassen für jede hierarchische Ebene erläutert, aber die Anzahl der Sprecherklassen kann in einer beliebigen Art und Weise erhöht werden.
  • Ferner ist vorstehend ein Fall des Anhäufens der Sprecher in einer derartigen Art und Weise, daß die Sprecher zwischen den verschiedenen Klassen nicht überlappen, erläutert, aber das Anhäufen kann auch derart ausgebildet werden, daß ein derartiges Überlappen erlaubt ist.

Claims (16)

  1. Spracherkennungsverfahren mit den Schritten- Empfangen von eingegebene Sprache darstellenden Spracheingabesignalen; Berechnen einer groben Ausgabewahrscheinlichkeit der eingegebenen Sprache unter Verwendung eines unbestimmten Sprechermodells; Berechnen einer feinen Ausgabewahrscheinlichkeit der eingegebenen Sprache für jede Sprecherklasse unter Verwendung des unbestimmten Sprechermodells und einer Vielzahl von in einer Vielzahl von Sprecherklassen angehäuften Sprechermodellen; und Bestimmen eines Erkennungsergebnisses für die eingegebene Sprache auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit.
  2. Spracherkennungsverfahren nach Anspruch 1, wobei jedes Sprechermodell zu einer Sprecherklasse oder mehreren Sprecherklassen in der Vielzahl von Sprecherklassen gehört.
  3. Spracherkennungsverfahren nach Anspruch 1 oder 2, wobei es sich bei dem unbestimmten Sprechermodell und der Vielzahl von Sprechermodellen jeweils um ein jeweiliges Phonem-HMM handelt.
  4. Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, wobei der Bestimmungsschritt zur Bestimmung eines Erkennungsergebnisses für die eingegebene Sprache eine Sprachsuche für jede Sprecherklasse auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit ausführt.
  5. Spracherkennungsverfahren nach Anspruch 4, wobei der Bestimmungsschritt eine erste Sprachsuche auf der Grundlage der groben Ausgabewahrscheinlichkeit ausführt und daraufhin eine zweite Sprachsuche auf der Grundlage der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit ausführt.
  6. Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, wobei eine dem unbestimmten Sprechermodell entsprechende unbestimmte Sprecherklasse eine Obersprecherklasse der anderen Sprecherklassen ist.
  7. Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, wobei der zweite Berechnungsschritt die grobe Ausgabewahrscheinlichkeit unter Verwendung einer skalaren Quantisierung und eines dimensional unabhängigen Hochgeschwindigkeitsausgabewahrscheinlichkeitsberechnungsverfahrens berechnet.
  8. Spracherkennungsvorrichtung mit: einer Einrichtung (201) zum Empfangen von eingegebene Sprache darstellenden Spracheingabesignalen; einer ersten Berechnungseinrichtung (203-a) zum Berechnen einer groben Ausgabewahrscheinlichkeit der eingegebenen Sprache unter Verwendung eines unbestimmten Sprechermodells; einer zweiten Berechnungseinrichtung (203-b) zum Berechnen einer feinen Ausgabewahrscheinlichkeit der eingegebenen Sprache für jede Sprecherklasse unter Verwendung des unbestimmten Sprechermodells und einer Vielzahl von in einer Vielzahl von Sprecherklassen angehäuften Sprechermodellen; und einer Bestimmungseinrichtung (204206) zum Bestimmen eines Erkennungsergebnisses für die eingegebene Sprache auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit.
  9. Spracherkennungsvorrichtung nach Anspruch 8, wobei jedes Sprechermodell zu einer Sprecherklasse oder mehreren Sprecherklassen in der Vielzahl von Sprecherklassen gehört.
  10. Spracherkennungsvorrichtung nach einem der Ansprüche 8 und 9, wobei es sich bei dem unbestimmten Sprechermodell und der Vielzahl von Sprechermodellen jeweils um ein jeweiliges Phonem-HMM handelt.
  11. Spracherkennungsvorrichtung nach einem der Ansprüche 8 bis 10, wobei die Bestimmungseinrichtung dazu betreibbar ist, zur Bestimmung eines Erkennungsergebnisses für die eingegebene Sprache eine Sprachsuche für jede Sprecherklasse auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit auszuführen.
  12. Spracherkennungsvorrichtung nach Anspruch 11, wobei die Bestimmungseinrichtung dazu betreibbar ist, eine erste Sprachsuche auf der Grundlage der groben Ausgabewahrscheinlichkeit auszuführen und daraufhin eine zweite Sprachsuche auf der Grundlage der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit auszuführen.
  13. Spracherkennungsvorrichtung nach einem der Ansprüche 8 bis 12, wobei eine dem unbestimmten Sprechermodell entsprechende unbestimmte Sprecherklasse eine Obersprecherklasse der anderen Sprecherklassen ist.
  14. Spracherkennungsvorrichtung nach einem der Ansprüche 8 bis 13, wobei die zweite Berechnungseinrichtung dazu betreibbar ist, die grobe Ausgabewahrscheinlichkeit unter Verwendung einer skalaren Quantisierung und eines dimensional unabhängigen Hochgeschwindigkeitsausgabewahrscheinlichkeitsberechnungsverfahrens zu berechnen.
  15. CD-ROM (84) mit von einer Verarbeitungseinrichtung ausführbaren Anweisungen zum Steuern einer Verarbeitungseinrichtung zur Ausführung aller Schritte eines Verfahrens nach einem der Ansprüche 1 bis 7.
  16. Computerprogramm mit von einer Verarbeitungseinrichtung ausführbaren Anweisungen zum Anweisen einer Verarbeitungseinrichtung (83) zur Ausführung aller Schritte eines Verfahrens nach einem der Ansprüche 1 bis 7.
DE69726235T 1996-09-20 1997-09-18 Verfahren und Vorrichtung zur Spracherkennung Expired - Lifetime DE69726235T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP8249972A JPH1097276A (ja) 1996-09-20 1996-09-20 音声認識方法及び装置並びに記憶媒体
JP24997296 1996-09-20

Publications (2)

Publication Number Publication Date
DE69726235D1 DE69726235D1 (de) 2003-12-24
DE69726235T2 true DE69726235T2 (de) 2004-08-19

Family

ID=17200934

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69726235T Expired - Lifetime DE69726235T2 (de) 1996-09-20 1997-09-18 Verfahren und Vorrichtung zur Spracherkennung

Country Status (4)

Country Link
US (1) US6108628A (de)
EP (1) EP0831456B1 (de)
JP (1) JPH1097276A (de)
DE (1) DE69726235T2 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
JP2001075964A (ja) * 1999-08-31 2001-03-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
JP3969908B2 (ja) 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US7047192B2 (en) * 2000-06-28 2006-05-16 Poirier Darrell A Simultaneous multi-user real-time speech recognition system
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
JP3774698B2 (ja) * 2000-10-11 2006-05-17 キヤノン株式会社 情報処理装置、情報処理方法及び記憶媒体
US7529666B1 (en) * 2000-10-30 2009-05-05 International Business Machines Corporation Minimum bayes error feature selection in speech recognition
EP1207517B1 (de) * 2000-11-16 2007-01-03 Sony Deutschland GmbH Verfahren zur Spracherkennung
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
US7038690B2 (en) * 2001-03-23 2006-05-02 Microsoft Corporation Methods and systems for displaying animated graphics on a computing device
US7239324B2 (en) * 2001-03-23 2007-07-03 Microsoft Corporation Methods and systems for merging graphics for display on a computing device
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP2004012698A (ja) * 2002-06-05 2004-01-15 Canon Inc 情報処理装置及び情報処理方法
JP4280505B2 (ja) * 2003-01-20 2009-06-17 キヤノン株式会社 情報処理装置及び情報処理方法
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US20070124148A1 (en) * 2005-11-28 2007-05-31 Canon Kabushiki Kaisha Speech processing apparatus and speech processing method
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
CN102074236B (zh) * 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
CN111613219B (zh) * 2020-05-15 2023-10-27 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JPH03150599A (ja) * 1989-11-07 1991-06-26 Canon Inc 日本語音節の符号化方式
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JP3066920B2 (ja) * 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
JP2871561B2 (ja) * 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation

Also Published As

Publication number Publication date
DE69726235D1 (de) 2003-12-24
JPH1097276A (ja) 1998-04-14
EP0831456A2 (de) 1998-03-25
US6108628A (en) 2000-08-22
EP0831456A3 (de) 1998-10-14
EP0831456B1 (de) 2003-11-19

Similar Documents

Publication Publication Date Title
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69615667T2 (de) Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60204374T2 (de) Spracherkennungsvorrichtung
DE69925479T2 (de) Dynamisch konfigurierbares akustisches modell für spracherkennungssysteme
DE69129015T2 (de) Sprecherunabhängiges Gerät zur Markierungskodierung
DE3852608T2 (de) Design und Konstruktion eines binären Entscheidungsbaumsystems zur Sprachmodellierung.
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69705830T2 (de) Sprachverarbeitung
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60010106T2 (de) Verfahren und vorrichtung zum unterscheidenden training von akustischen modellen in einem spracherkennungssystem
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69318447T2 (de) Erkennungssystem
DE69226804T2 (de) Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk
DE69229124T2 (de) Mehrteiliger expertsystem
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition