DE69629763T2 - Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) - Google Patents

Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) Download PDF

Info

Publication number
DE69629763T2
DE69629763T2 DE69629763T DE69629763T DE69629763T2 DE 69629763 T2 DE69629763 T2 DE 69629763T2 DE 69629763 T DE69629763 T DE 69629763T DE 69629763 T DE69629763 T DE 69629763T DE 69629763 T2 DE69629763 T2 DE 69629763T2
Authority
DE
Germany
Prior art keywords
triphone
clusters
state
hmm
hmms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69629763T
Other languages
English (en)
Other versions
DE69629763D1 (de
Inventor
Yasuhiro Ohta-ku Komori
Yasunori Ohta-ku Ohora
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69629763D1 publication Critical patent/DE69629763D1/de
Application granted granted Critical
Publication of DE69629763T2 publication Critical patent/DE69629763T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Description

  • Die vorliegende Erfindung bezieht sich auf ein Entwurfsverfahren für ein Zustandsübergangsmodell, das beispielsweise für ein Spracherkennungsmodell verwendet wird. Die Erfindung bezieht sich auch auf ein Spracherkennungsverfahren und eine Vorrichtung, die ein Zustandsübergangsmodell verwenden, das zur Erkennung von Sprache mit hoher Geschwindigkeit entwickelt ist.
  • Im folgenden wird ein Hidden Markov Modell (HMM) als Beispiel für ein Spracherkennungsmodell verwendet.
  • Mit der drastischen Erhöhung der Geschwindigkeit eines Computers wurden extensive Studien hinsichtlich praktischer Verwendungen und der Erzeugung von Spracherkennungssystemen betrieben. Diese Systeme beinhalten ein HMM, das ein statistisches Modell darstellt. Ein Triphon- HMM wurde weitgehend untersucht, da dies eine bessere Leistung als andere HMMs zeigt. Mit diesem Triphon-HMM können Unterschiede in Lautumgebungen, wie vorhergehende und folgende Laute, fein klassifiziert werden. Dieses Triphon- HMM umfasst eine Anzahl von Modellen, so dass sich die Trainierbarkeit von Daten verschlechtert und keine Modelle mit hoher Leistung konfiguriert werden können. Des weiteren erhöht sich der Berechnungsaufwand proportional mit der Anzahl der Modelle, was ein kritischer Punkt für die Spracherkennung ist, die in Echtzeit ablaufen muss.
  • Es wurden mehrere Verfahren zur Lösung dieser Probleme untersucht, die auf einem Konzept eines "HMM mit gemeinsam genutzter bzw. geteilter Struktur" beruhen.
    • (1) Ein verallgemeinertes Triphon- HMM, das HMMs selbst mit ähnlichen akustischen Eigenschaften des gesamten Lautabschnitts nutzt (K. F. Lee, H. W. Hon, Large- vocabulary speaker- independent continous speech recognition using HMM, ICASSP88, Seiten 123 bis 126).
    • (2) Ein geteiltes Zustands- HMM, das die Zustände von HMMs mit ähnlichen akustischen Eigenschaften des gesamten Lautabschnitts teilt (Mei- yuh Hwang, X. D. Huang, Subphonetic modelling with Markov States- SENON, ICASSP02, Seiten 133 bis 136, S. J. Young, P. Woodland, The use of state tying in continous speech recognition, Eurospeech 93, Seiten 2203 bis 2206, 1993).
    • (3) Ein gebundenes Misch- HMM, das die Verteilungen von HMMs mit ähnlichen akustischen Eigenschaften des gesamten Lautabschnitts teilt (J. Bellegarda, D. Nahamoo, Tied mixture continous parameter models for large vocabular isolated speech recognition, ICASSP89, Seiten 13 bis 16, D. Paul, The Lincoln robust continous speech recognition, ISCSSP89, Seiten 449 bis 452).
  • Unter diesen und anderen ist ein geteiltes Zustands- HMM, das ein sukzessives Zustandssplitten (SSS), vorgeschlagen von Takami, verwendet und sowohl (1) als auch (2) realisiert, als Verfahren der Erzeugung eines geteilten Zustands- Triphon- HMM mit hoher Genauigkeit bekannt, da ein geteilter Zustand von oben nach unten bestimmt wird, während Lautumgebungen berücksichtigt werden (siehe Takami, Sagayama: „Automatic generation of hidden Markov network by SSS", Papers of the Institute of Electronics, Information and Communication Engineers, J76- DII, Nr. 10, Seiten 2155 bis 2164, 1993).
  • X. D. Huang, S. J. Young, et al. haben ein Verfahren zur Erzeugung eines geteilten Zustands- Triphon- HMM über ein Mischen von unten nach oben vorgeschlagen, und gute Ergebnisse erzielt. Takahashi et al. haben ein Verfahren zur Erzeugung eines HMM vorgeschlagen, das (1) bis (3) synthetisiert (siehe Takahashi, Sagayama: „HMM for four hierarchical- level shared structure", Technical Reports of the Institute of Electronics, Information and Communication Engineers, SP94-73, Seiten 25 bis 32, 1994-12).
  • Erfindungsgemäß werden alle Triphone vorbereitet, und die Zustände dieser Triphone werden in Clustern angeordnet. In diesem Zusammenhang besteht eine Analogie zu den Verfahren von X. D. Huang und S. J. Young. Allerdings wird anders als bei der Clusterbildung über eine Verschmelzung unter Berücksichtigung lediglich der lokalen Wahrscheinlichkeit eine Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akustischen Raums durchgeführt, und diese Clusterbildung ist aufgrund der Berücksichtigung des gesamten akustischen Raums effektiv.
  • Obwohl das gleiche Schema von oben nach unten wie bei SSS verwendet wird, besitzt SSS einen nicht effektiven Punkt dahingehend, dass ein Endzustand eines Triphons aufgrund des sukzessiven Zustandsplittens (SSS) nicht von einem Startzustand eines anderen Triphons geteilt wird. Da Sprache im Allgemeinen kontinuierlich umgewandelt wird, ist es relativ natürlich, dass ein verbindbarer Endzustand eines Triphons und der Startzustand des nächsten Triphons gemeinsam zu nutzen sind. Das Verfahren von S. J. Young berücksichtigt eine gemeinsame Nutzung lediglich der Zustände innerhalb einer Lautklasse und kann Zustände zwischen Lautklassen nicht gemeinsam nutzen. Diese Nachteile von SSS wurden von Takami durch die Aufnahme einer Verschmelzung in die Vorgänge des sukzessiven Splittens gelöst (siehe Takami „Efficiency improvement of hidden Marcov network by state splitting method", Papers of Lectures of Acoustical Society of Japan, 1-8-4, Seiten 7 bis 8, 1994–10). Takahashi et al. haben die vorstehenden Nachteile durch die Aufnahme eines gebundenen gemischten HMM gelöst. Allerdings berücksichtigen die Erfinder hier, dass die vorstehenden Nachteile vom Gesichtspunkt eines Zustandsniveaus aus zu lösen sind.
  • Ein weiterer Nachteil von SSS besteht darin, dass bei der Erzeugung eines willkürlichen Sprecher- HMM durch sukzessives Zustandsplitten dieses Splitten vom willkürlichen Sprecher abhängig wird. Es ist daher erforderlich, einen bestimmten Sprecher beim Erhalten einer geteilten Zustandsstruktur zu verwenden. Daraus ergeben sich weitere Probleme dahingehend, dass eine große Datenmenge für den bestimmten Sprecher erforderlich ist, und dass es erforderlich ist, die geteilte Zustandsstruktur des bestimmten Sprechers für andere willkürliche Sprecher zu verwenden.
  • Die Erfindung wurde unter Berücksichtigung der vorstehenden Umstände entwickelt. Gemäß einer ersten Ausgestaltung der Erfindung ist eine Vorrichtung zum Ermitteln von Triphon-HMMs ausgebildet, mit einer Verarbeitungseinrichtung zur Durchführung der folgenden Schritte mit einem Schritt der Einstellung jedes Zustands von Triphon-HMMs in einem Anfangscluster, einem Schritt der Erzeugung von Clustern aus dem Anfangscluster durch die Verwendung einer Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt der Zuweisung eines den erzeugten Clustern am nächsten liegenden Clusters zu jedem Zustand der Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt des Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
  • Gemäß einer zweiten Ausgestaltung der Erfindung ist ein Verfahren zum Ermitteln von Triphon-HMMs ausgebildet, mit einem Schritt der Einstellung jedes Zustands eines Triphon-HMM in einem Anfangscluster, einem Schritt (102) der Erzeugung von Clustern aus dem Anfangscluster unter Verwendung einer Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt der Zuweisung eines den erzeugten Clustern am nächsten liegenden Clusters zu jedem Zustand von Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt des Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
  • Kurzbeschreibung der Zeichnung
  • 1 zeigt ein Ablaufdiagramm von Verarbeitungsschritten gemäß einem ersten Ausführungsbeispiel der Erfindung.
  • 2 zeigt Zustände eines HMM und eine Zustandsübergangsmodelldarstellung.
  • 3 zeigt ein Ablaufdiagramm, das Clusterbildungsvorgänge von oben nach unten veranschaulicht.
  • 4 zeigt eine Darstellung, die ein geteiltes Zustands- HMM veranschaulicht.
  • 5 zeigt ein Blockschaltbild eines Spracherkennungsvorgangs, der von einer Spracherkennungsvorrichtung des Ausführungsbeispiels verwendet wird.
  • 6 zeigt eine Tabelle der Ergebnisse der Erkennung von 100 Sätzen, die von 10 willkürlichen Sprechern gesprochen werden, wobei die Erkennung unter Verwendung einer Grammatik aus 1000 Wörtern und der Spracherkennungsvorrichtung des Ausführungsbeispiels durchgeführt wird.
  • 7 zeigt ein Ablaufdiagramm der Verarbeitungsschritte gemäß einem zweiten Ausführungsbeispiel.
  • Ausführliche Beschreibung der Ausführungsbeispiele
  • Nachstehend werden Ausführungsbeispiele der Erfindung unter Bezugnahme auf die beiliegende Zeichnung beschrieben.
  • Die Ausführungsbeispiele (inklusive der Ablaufdiagramme) der Erfindung laufen in der Praxis unter der Steuerung einer CPU entsprechend einem in einem ROM oder RAM gespeicherten Steuerprogramm ab. Dieses Steuerprogramm kann auf einem entfernbaren Speicherträger gespeichert sein, wie einer CD- ROM, die an einer Spracherkennungsvorrichtung angebracht ist.
  • Im folgenden wird ein Verfahren zur Bestimmung eines Modells mit geteilter Zustandsstruktur zur Spracherkennung gemäß einem ersten Ausführungsbeispiel der Erfindung beschrieben.
  • 1 zeigt ein Ablaufdiagramm der Verarbeitungsschritte des ersten Ausführungsbeispiels.
  • Gemäß 1 stellt das Bezugszeichen 101 ein Mittel (einen Prozess) zur Bestimmung anfänglicher Cluster dar, das Bezugszeichen 102 stellt ein Mittel (einen Prozess) für eine Clusterbildung von oben nach unten dar, wie einen allgemeinen LBG-Vorgang zur Erzeugung von Clustern einer Potenz von 2, d. h., ein Mittel (einen Prozess) zum feinen Klassifizieren von Clustern beginnend von einer kleinen Anzahl an Clustern, wobei die Anzahl der Cluster sequentiell erhöht wird, das Bezugszeichen 103 bezeichnet ein Mittel (einen Prozess) zur Bestimmung einer gemeinsamen Zustandsstruktur (bzw. geteilten Zustandsstruktur) eines Triphon- HMM (wobei unter Berücksichtigung sowohl der vorhergehenden als auch der nachfolgenden Laute modelliert wird), und das Bezugszeichen 104 bezeichnet ein Mittel (einen Prozess) zum Studieren (Lernen) eines Triphon- HMMs mit der geteilten Zustandsstruktur.
  • Die Einzelheiten dieser Mittel (Prozesse) werden im Folgenden beschrieben.
  • (1) Entwicklung von Anfangsclustern (101)
    • (A) Alle Triphon- HMMs werden unter Verwendung von Daten eines willkürlichen Sprechers gelernt.
    • (a) Laut- HMMs einer Verteilung werden mit der geeigneten Zahl an Zuständen gelernt.
    • (b) Ein HMM mit rechter Umgebung (Rechtskontext) wird unter Verwendung der Laut- HMMs als Anfangsmodelle gelernt.
    • (c) Ein HMM mit einer Umgebung auf beiden Seiten (Triphon) wird unter Verwendung der Rechtskontext- HMMs als Anfangsmodelle gelernt.
    • (B) Alle Zustände der Triphon- HMMs werden als Anfangscluster verwendet.
  • 2 zeigt eine Darstellung eines HMM, wobei ein allgemeiner Zustand und ein Zustandsübergangsmodell gezeigt sind.
  • In 2 ist eine Zustandsübergangswahrscheinlichkeit mit a angegeben, eine Ausgangswahrscheinlichkeit am entsprechenden Zustand ist mit b angegeben, ein Mittelwert der Ausgangswahrscheinlichkeiten ist mit μ angegeben, und eine entsprechende Varianz ist mit σ angegeben.
  • (2) Clusterbildung von oben nach unten durch das LBG- Schema (102).
  • Die Clusterbildung von oben nach unten wird durch ein LBG- Schema unter Verwendung eines Distanzmaßes durchgeführt, das die Ausgangswahrscheinlichkeitsverteilung berücksichtigt. Die Clusterbildung wird lediglich durch die Ausgangswahrscheinlichkeit b definiert, die als wichtiger Parameter zum Erhalten einer Wahrscheinlichkeit für HMMs betrachtet wird, wobei die Zustandsübergangswahrscheinlichkeit a vernachlässigt wird.
  • Dieser Vorgang ist im Ablaufdiagramm in 3 gezeigt.
  • In Schritt S1 wird m auf 1 gesetzt. In Schritt S2 wird eine Klasse Φm erzeugt, die alle Anfangscluster (ϕi) enthält. In Schritt S3 wird überprüft, ob der Wert m gleich der Gesamtanzahl M (beispielsweise 600) der Cluster ist. Wenn ja, ist der Ablauf beendet, und wenn nicht, geht der Ablauf zu Schritt S4 über.
  • In Schritt S4 wird ein neues Cluster Φm aus allen Anfangsclustern (ϕi) erzeugt, die zu dem alten Cluster Φm gehören, in dem die folgenden Gleichungen (1) und (2) angewendet werden. Insbesondere wird das neue Cluster Φm durch die Verwendung des Mittelwerts μ der Ausgangswahrscheinlichkeiten und einer entsprechenden Varianz σ2 erzeugt. In den Gleichungen gibt m die Clusternummer an, und N gibt die Gesamtanzahl der Anfangscluster an, die zur Klasse Φm gehören.
  • Figure 00080001
  • Als nächstes werden in Schritt S5 ein Anfangscluster ϕp unter den Angangsclustern ϕi, die zum neuen Cluster Φm gehören, das vom Cluster Φm am weitesten entfernt ist, und ein Anfangscluster ϕq erhalten, das vom Anfangscluster ϕp am weitesten entfernt ist. Als Entferungsmaß d(ϕp, ϕq) zwischen den zwei Anfangsclustern wird eine Kullback- Informationsgröße, eine Chernoff- Distanz, eine normalisierte euklidische Distanz, eine euklidische Distanz oder dergleichen verwendet werden. Bei diesem Ausführungsbeispiel wird eine Bhattacharyya- Entfernung verwendet, die durch die folgende Gleichung (3) im Fall einer einfachen Gauss- Verteilung berechnet werden kann.
    Figure 00090001
    wobei μi und Σi jeweils den Mittelwert und die Varianz angeben.
  • Als nächstes werden in Schritt S6 die Anfangscluster ϕi, die zum Cluster Φm gehören, in neue Cluster Φm und Φ(m + 1) unterteilt, die näher an den in Schritt S5 erhaltenen Anfangsclustern ϕp und ϕq liegen.
  • Der vorstehende Vorgang wird unter Bezugnahme auf 4 beschrieben. Unter den Annahme, dass in einem akustischen Raum 401 das Cluster Φm im allgemeinen im Zentrum des akustischen Raums 401 positioniert ist, und das Cluster ϕp nahe dem rechten Ende des akustischen Raums 401 positioniert. ist, ist das Cluster ϕq nahe dem linken Ende des akustischen Raums 401 positioniert. Werden die Anfangscluster ϕi in die zwei neuen Cluster unterteilt, die näher an den Anfangsclustern ϕp und ϕq liegen, wird der akustische Raum 401 im allgemeinen an seinem Zentrum in zwei Räume unterteilt, und die Gesamtanzahl M der neuen Cluster beträgt 2.
  • In Schritt S7 wird eine K- Bereichs- Clusterbildung für die neuen Cluster Φi durch die Verwendung aller Anfangscluster durchgeführt. Diese K- Bereichs- Clusterbildung wird so lange durchgeführt, bis eine voreingestellte Anzahl an Iterationen durchgeführt ist, oder die Gesamtverzerrung Dm gleich einem Schwellenwert oder kleiner wird, um nach einem Cluster Φd mit einer maximalen Gesamtverzerrung zu suchen, und d wird auf m gesetzt, um zu Schritt S3 zurückzukehren.
  • Die Gesamtverzerrung jedes Clusters kann durch die folgende Gleichung (4) erhalten werden.
  • Figure 00100001
  • Überschreitet die Gesamtanzahl M der Cluster die voreingestellte Zahl (beispielsweise 600), ist der Ablauf abgeschlossen. Auf diese Weise kann der geteilte Zustand von M Clustern bestimmt werden.
  • (3) Bestimmung einer geteilten Zustandsstruktur von Triphon-HMMs (103).
  • Jedem Zustand der Triphon- HMMs, der im Kapitel Entwicklung von Anfangsclustern (101) entwickelt wurde, wird ein am nächsten liegendes Cluster unter den Clustern zugeordnet, die bei der Clusterbildung von oben nach unten (102) entwickelt wurden, um die geteilte Zustandsstruktur der Triphon- HMMs durch die Verwendung der geteilten Zustandszahlen zu bestimmen. Für die Beurteilung einer Entfernung wurde die Bhattacharyya- Entfernung verwendet, und die Zustände wurden zugeordnet. Auf diese Weise werden die akustisch näher liegenden Zustände unter Triphon- HMMs oder in einem einzelnen Triphon- HMM gemeinsam genutzt.
  • In 4 bezeichnet ein Symbol, wie/a•Z•i/ ein einzelnes Triphon. In dem in 4 gezeigten Beispiel ist ein Modell mit drei Zuständen gezeigt. Dieses Triphon ist ein Laut „Z" mit einem rechten Laut „i" und einem linken Laut „a". In 4 sind beispielsweise die ersten Zustände von /a•Z•i/, /a•Z•y/ und /a•Z•a/ durch den gleichen Zustand 402 dargestellt, die zweiten Zustände von /a•Z•i/ und /a•Z•y/ sind durch den gleichen Zustand 403 dargestellt, und lediglich der zweite Zustand von /a•Z•a/ ist durch einen anderen Zustand 404 dargestellt. Der erste bis dritte Zustand von /a•Z•i/ und /a•Z•y/ werden vom gleichen Zustand geteilt, und so können sie nicht unterschieden werden. Allerdings sind beispielsweise die Lautfolgen und die Triphone von „azia" und „azya" folgende:
    Figure 00110001
  • Ein stummer Abschnitt ohne einen Laut ist durch q dargestellt. Da qAz, aZi und aZy den gleichen gemeinsamen Zustand haben, können die Worte „azia" und „azya" an diesem Punkt nicht unterschieden werden. Haben jedoch zIa und zYa oder iAq und yAq nicht die gleiche gemeinsame bzw. geteilte Zustandsstruktur, können die zwei Worte an einem dieser Punkte unterschieden werden, und es gibt kein Problem bei praktischen Erkennungsvorgängen.
  • Manchmal (insbesondere dann, wenn die Gesamtanzahl der geteilten Zustände klein ist) teilen sich alle Zustände der Triphone mit den verschiedenen mittleren Lauten den gleichen Zustand. In diesem Fall können alle Triphone, wenn eine Unterteilung erforderlich ist, derart modifiziert werden, dass sie verschiedene akustische Eigenschaften haben, indem eine geteilte Zustandszahl, die durch das Addieren von 1 zur geteilten Gesamtzustandszahl erhalten wird, dem Zustand (beispielsweise dem mittleren Zustand) jedes Triphons zugewiesen wird, um ihn unterscheidbar zu machen.
  • (4) Lernen von Triphon- HMMs mit geteiltem Zustand (104)
  • Entsprechend der in (3) bestimmten geteilten Zustandsstruktur werden die Zustände der Triphone in einen zusammengezogen, um ein zustandsgebundenes Lernen durchzuführen. Bei diesem Lernen können herkömmliche Verfahren verwendet werden, wie ein EM- Algorithmus.
  • 5 zeigt ein Blockschaltbild eines Spracherkennungsvorgangs, der von der erfindungsgemäßen Spracherkennungsvorrichtung verwendet wird.
  • Bei diesem Ausführungsbeispiel werden HMMs 505 durch den vorstehend beschriebenen Ablauf 510 erzeugt. Ein Sprachabschnitt wird durch einen Extrahierer 501 aus einem Sprachsignal extrahiert, das über ein Mikrophon oder dergleichen eingegeben wird. Das extrahierte Sprachsignal wird durch einen akustischen Analysierer 502 analysiert. Eine Wahrscheinlichkeitsberechnungseinrichtung 503 liefert eine Wahrscheinlichkeit jedes Zustands der HMMs 505. Unter Verwendung der erhaltenen Wahrscheinlichkeit, einer Grammatik 506 und eines Spracherkennungsnetzes 507 sucht eine Sprachensucheinrichtung 504 nach einer Sprachfolge mit der größten Wahrscheinlichkeit und gibt sie als Spracherkennungsergebnisse aus.
  • 6 zeigt die Ergebnisse der Erkennung von 100 Sätzen, die von 10 willkürlichen Sprechern gesprochen werden, wobei die Erkennung unter Verwendung einer aus 100 Worten gebildeten Grammatik und der Spracherkennungsvorrichtung des Ausführungsbeispiels durchgeführt wird. In 6 gibt eine Satzerkennungsrate (%) einen Prozentsatz von Sätzen an, für die die eingegebene Sprache korrekt erkannt wurde, und eine Worterkennungsrate (%) ist ein Prozentsatz richtig erkannter Worte in einem gesprochenen Satz.
  • Wie vorstehend angeführt wurden mit der Spracherkennung, die unter Verwendung der geteilten Zustandsstruktur mit insgesamt 600 geteilten Zuständen durchgeführt wurde, die durch den Ablauf des ersten Ausführungsbeispiels erzeugt werden, Satz- und Worterkennungsraten erzielt, die viel höher als bei einem herkömmlichen Laut- HMM, Rechtskontext- HMM und Triphon- HMM sind.
  • Im folgenden wird ein zweites Ausführungsbeispiel der Erfindung beschrieben.
  • Der vorstehend beschriebene Clusterbildungsalgorithmus verwendet ein Entfernungsmaß, das die Varianz σ berücksichtigt.
  • Ist daher die Anzahl der Anfangscluster ϕi und die Anzahl der endgültigen Cluster sehr groß, ist der Berechnungsaufwand immens. Wird daher eine Entfernungsberechnung verwendet, die einen großen Berechnungsaufwand für die Berechnung der Entfernungen zwischen allen Clustern erfordert, ist eine entsprechend größere Zeitdauer erforderlich. In Anbetracht dessen werden zwei Berechnungstypen, eine einfache Entfernungsberechnung und eine genaue Entfernungsberechnung für die Berechnung genauer Entfernungen verwendet. Die einfache Entfernungsberechnung wird für Cluster einer ersten Gruppe beginnend von dem ersten Cluster bis zu einem Zwischencluster unter der Gesamtanzahl an Clustern verwendet, während die genaue Entfernungsberechnung für Cluster verwendet wird, die das dem Zwischencluster folgende Cluster bis zum endgültigen Cluster enthalten. Auf diese Weise wird die für die Entfernungsberechnung erforderliche Zeit verkürzt und der Vorgang kann beschleunigt werden. Bei diesem zweiten Ausführungsbeispiel verwendet die einfache Entfernungsberechnung die euklidische Distanz und die genaue Entfernungsberechnung verwendet die Bhattacharryya- Distanz.
  • 7 zeigt ein Ablaufdiagramm der Verarbeitungsschritte gemäß dem zweiten Ausführungsbeispiel.
  • Zuerst wird in Schritt 701 ein Cluster Φm erzeugt, das alle Anfangscluster ϕi enthält. Dies entspricht Schritt S2 in 3. In Schritt 701 wird überprüft, ob die Gesamtanzahl M an Clustern erhalten wurde. Wenn kleiner als M, wird der Ablauf fortgesetzt, und wenn gleich M, ist der Ablauf beendet. In Schritt 703 wird beurteilt, ob die nächste Clusterbildung die einfache Entfernungsberechnung oder die genaue Entfernungsberechnung verwendet. Ist die Anzahl (m) der Cluster kleiner als die Gesamtanzahl M (beispielsweise 600) an Clustern mal × (beispielsweise 10), d. h., vom ersten Cluster bis zum 590. Cluster, geht der Ablauf zu Schritt 704 zur Ausführung einer Clusterbildung mittels der einfachen Entfernungsberechnung über.
  • Ist die Anzahl (m) der Cluster (M-x) oder größer, geht der Ablauf zu Schritt 704 zur Ausführung der Clusterbildung mittels der genauen Entfernungsberechnung bis zum letzten Cluster M über. Die Verarbeitungsschritte in den Schritten 704 und 705 unterscheiden sich in ihren Berechnungsverfahren und entsprechen den Schritten S4 bis S7 in 3. Das heißt, Schritt 705 verwendet die Bhattacharyya- Distanz und stellt die gleichen Verarbeitungsvorgänge wie in den Schritten S4 bis S7 in 3 dar, und Schritt 704 verwendet die euklidische Distanz und berechnet die Entfernungen in den Schritten S4 bis S7 über die euklidische Distanz. Nach Schritt 704 oder 705 wird in Schritt 706 ein Cluster hinzugefügt, und der Ablauf kehrt zu Schritt 702 zurück.
  • Die Entfernungsberechnung bei diesem Ausführungsbeispiel kann andere Entfernungen verwenden, die sich von der Bhattacharyya-Distanz und der euklidischen Distanz unterscheiden.
  • In den vorstehenden Ausführungsbeispielen wird das HMM als Spracherkennungsmodell verwendet. Anstelle eines HMM können andere Modelle verwendet werden, wenn sie Zustandsübergangsmodelle mit Verteilungen sind. Obwohl das Triphon als Modelleinheit verwendet wird, kann die Erkennungseinheit Musik oder eine andere Information sein.
  • Obwohl bei den vorstehenden Ausführungsbeispielen eine Spracherkennung ausgeführt wird, sind die vorstehenden Abläufe der Ausführungsbeispiele bei einem Modellentwurf einer Mustererkennung anwendbar, indem Modelle mit ähnlichen Verteilungen verwendet werden.
  • Die Erfindung ist bei einem System mit einer Vielzahl von Einrichtungen und bei einer einzigen Einrichtung anwendbar.
  • Die Erfindung ist bei einem Programm anwendbar, das die Erfindung bildet, und einem System oder einer Einrichtung zugeführt wird.
  • Wie bisher beschrieben sind die Merkmale der Ausführungsbeispiele, dass (1) Cluster über eine Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akustischen Raums erzeugt werden, (2) Zustände unter Lautklassen und in jeder Lautklasse gemeinsam genutzt werden können, und (3) eine geteilte Zustandsstruktur eines willkürlichen Sprechers direkt erzeugt werden kann. Daher kann ein Triphon- HMM einer effizienten geteilten Zustandsstruktur über eine Clusterbildung von oben nach unten entworfen werden. Unter Verwendung des Spracherkennungsmodells, das durch die Abläufe der Erfindung entwickelt ist, kann eine Spracherkennung mit hoher Geschwindigkeit und hoher Leistung realisiert werden.

Claims (11)

  1. Vorrichtung zum Ermitteln von Triphon-HMMs, mit einer Verarbeitungseinrichtung zur Durchführung der folgenden Schritte mit einem Schritt (101) der Einstellung jedes Zustands von Triphon-HMMs in einem Anfangscluster, die unter Verwendung von Daten eines willkürlichen Sprechers gelernt werden, einem Schritt (102) der Erzeugung von Clustern (Φm) von Zuständen der Triphone aus dem Anfangscluster durch die Verwendung einer Clusterbildung von oben nach unten (102) unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt (103) der Zuweisung eines den erzeugten Clustern am nächsten liegendes Cluster zu jedem Zustand der Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt (104) des zustandgebundenen Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
  2. Vorrichtung nach Anspruch 1, wobei der Erzeugungsschritt (102) einen Schritt (704) der Erzeugung einer vorbestimmten Anzahl von Clustern durch die Verwendung einer einfachen Distanzberechnung und einen Schritt (705) der Erzeugung anderer Cluster unter Verwendung einer genauen Distanzberechnung enthält, nachdem die vorbestimmte Anzahl an Clustern erzeugt ist.
  3. Vorrichtung nach Anspruch 2, wobei die genaue Distanzberechnung (705) eine Bhattacharyya-Distanz verwendet.
  4. Vorrichtung nach Anspruch 2 oder 3, wobei die einfache Distanzberechnung (704) eine euklidische Distanz verwendet.
  5. Vorrichtung nach einem der Ansprüche 1 bis 4, wobei die Clusterbildung von oben nach unten eine Ausgangswahrscheinlichkeit (b(0)) jedes Zustands der Triphon-HMMs verwendet.
  6. Verfahren zum Ermitteln von Triphon-HMMs, mit: einem Schritt (101) der Einstellung jedes Zustands eines Triphon-HMM, das unter Verwendung von Daten eines willkürlichen Sprechers gelernt wird, in einem Anfangscluster, einem Schritt (102) der Erzeugung von Clustern von Zuständen der Triphone aus dem Anfangscluster (ϕi) unter Verwendung einer Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt (103) der Zuweisung eines den erzeugten Clustern am nächsten liegenden Clusters zu jedem Zustand von Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt (104) des zustandbezogenen Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
  7. Verfahren nach Anspruch 6, wobei der Erzeugungsschritt (102) einen Schritt (704) der Erzeugung einer vorbestimmten Anzahl (M-x) von Clustern unter Verwendung einer einfachen Distanzberechnung und einen Schritt (705) der Erzeugung anderer Cluster unter Verwendung einer genauen Distanzberechnung enthält, nachdem die vorbestimmte Anzahl an Clustern erzeugt ist.
  8. Verfahren nach Anspruch 7, wobei die genaue Distanzberechnung (705) eine Bhattacharyya-Distanz verwendet.
  9. Verfahren nach Anspruch 7 oder 8, wobei die einfache Distanzberechnung (704) eine euklidische Distanz verwendet.
  10. Verfahren nach einem der Ansprüche 6 bis 9, wobei die Clusterbildung von oben nach unten eine Ausgangswahrscheinlichkeit (b(0)) jedes Zustands der Triphon-HMMs verwendet.
  11. Datenträger, der prozessorimplementierbare Anweisungen zur Durchführung eines Verfahrens zum Ermitteln von Triphon-HMMs nach einem der Ansprüche 6 bis 10 trägt.
DE69629763T 1995-06-19 1996-06-18 Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) Expired - Fee Related DE69629763T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP15148995 1995-06-19
JP15148995A JP3453456B2 (ja) 1995-06-19 1995-06-19 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置

Publications (2)

Publication Number Publication Date
DE69629763D1 DE69629763D1 (de) 2003-10-09
DE69629763T2 true DE69629763T2 (de) 2004-07-15

Family

ID=15519621

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69629763T Expired - Fee Related DE69629763T2 (de) 1995-06-19 1996-06-18 Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)

Country Status (4)

Country Link
US (1) US5812975A (de)
EP (1) EP0750293B1 (de)
JP (1) JP3453456B2 (de)
DE (1) DE69629763T2 (de)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
JP3962445B2 (ja) 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6405159B2 (en) 1998-06-03 2002-06-11 Sbc Technology Resources, Inc. Method for categorizing, describing and modeling types of system users
JP2000047696A (ja) 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
AU1520000A (en) * 1998-11-25 2000-06-13 Sony Electronics Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
US7086007B1 (en) 1999-05-27 2006-08-01 Sbc Technology Resources, Inc. Method for integrating user models to interface design
JP3969908B2 (ja) 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
KR100434538B1 (ko) * 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6526379B1 (en) * 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6778643B1 (en) * 2000-03-21 2004-08-17 Sbc Technology Resources, Inc. Interface and method of designing an interface
US20040006473A1 (en) 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6910000B1 (en) * 2000-06-02 2005-06-21 Mitsubishi Electric Research Labs, Inc. Generalized belief propagation for probabilistic systems
US7024350B2 (en) * 2000-07-20 2006-04-04 Microsoft Corporation Compact easily parseable binary format for a context-free grammer
WO2002027535A1 (en) * 2000-09-28 2002-04-04 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
WO2002029615A1 (en) 2000-09-30 2002-04-11 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
US7006969B2 (en) 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6801656B1 (en) 2000-11-06 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for determining a number of states for a hidden Markov model in a signal processing system
US7065201B2 (en) 2001-07-31 2006-06-20 Sbc Technology Resources, Inc. Telephone call processing in an interactive voice response call management system
US7305070B2 (en) 2002-01-30 2007-12-04 At&T Labs, Inc. Sequential presentation of long instructions in an interactive voice response system
US6914975B2 (en) 2002-02-21 2005-07-05 Sbc Properties, L.P. Interactive dialog-based training method
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US7027586B2 (en) 2003-12-18 2006-04-11 Sbc Knowledge Ventures, L.P. Intelligently routing customer communications
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US7643686B2 (en) * 2004-11-17 2010-01-05 Eastman Kodak Company Multi-tiered image clustering by event
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US7805301B2 (en) * 2005-07-01 2010-09-28 Microsoft Corporation Covariance estimation for pattern recognition
US20070213988A1 (en) * 2006-03-10 2007-09-13 International Business Machines Corporation Using speech processing technologies for verification sequence instances
US20070260459A1 (en) * 2006-05-04 2007-11-08 Texas Instruments, Incorporated System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4918731A (en) * 1987-07-17 1990-04-17 Ricoh Company, Ltd. Speech recognition method and apparatus
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
JPH0296800A (ja) * 1988-10-03 1990-04-09 Nec Corp 連続音声認識装置
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
US5073939A (en) * 1989-06-08 1991-12-17 Itt Corporation Dynamic time warping (DTW) apparatus for use in speech recognition systems
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5615286A (en) * 1995-05-05 1997-03-25 Bell Communications Research, Inc. Method for determining a most likely sequence of states

Also Published As

Publication number Publication date
EP0750293B1 (de) 2003-09-03
DE69629763D1 (de) 2003-10-09
EP0750293A2 (de) 1996-12-27
JP3453456B2 (ja) 2003-10-06
EP0750293A3 (de) 1997-10-08
JPH096386A (ja) 1997-01-10
US5812975A (en) 1998-09-22

Similar Documents

Publication Publication Date Title
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60201262T2 (de) Hierarchische sprachmodelle
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE60200857T2 (de) Erzeugung einer künstlichen Sprache
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE102017124264A1 (de) Bestimmen phonetischer Beziehungen
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee