DE69629763T2

DE69629763T2 - Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)

Info

Publication number: DE69629763T2
Application number: DE69629763T
Authority: DE
Inventors: Yasuhiro Ohta-ku Komori; Yasunori Ohta-ku Ohora
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-06-19
Filing date: 1996-06-18
Publication date: 2004-07-15
Anticipated expiration: 2016-06-19
Also published as: EP0750293B1; DE69629763D1; EP0750293A2; JP3453456B2; EP0750293A3; JPH096386A; US5812975A

Description

Die vorliegende Erfindung bezieht sich auf ein Entwurfsverfahren für ein Zustandsübergangsmodell, das beispielsweise für ein Spracherkennungsmodell verwendet wird. Die Erfindung bezieht sich auch auf ein Spracherkennungsverfahren und eine Vorrichtung, die ein Zustandsübergangsmodell verwenden, das zur Erkennung von Sprache mit hoher Geschwindigkeit entwickelt ist.
Im folgenden wird ein Hidden Markov Modell (HMM) als Beispiel für ein Spracherkennungsmodell verwendet.
Mit der drastischen Erhöhung der Geschwindigkeit eines Computers wurden extensive Studien hinsichtlich praktischer Verwendungen und der Erzeugung von Spracherkennungssystemen betrieben. Diese Systeme beinhalten ein HMM, das ein statistisches Modell darstellt. Ein Triphon- HMM wurde weitgehend untersucht, da dies eine bessere Leistung als andere HMMs zeigt. Mit diesem Triphon-HMM können Unterschiede in Lautumgebungen, wie vorhergehende und folgende Laute, fein klassifiziert werden. Dieses Triphon- HMM umfasst eine Anzahl von Modellen, so dass sich die Trainierbarkeit von Daten verschlechtert und keine Modelle mit hoher Leistung konfiguriert werden können. Des weiteren erhöht sich der Berechnungsaufwand proportional mit der Anzahl der Modelle, was ein kritischer Punkt für die Spracherkennung ist, die in Echtzeit ablaufen muss.
Es wurden mehrere Verfahren zur Lösung dieser Probleme untersucht, die auf einem Konzept eines "HMM mit gemeinsam genutzter bzw. geteilter Struktur" beruhen.

(1) Ein verallgemeinertes Triphon- HMM, das HMMs selbst mit ähnlichen akustischen Eigenschaften des gesamten Lautabschnitts nutzt (K. F. Lee, H. W. Hon, Large- vocabulary speaker- independent continous speech recognition using HMM, ICASSP88, Seiten 123 bis 126).
(2) Ein geteiltes Zustands- HMM, das die Zustände von HMMs mit ähnlichen akustischen Eigenschaften des gesamten Lautabschnitts teilt (Mei- yuh Hwang, X. D. Huang, Subphonetic modelling with Markov States- SENON, ICASSP02, Seiten 133 bis 136, S. J. Young, P. Woodland, The use of state tying in continous speech recognition, Eurospeech 93, Seiten 2203 bis 2206, 1993).
(3) Ein gebundenes Misch- HMM, das die Verteilungen von HMMs mit ähnlichen akustischen Eigenschaften des gesamten Lautabschnitts teilt (J. Bellegarda, D. Nahamoo, Tied mixture continous parameter models for large vocabular isolated speech recognition, ICASSP89, Seiten 13 bis 16, D. Paul, The Lincoln robust continous speech recognition, ISCSSP89, Seiten 449 bis 452).

Unter diesen und anderen ist ein geteiltes Zustands- HMM, das ein sukzessives Zustandssplitten (SSS), vorgeschlagen von Takami, verwendet und sowohl (1) als auch (2) realisiert, als Verfahren der Erzeugung eines geteilten Zustands- Triphon- HMM mit hoher Genauigkeit bekannt, da ein geteilter Zustand von oben nach unten bestimmt wird, während Lautumgebungen berücksichtigt werden (siehe Takami, Sagayama: „Automatic generation of hidden Markov network by SSS", Papers of the Institute of Electronics, Information and Communication Engineers, J76- DII, Nr. 10, Seiten 2155 bis 2164, 1993).
X. D. Huang, S. J. Young, et al. haben ein Verfahren zur Erzeugung eines geteilten Zustands- Triphon- HMM über ein Mischen von unten nach oben vorgeschlagen, und gute Ergebnisse erzielt. Takahashi et al. haben ein Verfahren zur Erzeugung eines HMM vorgeschlagen, das (1) bis (3) synthetisiert (siehe Takahashi, Sagayama: „HMM for four hierarchical- level shared structure", Technical Reports of the Institute of Electronics, Information and Communication Engineers, SP94-73, Seiten 25 bis 32, 1994-12).
Erfindungsgemäß werden alle Triphone vorbereitet, und die Zustände dieser Triphone werden in Clustern angeordnet. In diesem Zusammenhang besteht eine Analogie zu den Verfahren von X. D. Huang und S. J. Young. Allerdings wird anders als bei der Clusterbildung über eine Verschmelzung unter Berücksichtigung lediglich der lokalen Wahrscheinlichkeit eine Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akustischen Raums durchgeführt, und diese Clusterbildung ist aufgrund der Berücksichtigung des gesamten akustischen Raums effektiv.
Obwohl das gleiche Schema von oben nach unten wie bei SSS verwendet wird, besitzt SSS einen nicht effektiven Punkt dahingehend, dass ein Endzustand eines Triphons aufgrund des sukzessiven Zustandsplittens (SSS) nicht von einem Startzustand eines anderen Triphons geteilt wird. Da Sprache im Allgemeinen kontinuierlich umgewandelt wird, ist es relativ natürlich, dass ein verbindbarer Endzustand eines Triphons und der Startzustand des nächsten Triphons gemeinsam zu nutzen sind. Das Verfahren von S. J. Young berücksichtigt eine gemeinsame Nutzung lediglich der Zustände innerhalb einer Lautklasse und kann Zustände zwischen Lautklassen nicht gemeinsam nutzen. Diese Nachteile von SSS wurden von Takami durch die Aufnahme einer Verschmelzung in die Vorgänge des sukzessiven Splittens gelöst (siehe Takami „Efficiency improvement of hidden Marcov network by state splitting method", Papers of Lectures of Acoustical Society of Japan, 1-8-4, Seiten 7 bis 8, 1994–10). Takahashi et al. haben die vorstehenden Nachteile durch die Aufnahme eines gebundenen gemischten HMM gelöst. Allerdings berücksichtigen die Erfinder hier, dass die vorstehenden Nachteile vom Gesichtspunkt eines Zustandsniveaus aus zu lösen sind.
Ein weiterer Nachteil von SSS besteht darin, dass bei der Erzeugung eines willkürlichen Sprecher- HMM durch sukzessives Zustandsplitten dieses Splitten vom willkürlichen Sprecher abhängig wird. Es ist daher erforderlich, einen bestimmten Sprecher beim Erhalten einer geteilten Zustandsstruktur zu verwenden. Daraus ergeben sich weitere Probleme dahingehend, dass eine große Datenmenge für den bestimmten Sprecher erforderlich ist, und dass es erforderlich ist, die geteilte Zustandsstruktur des bestimmten Sprechers für andere willkürliche Sprecher zu verwenden.
Die Erfindung wurde unter Berücksichtigung der vorstehenden Umstände entwickelt. Gemäß einer ersten Ausgestaltung der Erfindung ist eine Vorrichtung zum Ermitteln von Triphon-HMMs ausgebildet, mit einer Verarbeitungseinrichtung zur Durchführung der folgenden Schritte mit einem Schritt der Einstellung jedes Zustands von Triphon-HMMs in einem Anfangscluster, einem Schritt der Erzeugung von Clustern aus dem Anfangscluster durch die Verwendung einer Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt der Zuweisung eines den erzeugten Clustern am nächsten liegenden Clusters zu jedem Zustand der Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt des Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
Gemäß einer zweiten Ausgestaltung der Erfindung ist ein Verfahren zum Ermitteln von Triphon-HMMs ausgebildet, mit einem Schritt der Einstellung jedes Zustands eines Triphon-HMM in einem Anfangscluster, einem Schritt (102) der Erzeugung von Clustern aus dem Anfangscluster unter Verwendung einer Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt der Zuweisung eines den erzeugten Clustern am nächsten liegenden Clusters zu jedem Zustand von Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt des Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
Kurzbeschreibung der Zeichnung
1 zeigt ein Ablaufdiagramm von Verarbeitungsschritten gemäß einem ersten Ausführungsbeispiel der Erfindung.
2 zeigt Zustände eines HMM und eine Zustandsübergangsmodelldarstellung.
3 zeigt ein Ablaufdiagramm, das Clusterbildungsvorgänge von oben nach unten veranschaulicht.
4 zeigt eine Darstellung, die ein geteiltes Zustands- HMM veranschaulicht.
5 zeigt ein Blockschaltbild eines Spracherkennungsvorgangs, der von einer Spracherkennungsvorrichtung des Ausführungsbeispiels verwendet wird.
6 zeigt eine Tabelle der Ergebnisse der Erkennung von 100 Sätzen, die von 10 willkürlichen Sprechern gesprochen werden, wobei die Erkennung unter Verwendung einer Grammatik aus 1000 Wörtern und der Spracherkennungsvorrichtung des Ausführungsbeispiels durchgeführt wird.
7 zeigt ein Ablaufdiagramm der Verarbeitungsschritte gemäß einem zweiten Ausführungsbeispiel.
Ausführliche Beschreibung der Ausführungsbeispiele
Nachstehend werden Ausführungsbeispiele der Erfindung unter Bezugnahme auf die beiliegende Zeichnung beschrieben.
Die Ausführungsbeispiele (inklusive der Ablaufdiagramme) der Erfindung laufen in der Praxis unter der Steuerung einer CPU entsprechend einem in einem ROM oder RAM gespeicherten Steuerprogramm ab. Dieses Steuerprogramm kann auf einem entfernbaren Speicherträger gespeichert sein, wie einer CD- ROM, die an einer Spracherkennungsvorrichtung angebracht ist.
Im folgenden wird ein Verfahren zur Bestimmung eines Modells mit geteilter Zustandsstruktur zur Spracherkennung gemäß einem ersten Ausführungsbeispiel der Erfindung beschrieben.
1 zeigt ein Ablaufdiagramm der Verarbeitungsschritte des ersten Ausführungsbeispiels.
Gemäß 1 stellt das Bezugszeichen 101 ein Mittel (einen Prozess) zur Bestimmung anfänglicher Cluster dar, das Bezugszeichen 102 stellt ein Mittel (einen Prozess) für eine Clusterbildung von oben nach unten dar, wie einen allgemeinen LBG-Vorgang zur Erzeugung von Clustern einer Potenz von 2, d. h., ein Mittel (einen Prozess) zum feinen Klassifizieren von Clustern beginnend von einer kleinen Anzahl an Clustern, wobei die Anzahl der Cluster sequentiell erhöht wird, das Bezugszeichen 103 bezeichnet ein Mittel (einen Prozess) zur Bestimmung einer gemeinsamen Zustandsstruktur (bzw. geteilten Zustandsstruktur) eines Triphon- HMM (wobei unter Berücksichtigung sowohl der vorhergehenden als auch der nachfolgenden Laute modelliert wird), und das Bezugszeichen 104 bezeichnet ein Mittel (einen Prozess) zum Studieren (Lernen) eines Triphon- HMMs mit der geteilten Zustandsstruktur.
Die Einzelheiten dieser Mittel (Prozesse) werden im Folgenden beschrieben.
(1) Entwicklung von Anfangsclustern (101)

(A) Alle Triphon- HMMs werden unter Verwendung von Daten eines willkürlichen Sprechers gelernt.
(a) Laut- HMMs einer Verteilung werden mit der geeigneten Zahl an Zuständen gelernt.
(b) Ein HMM mit rechter Umgebung (Rechtskontext) wird unter Verwendung der Laut- HMMs als Anfangsmodelle gelernt.
(c) Ein HMM mit einer Umgebung auf beiden Seiten (Triphon) wird unter Verwendung der Rechtskontext- HMMs als Anfangsmodelle gelernt.
(B) Alle Zustände der Triphon- HMMs werden als Anfangscluster verwendet.

2 zeigt eine Darstellung eines HMM, wobei ein allgemeiner Zustand und ein Zustandsübergangsmodell gezeigt sind.
In 2 ist eine Zustandsübergangswahrscheinlichkeit mit a angegeben, eine Ausgangswahrscheinlichkeit am entsprechenden Zustand ist mit b angegeben, ein Mittelwert der Ausgangswahrscheinlichkeiten ist mit μ angegeben, und eine entsprechende Varianz ist mit σ angegeben.
(2) Clusterbildung von oben nach unten durch das LBG- Schema (102).
Die Clusterbildung von oben nach unten wird durch ein LBG- Schema unter Verwendung eines Distanzmaßes durchgeführt, das die Ausgangswahrscheinlichkeitsverteilung berücksichtigt. Die Clusterbildung wird lediglich durch die Ausgangswahrscheinlichkeit b definiert, die als wichtiger Parameter zum Erhalten einer Wahrscheinlichkeit für HMMs betrachtet wird, wobei die Zustandsübergangswahrscheinlichkeit a vernachlässigt wird.
Dieser Vorgang ist im Ablaufdiagramm in 3 gezeigt.
In Schritt S1 wird m auf 1 gesetzt. In Schritt S2 wird eine Klasse Φm erzeugt, die alle Anfangscluster (ϕi) enthält. In Schritt S3 wird überprüft, ob der Wert m gleich der Gesamtanzahl M (beispielsweise 600) der Cluster ist. Wenn ja, ist der Ablauf beendet, und wenn nicht, geht der Ablauf zu Schritt S4 über.
In Schritt S4 wird ein neues Cluster Φm aus allen Anfangsclustern (ϕi) erzeugt, die zu dem alten Cluster Φm gehören, in dem die folgenden Gleichungen (1) und (2) angewendet werden. Insbesondere wird das neue Cluster Φm durch die Verwendung des Mittelwerts μ der Ausgangswahrscheinlichkeiten und einer entsprechenden Varianz σ² erzeugt. In den Gleichungen gibt m die Clusternummer an, und N gibt die Gesamtanzahl der Anfangscluster an, die zur Klasse Φm gehören.
Als nächstes werden in Schritt S5 ein Anfangscluster ϕp unter den Angangsclustern ϕi, die zum neuen Cluster Φm gehören, das vom Cluster Φm am weitesten entfernt ist, und ein Anfangscluster ϕq erhalten, das vom Anfangscluster ϕp am weitesten entfernt ist. Als Entferungsmaß d(ϕp, ϕq) zwischen den zwei Anfangsclustern wird eine Kullback- Informationsgröße, eine Chernoff- Distanz, eine normalisierte euklidische Distanz, eine euklidische Distanz oder dergleichen verwendet werden. Bei diesem Ausführungsbeispiel wird eine Bhattacharyya- Entfernung verwendet, die durch die folgende Gleichung (3) im Fall einer einfachen Gauss- Verteilung berechnet werden kann.
wobei μi und Σi jeweils den Mittelwert und die Varianz angeben.
Als nächstes werden in Schritt S6 die Anfangscluster ϕi, die zum Cluster Φm gehören, in neue Cluster Φm und Φ(m + 1) unterteilt, die näher an den in Schritt S5 erhaltenen Anfangsclustern ϕp und ϕq liegen.
Der vorstehende Vorgang wird unter Bezugnahme auf 4 beschrieben. Unter den Annahme, dass in einem akustischen Raum 401 das Cluster Φm im allgemeinen im Zentrum des akustischen Raums 401 positioniert ist, und das Cluster ϕp nahe dem rechten Ende des akustischen Raums 401 positioniert. ist, ist das Cluster ϕq nahe dem linken Ende des akustischen Raums 401 positioniert. Werden die Anfangscluster ϕi in die zwei neuen Cluster unterteilt, die näher an den Anfangsclustern ϕp und ϕq liegen, wird der akustische Raum 401 im allgemeinen an seinem Zentrum in zwei Räume unterteilt, und die Gesamtanzahl M der neuen Cluster beträgt 2.
In Schritt S7 wird eine K- Bereichs- Clusterbildung für die neuen Cluster Φi durch die Verwendung aller Anfangscluster durchgeführt. Diese K- Bereichs- Clusterbildung wird so lange durchgeführt, bis eine voreingestellte Anzahl an Iterationen durchgeführt ist, oder die Gesamtverzerrung Dm gleich einem Schwellenwert oder kleiner wird, um nach einem Cluster Φd mit einer maximalen Gesamtverzerrung zu suchen, und d wird auf m gesetzt, um zu Schritt S3 zurückzukehren.
Die Gesamtverzerrung jedes Clusters kann durch die folgende Gleichung (4) erhalten werden.
Überschreitet die Gesamtanzahl M der Cluster die voreingestellte Zahl (beispielsweise 600), ist der Ablauf abgeschlossen. Auf diese Weise kann der geteilte Zustand von M Clustern bestimmt werden.
(3) Bestimmung einer geteilten Zustandsstruktur von Triphon-HMMs (103).
Jedem Zustand der Triphon- HMMs, der im Kapitel Entwicklung von Anfangsclustern (101) entwickelt wurde, wird ein am nächsten liegendes Cluster unter den Clustern zugeordnet, die bei der Clusterbildung von oben nach unten (102) entwickelt wurden, um die geteilte Zustandsstruktur der Triphon- HMMs durch die Verwendung der geteilten Zustandszahlen zu bestimmen. Für die Beurteilung einer Entfernung wurde die Bhattacharyya- Entfernung verwendet, und die Zustände wurden zugeordnet. Auf diese Weise werden die akustisch näher liegenden Zustände unter Triphon- HMMs oder in einem einzelnen Triphon- HMM gemeinsam genutzt.
In 4 bezeichnet ein Symbol, wie/a•Z•i/ ein einzelnes Triphon. In dem in 4 gezeigten Beispiel ist ein Modell mit drei Zuständen gezeigt. Dieses Triphon ist ein Laut „Z" mit einem rechten Laut „i" und einem linken Laut „a". In 4 sind beispielsweise die ersten Zustände von /a•Z•i/, /a•Z•y/ und /a•Z•a/ durch den gleichen Zustand 402 dargestellt, die zweiten Zustände von /a•Z•i/ und /a•Z•y/ sind durch den gleichen Zustand 403 dargestellt, und lediglich der zweite Zustand von /a•Z•a/ ist durch einen anderen Zustand 404 dargestellt. Der erste bis dritte Zustand von /a•Z•i/ und /a•Z•y/ werden vom gleichen Zustand geteilt, und so können sie nicht unterschieden werden. Allerdings sind beispielsweise die Lautfolgen und die Triphone von „azia" und „azya" folgende:
Ein stummer Abschnitt ohne einen Laut ist durch q dargestellt. Da qAz, aZi und aZy den gleichen gemeinsamen Zustand haben, können die Worte „azia" und „azya" an diesem Punkt nicht unterschieden werden. Haben jedoch zIa und zYa oder iAq und yAq nicht die gleiche gemeinsame bzw. geteilte Zustandsstruktur, können die zwei Worte an einem dieser Punkte unterschieden werden, und es gibt kein Problem bei praktischen Erkennungsvorgängen.
Manchmal (insbesondere dann, wenn die Gesamtanzahl der geteilten Zustände klein ist) teilen sich alle Zustände der Triphone mit den verschiedenen mittleren Lauten den gleichen Zustand. In diesem Fall können alle Triphone, wenn eine Unterteilung erforderlich ist, derart modifiziert werden, dass sie verschiedene akustische Eigenschaften haben, indem eine geteilte Zustandszahl, die durch das Addieren von 1 zur geteilten Gesamtzustandszahl erhalten wird, dem Zustand (beispielsweise dem mittleren Zustand) jedes Triphons zugewiesen wird, um ihn unterscheidbar zu machen.
(4) Lernen von Triphon- HMMs mit geteiltem Zustand (104)
Entsprechend der in (3) bestimmten geteilten Zustandsstruktur werden die Zustände der Triphone in einen zusammengezogen, um ein zustandsgebundenes Lernen durchzuführen. Bei diesem Lernen können herkömmliche Verfahren verwendet werden, wie ein EM- Algorithmus.
5 zeigt ein Blockschaltbild eines Spracherkennungsvorgangs, der von der erfindungsgemäßen Spracherkennungsvorrichtung verwendet wird.
Bei diesem Ausführungsbeispiel werden HMMs 505 durch den vorstehend beschriebenen Ablauf 510 erzeugt. Ein Sprachabschnitt wird durch einen Extrahierer 501 aus einem Sprachsignal extrahiert, das über ein Mikrophon oder dergleichen eingegeben wird. Das extrahierte Sprachsignal wird durch einen akustischen Analysierer 502 analysiert. Eine Wahrscheinlichkeitsberechnungseinrichtung 503 liefert eine Wahrscheinlichkeit jedes Zustands der HMMs 505. Unter Verwendung der erhaltenen Wahrscheinlichkeit, einer Grammatik 506 und eines Spracherkennungsnetzes 507 sucht eine Sprachensucheinrichtung 504 nach einer Sprachfolge mit der größten Wahrscheinlichkeit und gibt sie als Spracherkennungsergebnisse aus.
6 zeigt die Ergebnisse der Erkennung von 100 Sätzen, die von 10 willkürlichen Sprechern gesprochen werden, wobei die Erkennung unter Verwendung einer aus 100 Worten gebildeten Grammatik und der Spracherkennungsvorrichtung des Ausführungsbeispiels durchgeführt wird. In 6 gibt eine Satzerkennungsrate (%) einen Prozentsatz von Sätzen an, für die die eingegebene Sprache korrekt erkannt wurde, und eine Worterkennungsrate (%) ist ein Prozentsatz richtig erkannter Worte in einem gesprochenen Satz.
Wie vorstehend angeführt wurden mit der Spracherkennung, die unter Verwendung der geteilten Zustandsstruktur mit insgesamt 600 geteilten Zuständen durchgeführt wurde, die durch den Ablauf des ersten Ausführungsbeispiels erzeugt werden, Satz- und Worterkennungsraten erzielt, die viel höher als bei einem herkömmlichen Laut- HMM, Rechtskontext- HMM und Triphon- HMM sind.
Im folgenden wird ein zweites Ausführungsbeispiel der Erfindung beschrieben.
Der vorstehend beschriebene Clusterbildungsalgorithmus verwendet ein Entfernungsmaß, das die Varianz σ berücksichtigt.
Ist daher die Anzahl der Anfangscluster ϕi und die Anzahl der endgültigen Cluster sehr groß, ist der Berechnungsaufwand immens. Wird daher eine Entfernungsberechnung verwendet, die einen großen Berechnungsaufwand für die Berechnung der Entfernungen zwischen allen Clustern erfordert, ist eine entsprechend größere Zeitdauer erforderlich. In Anbetracht dessen werden zwei Berechnungstypen, eine einfache Entfernungsberechnung und eine genaue Entfernungsberechnung für die Berechnung genauer Entfernungen verwendet. Die einfache Entfernungsberechnung wird für Cluster einer ersten Gruppe beginnend von dem ersten Cluster bis zu einem Zwischencluster unter der Gesamtanzahl an Clustern verwendet, während die genaue Entfernungsberechnung für Cluster verwendet wird, die das dem Zwischencluster folgende Cluster bis zum endgültigen Cluster enthalten. Auf diese Weise wird die für die Entfernungsberechnung erforderliche Zeit verkürzt und der Vorgang kann beschleunigt werden. Bei diesem zweiten Ausführungsbeispiel verwendet die einfache Entfernungsberechnung die euklidische Distanz und die genaue Entfernungsberechnung verwendet die Bhattacharryya- Distanz.
7 zeigt ein Ablaufdiagramm der Verarbeitungsschritte gemäß dem zweiten Ausführungsbeispiel.
Zuerst wird in Schritt 701 ein Cluster Φm erzeugt, das alle Anfangscluster ϕi enthält. Dies entspricht Schritt S2 in 3. In Schritt 701 wird überprüft, ob die Gesamtanzahl M an Clustern erhalten wurde. Wenn kleiner als M, wird der Ablauf fortgesetzt, und wenn gleich M, ist der Ablauf beendet. In Schritt 703 wird beurteilt, ob die nächste Clusterbildung die einfache Entfernungsberechnung oder die genaue Entfernungsberechnung verwendet. Ist die Anzahl (m) der Cluster kleiner als die Gesamtanzahl M (beispielsweise 600) an Clustern mal × (beispielsweise 10), d. h., vom ersten Cluster bis zum 590. Cluster, geht der Ablauf zu Schritt 704 zur Ausführung einer Clusterbildung mittels der einfachen Entfernungsberechnung über.
Ist die Anzahl (m) der Cluster (M-x) oder größer, geht der Ablauf zu Schritt 704 zur Ausführung der Clusterbildung mittels der genauen Entfernungsberechnung bis zum letzten Cluster M über. Die Verarbeitungsschritte in den Schritten 704 und 705 unterscheiden sich in ihren Berechnungsverfahren und entsprechen den Schritten S4 bis S7 in 3. Das heißt, Schritt 705 verwendet die Bhattacharyya- Distanz und stellt die gleichen Verarbeitungsvorgänge wie in den Schritten S4 bis S7 in 3 dar, und Schritt 704 verwendet die euklidische Distanz und berechnet die Entfernungen in den Schritten S4 bis S7 über die euklidische Distanz. Nach Schritt 704 oder 705 wird in Schritt 706 ein Cluster hinzugefügt, und der Ablauf kehrt zu Schritt 702 zurück.
Die Entfernungsberechnung bei diesem Ausführungsbeispiel kann andere Entfernungen verwenden, die sich von der Bhattacharyya-Distanz und der euklidischen Distanz unterscheiden.
In den vorstehenden Ausführungsbeispielen wird das HMM als Spracherkennungsmodell verwendet. Anstelle eines HMM können andere Modelle verwendet werden, wenn sie Zustandsübergangsmodelle mit Verteilungen sind. Obwohl das Triphon als Modelleinheit verwendet wird, kann die Erkennungseinheit Musik oder eine andere Information sein.
Obwohl bei den vorstehenden Ausführungsbeispielen eine Spracherkennung ausgeführt wird, sind die vorstehenden Abläufe der Ausführungsbeispiele bei einem Modellentwurf einer Mustererkennung anwendbar, indem Modelle mit ähnlichen Verteilungen verwendet werden.
Die Erfindung ist bei einem System mit einer Vielzahl von Einrichtungen und bei einer einzigen Einrichtung anwendbar.
Die Erfindung ist bei einem Programm anwendbar, das die Erfindung bildet, und einem System oder einer Einrichtung zugeführt wird.
Wie bisher beschrieben sind die Merkmale der Ausführungsbeispiele, dass (1) Cluster über eine Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akustischen Raums erzeugt werden, (2) Zustände unter Lautklassen und in jeder Lautklasse gemeinsam genutzt werden können, und (3) eine geteilte Zustandsstruktur eines willkürlichen Sprechers direkt erzeugt werden kann. Daher kann ein Triphon- HMM einer effizienten geteilten Zustandsstruktur über eine Clusterbildung von oben nach unten entworfen werden. Unter Verwendung des Spracherkennungsmodells, das durch die Abläufe der Erfindung entwickelt ist, kann eine Spracherkennung mit hoher Geschwindigkeit und hoher Leistung realisiert werden.

Claims

Vorrichtung zum Ermitteln von Triphon-HMMs, mit einer Verarbeitungseinrichtung zur Durchführung der folgenden Schritte mit einem Schritt (101) der Einstellung jedes Zustands von Triphon-HMMs in einem Anfangscluster, die unter Verwendung von Daten eines willkürlichen Sprechers gelernt werden, einem Schritt (102) der Erzeugung von Clustern (Φm) von Zuständen der Triphone aus dem Anfangscluster durch die Verwendung einer Clusterbildung von oben nach unten (102) unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt (103) der Zuweisung eines den erzeugten Clustern am nächsten liegendes Cluster zu jedem Zustand der Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt (104) des zustandgebundenen Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
Vorrichtung nach Anspruch 1, wobei der Erzeugungsschritt (102) einen Schritt (704) der Erzeugung einer vorbestimmten Anzahl von Clustern durch die Verwendung einer einfachen Distanzberechnung und einen Schritt (705) der Erzeugung anderer Cluster unter Verwendung einer genauen Distanzberechnung enthält, nachdem die vorbestimmte Anzahl an Clustern erzeugt ist.
Vorrichtung nach Anspruch 2, wobei die genaue Distanzberechnung (705) eine Bhattacharyya-Distanz verwendet.
Vorrichtung nach Anspruch 2 oder 3, wobei die einfache Distanzberechnung (704) eine euklidische Distanz verwendet.
Vorrichtung nach einem der Ansprüche 1 bis 4, wobei die Clusterbildung von oben nach unten eine Ausgangswahrscheinlichkeit (b(0)) jedes Zustands der Triphon-HMMs verwendet.
Verfahren zum Ermitteln von Triphon-HMMs, mit: einem Schritt (101) der Einstellung jedes Zustands eines Triphon-HMM, das unter Verwendung von Daten eines willkürlichen Sprechers gelernt wird, in einem Anfangscluster, einem Schritt (102) der Erzeugung von Clustern von Zuständen der Triphone aus dem Anfangscluster (ϕi) unter Verwendung einer Clusterbildung von oben nach unten unter Berücksichtigung des gesamten akkustischen Raums, einem Schritt (103) der Zuweisung eines den erzeugten Clustern am nächsten liegenden Clusters zu jedem Zustand von Triphon-HMMs zur Bestimmung einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt (104) des zustandbezogenen Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
Verfahren nach Anspruch 6, wobei der Erzeugungsschritt (102) einen Schritt (704) der Erzeugung einer vorbestimmten Anzahl (M-x) von Clustern unter Verwendung einer einfachen Distanzberechnung und einen Schritt (705) der Erzeugung anderer Cluster unter Verwendung einer genauen Distanzberechnung enthält, nachdem die vorbestimmte Anzahl an Clustern erzeugt ist.
Verfahren nach Anspruch 7, wobei die genaue Distanzberechnung (705) eine Bhattacharyya-Distanz verwendet.
Verfahren nach Anspruch 7 oder 8, wobei die einfache Distanzberechnung (704) eine euklidische Distanz verwendet.
Verfahren nach einem der Ansprüche 6 bis 9, wobei die Clusterbildung von oben nach unten eine Ausgangswahrscheinlichkeit (b(0)) jedes Zustands der Triphon-HMMs verwendet.
Datenträger, der prozessorimplementierbare Anweisungen zur Durchführung eines Verfahrens zum Ermitteln von Triphon-HMMs nach einem der Ansprüche 6 bis 10 trägt.