-
Die vorliegende Erfindung bezieht
sich auf ein Entwurfsverfahren für
ein Zustandsübergangsmodell, das
beispielsweise für
ein Spracherkennungsmodell verwendet wird. Die Erfindung bezieht
sich auch auf ein Spracherkennungsverfahren und eine Vorrichtung,
die ein Zustandsübergangsmodell
verwenden, das zur Erkennung von Sprache mit hoher Geschwindigkeit
entwickelt ist.
-
Im folgenden wird ein Hidden Markov
Modell (HMM) als Beispiel für
ein Spracherkennungsmodell verwendet.
-
Mit der drastischen Erhöhung der
Geschwindigkeit eines Computers wurden extensive Studien hinsichtlich
praktischer Verwendungen und der Erzeugung von Spracherkennungssystemen
betrieben. Diese Systeme beinhalten ein HMM, das ein statistisches
Modell darstellt. Ein Triphon- HMM wurde weitgehend untersucht,
da dies eine bessere Leistung als andere HMMs zeigt. Mit diesem
Triphon-HMM können Unterschiede
in Lautumgebungen, wie vorhergehende und folgende Laute, fein klassifiziert
werden. Dieses Triphon- HMM umfasst eine Anzahl von Modellen, so
dass sich die Trainierbarkeit von Daten verschlechtert und keine Modelle
mit hoher Leistung konfiguriert werden können. Des weiteren erhöht sich
der Berechnungsaufwand proportional mit der Anzahl der Modelle,
was ein kritischer Punkt für
die Spracherkennung ist, die in Echtzeit ablaufen muss.
-
Es wurden mehrere Verfahren zur Lösung dieser
Probleme untersucht, die auf einem Konzept eines "HMM mit gemeinsam
genutzter bzw. geteilter Struktur" beruhen.
- (1) Ein
verallgemeinertes Triphon- HMM, das HMMs selbst mit ähnlichen
akustischen Eigenschaften des gesamten Lautabschnitts nutzt (K.
F. Lee, H. W. Hon, Large- vocabulary speaker- independent continous speech
recognition using HMM, ICASSP88, Seiten 123 bis 126).
- (2) Ein geteiltes Zustands- HMM, das die Zustände von
HMMs mit ähnlichen
akustischen Eigenschaften des gesamten Lautabschnitts teilt (Mei-
yuh Hwang, X. D. Huang, Subphonetic modelling with Markov States-
SENON, ICASSP02, Seiten 133 bis 136, S. J. Young, P. Woodland, The
use of state tying in continous speech recognition, Eurospeech 93,
Seiten 2203 bis 2206, 1993).
- (3) Ein gebundenes Misch- HMM, das die Verteilungen von HMMs
mit ähnlichen
akustischen Eigenschaften des gesamten Lautabschnitts teilt (J.
Bellegarda, D. Nahamoo, Tied mixture continous parameter models for
large vocabular isolated speech recognition, ICASSP89, Seiten 13
bis 16, D. Paul, The Lincoln robust continous speech recognition,
ISCSSP89, Seiten 449 bis 452).
-
Unter diesen und anderen ist ein
geteiltes Zustands- HMM, das ein sukzessives Zustandssplitten (SSS),
vorgeschlagen von Takami, verwendet und sowohl (1) als auch (2)
realisiert, als Verfahren der Erzeugung eines geteilten Zustands-
Triphon- HMM mit hoher Genauigkeit bekannt, da ein geteilter Zustand
von oben nach unten bestimmt wird, während Lautumgebungen berücksichtigt
werden (siehe Takami, Sagayama: „Automatic generation of hidden
Markov network by SSS",
Papers of the Institute of Electronics, Information and Communication
Engineers, J76- DII, Nr. 10, Seiten 2155 bis 2164, 1993).
-
X. D. Huang, S. J. Young, et al.
haben ein Verfahren zur Erzeugung eines geteilten Zustands- Triphon- HMM über ein
Mischen von unten nach oben vorgeschlagen, und gute Ergebnisse erzielt.
Takahashi et al. haben ein Verfahren zur Erzeugung eines HMM vorgeschlagen,
das (1) bis (3) synthetisiert (siehe Takahashi, Sagayama: „HMM for
four hierarchical- level shared structure", Technical Reports of the Institute
of Electronics, Information and Communication Engineers, SP94-73,
Seiten 25 bis 32, 1994-12).
-
Erfindungsgemäß werden alle Triphone vorbereitet,
und die Zustände
dieser Triphone werden in Clustern angeordnet. In diesem Zusammenhang
besteht eine Analogie zu den Verfahren von X. D. Huang und S. J.
Young. Allerdings wird anders als bei der Clusterbildung über eine
Verschmelzung unter Berücksichtigung lediglich
der lokalen Wahrscheinlichkeit eine Clusterbildung von oben nach
unten unter Berücksichtigung
des gesamten akustischen Raums durchgeführt, und diese Clusterbildung
ist aufgrund der Berücksichtigung
des gesamten akustischen Raums effektiv.
-
Obwohl das gleiche Schema von oben
nach unten wie bei SSS verwendet wird, besitzt SSS einen nicht effektiven
Punkt dahingehend, dass ein Endzustand eines Triphons aufgrund des
sukzessiven Zustandsplittens (SSS) nicht von einem Startzustand
eines anderen Triphons geteilt wird. Da Sprache im Allgemeinen kontinuierlich
umgewandelt wird, ist es relativ natürlich, dass ein verbindbarer
Endzustand eines Triphons und der Startzustand des nächsten Triphons
gemeinsam zu nutzen sind. Das Verfahren von S. J. Young berücksichtigt
eine gemeinsame Nutzung lediglich der Zustände innerhalb einer Lautklasse
und kann Zustände
zwischen Lautklassen nicht gemeinsam nutzen. Diese Nachteile von
SSS wurden von Takami durch die Aufnahme einer Verschmelzung in
die Vorgänge
des sukzessiven Splittens gelöst
(siehe Takami „Efficiency
improvement of hidden Marcov network by state splitting method", Papers of Lectures
of Acoustical Society of Japan, 1-8-4, Seiten 7 bis 8, 1994–10). Takahashi
et al. haben die vorstehenden Nachteile durch die Aufnahme eines gebundenen
gemischten HMM gelöst.
Allerdings berücksichtigen
die Erfinder hier, dass die vorstehenden Nachteile vom Gesichtspunkt
eines Zustandsniveaus aus zu lösen
sind.
-
Ein weiterer Nachteil von SSS besteht
darin, dass bei der Erzeugung eines willkürlichen Sprecher- HMM durch
sukzessives Zustandsplitten dieses Splitten vom willkürlichen
Sprecher abhängig
wird. Es ist daher erforderlich, einen bestimmten Sprecher beim
Erhalten einer geteilten Zustandsstruktur zu verwenden. Daraus ergeben
sich weitere Probleme dahingehend, dass eine große Datenmenge für den bestimmten
Sprecher erforderlich ist, und dass es erforderlich ist, die geteilte
Zustandsstruktur des bestimmten Sprechers für andere willkürliche Sprecher
zu verwenden.
-
Die Erfindung wurde unter Berücksichtigung
der vorstehenden Umstände
entwickelt. Gemäß einer ersten
Ausgestaltung der Erfindung ist eine Vorrichtung zum Ermitteln von
Triphon-HMMs ausgebildet, mit einer Verarbeitungseinrichtung zur
Durchführung
der folgenden Schritte mit einem Schritt der Einstellung jedes Zustands
von Triphon-HMMs in einem Anfangscluster, einem Schritt der Erzeugung
von Clustern aus dem Anfangscluster durch die Verwendung einer Clusterbildung
von oben nach unten unter Berücksichtigung
des gesamten akkustischen Raums, einem Schritt der Zuweisung eines
den erzeugten Clustern am nächsten
liegenden Clusters zu jedem Zustand der Triphon-HMMs zur Bestimmung
einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt
des Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
-
Gemäß einer zweiten Ausgestaltung
der Erfindung ist ein Verfahren zum Ermitteln von Triphon-HMMs ausgebildet,
mit einem Schritt der Einstellung jedes Zustands eines Triphon-HMM
in einem Anfangscluster, einem Schritt (102) der Erzeugung
von Clustern aus dem Anfangscluster unter Verwendung einer Clusterbildung von
oben nach unten unter Berücksichtigung
des gesamten akkustischen Raums, einem Schritt der Zuweisung eines
den erzeugten Clustern am nächsten
liegenden Clusters zu jedem Zustand von Triphon-HMMs zur Bestimmung
einer geteilten Zustandsstruktur jedes Triphon-HMM, und einem Schritt
des Lernens jedes Triphon-HMM entsprechend der geteilten Zustandsstruktur.
-
Kurzbeschreibung
der Zeichnung
-
1 zeigt
ein Ablaufdiagramm von Verarbeitungsschritten gemäß einem
ersten Ausführungsbeispiel der
Erfindung.
-
2 zeigt
Zustände
eines HMM und eine Zustandsübergangsmodelldarstellung.
-
3 zeigt
ein Ablaufdiagramm, das Clusterbildungsvorgänge von oben nach unten veranschaulicht.
-
4 zeigt
eine Darstellung, die ein geteiltes Zustands- HMM veranschaulicht.
-
5 zeigt
ein Blockschaltbild eines Spracherkennungsvorgangs, der von einer
Spracherkennungsvorrichtung des Ausführungsbeispiels verwendet wird.
-
6 zeigt
eine Tabelle der Ergebnisse der Erkennung von 100 Sätzen, die
von 10 willkürlichen
Sprechern gesprochen werden, wobei die Erkennung unter Verwendung
einer Grammatik aus 1000 Wörtern
und der Spracherkennungsvorrichtung des Ausführungsbeispiels durchgeführt wird.
-
7 zeigt
ein Ablaufdiagramm der Verarbeitungsschritte gemäß einem zweiten Ausführungsbeispiel.
-
Ausführliche
Beschreibung der Ausführungsbeispiele
-
Nachstehend werden Ausführungsbeispiele
der Erfindung unter Bezugnahme auf die beiliegende Zeichnung beschrieben.
-
Die Ausführungsbeispiele (inklusive
der Ablaufdiagramme) der Erfindung laufen in der Praxis unter der Steuerung
einer CPU entsprechend einem in einem ROM oder RAM gespeicherten
Steuerprogramm ab. Dieses Steuerprogramm kann auf einem entfernbaren
Speicherträger
gespeichert sein, wie einer CD- ROM, die an einer Spracherkennungsvorrichtung
angebracht ist.
-
Im folgenden wird ein Verfahren zur
Bestimmung eines Modells mit geteilter Zustandsstruktur zur Spracherkennung
gemäß einem
ersten Ausführungsbeispiel
der Erfindung beschrieben.
-
1 zeigt
ein Ablaufdiagramm der Verarbeitungsschritte des ersten Ausführungsbeispiels.
-
Gemäß 1 stellt das Bezugszeichen 101 ein
Mittel (einen Prozess) zur Bestimmung anfänglicher Cluster dar, das Bezugszeichen 102 stellt
ein Mittel (einen Prozess) für
eine Clusterbildung von oben nach unten dar, wie einen allgemeinen
LBG-Vorgang zur
Erzeugung von Clustern einer Potenz von 2, d. h., ein Mittel (einen
Prozess) zum feinen Klassifizieren von Clustern beginnend von einer
kleinen Anzahl an Clustern, wobei die Anzahl der Cluster sequentiell
erhöht
wird, das Bezugszeichen 103 bezeichnet ein Mittel (einen
Prozess) zur Bestimmung einer gemeinsamen Zustandsstruktur (bzw.
geteilten Zustandsstruktur) eines Triphon- HMM (wobei unter Berücksichtigung
sowohl der vorhergehenden als auch der nachfolgenden Laute modelliert
wird), und das Bezugszeichen 104 bezeichnet ein Mittel
(einen Prozess) zum Studieren (Lernen) eines Triphon- HMMs mit der
geteilten Zustandsstruktur.
-
Die Einzelheiten dieser Mittel (Prozesse)
werden im Folgenden beschrieben.
-
(1) Entwicklung von Anfangsclustern
(101)
-
- (A) Alle Triphon- HMMs werden unter Verwendung
von Daten eines willkürlichen
Sprechers gelernt.
- (a) Laut- HMMs einer Verteilung werden mit der geeigneten Zahl
an Zuständen
gelernt.
- (b) Ein HMM mit rechter Umgebung (Rechtskontext) wird unter
Verwendung der Laut- HMMs als Anfangsmodelle gelernt.
- (c) Ein HMM mit einer Umgebung auf beiden Seiten (Triphon) wird
unter Verwendung der Rechtskontext- HMMs als Anfangsmodelle gelernt.
- (B) Alle Zustände
der Triphon- HMMs werden als Anfangscluster verwendet.
-
2 zeigt
eine Darstellung eines HMM, wobei ein allgemeiner Zustand und ein
Zustandsübergangsmodell
gezeigt sind.
-
In 2 ist
eine Zustandsübergangswahrscheinlichkeit
mit a angegeben, eine Ausgangswahrscheinlichkeit am entsprechenden
Zustand ist mit b angegeben, ein Mittelwert der Ausgangswahrscheinlichkeiten
ist mit μ angegeben,
und eine entsprechende Varianz ist mit σ angegeben.
-
(2) Clusterbildung von
oben nach unten durch das LBG- Schema (102).
-
Die Clusterbildung von oben nach
unten wird durch ein LBG- Schema unter Verwendung eines Distanzmaßes durchgeführt, das
die Ausgangswahrscheinlichkeitsverteilung berücksichtigt. Die Clusterbildung wird
lediglich durch die Ausgangswahrscheinlichkeit b definiert, die
als wichtiger Parameter zum Erhalten einer Wahrscheinlichkeit für HMMs betrachtet
wird, wobei die Zustandsübergangswahrscheinlichkeit
a vernachlässigt
wird.
-
Dieser Vorgang ist im Ablaufdiagramm
in 3 gezeigt.
-
In Schritt S1 wird m auf 1 gesetzt.
In Schritt S2 wird eine Klasse Φm
erzeugt, die alle Anfangscluster (ϕi) enthält. In Schritt
S3 wird überprüft, ob der
Wert m gleich der Gesamtanzahl M (beispielsweise 600) der Cluster
ist. Wenn ja, ist der Ablauf beendet, und wenn nicht, geht der Ablauf
zu Schritt S4 über.
-
In Schritt S4 wird ein neues Cluster Φm aus allen
Anfangsclustern (ϕi) erzeugt, die zu dem alten Cluster Φm gehören, in
dem die folgenden Gleichungen (1) und (2) angewendet werden. Insbesondere
wird das neue Cluster Φm
durch die Verwendung des Mittelwerts μ der Ausgangswahrscheinlichkeiten
und einer entsprechenden Varianz σ2 erzeugt. In den Gleichungen gibt m die
Clusternummer an, und N gibt die Gesamtanzahl der Anfangscluster
an, die zur Klasse Φm
gehören.
-
-
Als nächstes werden in Schritt S5
ein Anfangscluster ϕp unter den Angangsclustern ϕi,
die zum neuen Cluster Φm
gehören,
das vom Cluster Φm
am weitesten entfernt ist, und ein Anfangscluster ϕq erhalten,
das vom Anfangscluster ϕp am weitesten entfernt ist. Als
Entferungsmaß d(ϕp, ϕq)
zwischen den zwei Anfangsclustern wird eine Kullback- Informationsgröße, eine
Chernoff- Distanz, eine normalisierte euklidische Distanz, eine
euklidische Distanz oder dergleichen verwendet werden. Bei diesem
Ausführungsbeispiel
wird eine Bhattacharyya- Entfernung verwendet, die durch die folgende Gleichung
(3) im Fall einer einfachen Gauss- Verteilung berechnet werden kann.
wobei μi und Σi jeweils
den Mittelwert und die Varianz angeben.
-
Als nächstes werden in Schritt S6
die Anfangscluster ϕi, die zum Cluster Φm gehören, in neue Cluster Φm und Φ(m + 1)
unterteilt, die näher
an den in Schritt S5 erhaltenen Anfangsclustern ϕp und ϕq
liegen.
-
Der vorstehende Vorgang wird unter
Bezugnahme auf 4 beschrieben.
Unter den Annahme, dass in einem akustischen Raum 401 das
Cluster Φm
im allgemeinen im Zentrum des akustischen Raums 401 positioniert
ist, und das Cluster ϕp nahe dem rechten Ende des akustischen
Raums 401 positioniert. ist, ist das Cluster ϕq
nahe dem linken Ende des akustischen Raums 401 positioniert.
Werden die Anfangscluster ϕi in die zwei neuen Cluster
unterteilt, die näher
an den Anfangsclustern ϕp und ϕq liegen, wird
der akustische Raum 401 im allgemeinen an seinem Zentrum in zwei
Räume unterteilt,
und die Gesamtanzahl M der neuen Cluster beträgt 2.
-
In Schritt S7 wird eine K- Bereichs-
Clusterbildung für
die neuen Cluster Φi
durch die Verwendung aller Anfangscluster durchgeführt. Diese
K- Bereichs- Clusterbildung wird so lange durchgeführt, bis
eine voreingestellte Anzahl an Iterationen durchgeführt ist,
oder die Gesamtverzerrung Dm gleich einem Schwellenwert oder kleiner
wird, um nach einem Cluster Φd
mit einer maximalen Gesamtverzerrung zu suchen, und d wird auf m gesetzt,
um zu Schritt S3 zurückzukehren.
-
Die Gesamtverzerrung jedes Clusters
kann durch die folgende Gleichung (4) erhalten werden.
-
-
Überschreitet
die Gesamtanzahl M der Cluster die voreingestellte Zahl (beispielsweise
600), ist der Ablauf abgeschlossen. Auf diese Weise kann der geteilte
Zustand von M Clustern bestimmt werden.
-
(3) Bestimmung einer geteilten
Zustandsstruktur von Triphon-HMMs
(103).
-
Jedem Zustand der Triphon- HMMs,
der im Kapitel Entwicklung von Anfangsclustern (101) entwickelt wurde,
wird ein am nächsten
liegendes Cluster unter den Clustern zugeordnet, die bei der Clusterbildung
von oben nach unten (102) entwickelt wurden, um die geteilte
Zustandsstruktur der Triphon- HMMs durch die Verwendung der geteilten
Zustandszahlen zu bestimmen. Für
die Beurteilung einer Entfernung wurde die Bhattacharyya- Entfernung
verwendet, und die Zustände
wurden zugeordnet. Auf diese Weise werden die akustisch näher liegenden
Zustände
unter Triphon- HMMs oder in einem einzelnen Triphon- HMM gemeinsam
genutzt.
-
In
4 bezeichnet
ein Symbol, wie/a•Z•i/ ein einzelnes
Triphon. In dem in
4 gezeigten
Beispiel ist ein Modell mit drei Zuständen gezeigt. Dieses Triphon
ist ein Laut „Z" mit einem rechten
Laut „i" und einem linken
Laut „a". In
4 sind beispielsweise die ersten Zustände von
/a•Z•i/, /a•Z•y/ und /a•Z•a/ durch
den gleichen Zustand
402 dargestellt, die zweiten Zustände von
/a•Z•i/ und /a•Z•y/ sind
durch den gleichen Zustand
403 dargestellt, und lediglich
der zweite Zustand von /a•Z•a/ ist durch
einen anderen Zustand
404 dargestellt. Der erste bis dritte
Zustand von /a•Z•i/ und /a•Z•y/ werden
vom gleichen Zustand geteilt, und so können sie nicht unterschieden
werden. Allerdings sind beispielsweise die Lautfolgen und die Triphone
von „azia" und „azya" folgende:
-
Ein stummer Abschnitt ohne einen
Laut ist durch q dargestellt. Da qAz, aZi und aZy den gleichen gemeinsamen
Zustand haben, können
die Worte „azia" und „azya" an diesem Punkt
nicht unterschieden werden. Haben jedoch zIa und zYa oder iAq und
yAq nicht die gleiche gemeinsame bzw. geteilte Zustandsstruktur,
können
die zwei Worte an einem dieser Punkte unterschieden werden, und
es gibt kein Problem bei praktischen Erkennungsvorgängen.
-
Manchmal (insbesondere dann, wenn
die Gesamtanzahl der geteilten Zustände klein ist) teilen sich alle
Zustände
der Triphone mit den verschiedenen mittleren Lauten den gleichen
Zustand. In diesem Fall können
alle Triphone, wenn eine Unterteilung erforderlich ist, derart modifiziert
werden, dass sie verschiedene akustische Eigenschaften haben, indem
eine geteilte Zustandszahl, die durch das Addieren von 1 zur geteilten Gesamtzustandszahl
erhalten wird, dem Zustand (beispielsweise dem mittleren Zustand)
jedes Triphons zugewiesen wird, um ihn unterscheidbar zu machen.
-
(4) Lernen von Triphon-
HMMs mit geteiltem Zustand (104)
-
Entsprechend der in (3) bestimmten
geteilten Zustandsstruktur werden die Zustände der Triphone in einen zusammengezogen,
um ein zustandsgebundenes Lernen durchzuführen. Bei diesem Lernen können herkömmliche
Verfahren verwendet werden, wie ein EM- Algorithmus.
-
5 zeigt
ein Blockschaltbild eines Spracherkennungsvorgangs, der von der
erfindungsgemäßen Spracherkennungsvorrichtung
verwendet wird.
-
Bei diesem Ausführungsbeispiel werden HMMs 505 durch
den vorstehend beschriebenen Ablauf 510 erzeugt. Ein Sprachabschnitt
wird durch einen Extrahierer 501 aus einem Sprachsignal
extrahiert, das über
ein Mikrophon oder dergleichen eingegeben wird. Das extrahierte
Sprachsignal wird durch einen akustischen Analysierer 502 analysiert.
Eine Wahrscheinlichkeitsberechnungseinrichtung 503 liefert
eine Wahrscheinlichkeit jedes Zustands der HMMs 505. Unter
Verwendung der erhaltenen Wahrscheinlichkeit, einer Grammatik 506 und eines
Spracherkennungsnetzes 507 sucht eine Sprachensucheinrichtung 504 nach
einer Sprachfolge mit der größten Wahrscheinlichkeit
und gibt sie als Spracherkennungsergebnisse aus.
-
6 zeigt
die Ergebnisse der Erkennung von 100 Sätzen, die von 10 willkürlichen
Sprechern gesprochen werden, wobei die Erkennung unter Verwendung
einer aus 100 Worten gebildeten Grammatik und der Spracherkennungsvorrichtung
des Ausführungsbeispiels
durchgeführt
wird. In 6 gibt eine
Satzerkennungsrate (%) einen Prozentsatz von Sätzen an, für die die eingegebene Sprache
korrekt erkannt wurde, und eine Worterkennungsrate (%) ist ein Prozentsatz
richtig erkannter Worte in einem gesprochenen Satz.
-
Wie vorstehend angeführt wurden
mit der Spracherkennung, die unter Verwendung der geteilten Zustandsstruktur
mit insgesamt 600 geteilten Zuständen
durchgeführt
wurde, die durch den Ablauf des ersten Ausführungsbeispiels erzeugt werden,
Satz- und Worterkennungsraten erzielt, die viel höher als
bei einem herkömmlichen
Laut- HMM, Rechtskontext- HMM und Triphon- HMM sind.
-
Im folgenden wird ein zweites Ausführungsbeispiel
der Erfindung beschrieben.
-
Der vorstehend beschriebene Clusterbildungsalgorithmus
verwendet ein Entfernungsmaß,
das die Varianz σ berücksichtigt.
-
Ist daher die Anzahl der Anfangscluster ϕi
und die Anzahl der endgültigen
Cluster sehr groß,
ist der Berechnungsaufwand immens. Wird daher eine Entfernungsberechnung
verwendet, die einen großen
Berechnungsaufwand für
die Berechnung der Entfernungen zwischen allen Clustern erfordert,
ist eine entsprechend größere Zeitdauer
erforderlich. In Anbetracht dessen werden zwei Berechnungstypen,
eine einfache Entfernungsberechnung und eine genaue Entfernungsberechnung
für die
Berechnung genauer Entfernungen verwendet. Die einfache Entfernungsberechnung
wird für
Cluster einer ersten Gruppe beginnend von dem ersten Cluster bis
zu einem Zwischencluster unter der Gesamtanzahl an Clustern verwendet,
während
die genaue Entfernungsberechnung für Cluster verwendet wird, die
das dem Zwischencluster folgende Cluster bis zum endgültigen Cluster
enthalten. Auf diese Weise wird die für die Entfernungsberechnung
erforderliche Zeit verkürzt
und der Vorgang kann beschleunigt werden. Bei diesem zweiten Ausführungsbeispiel
verwendet die einfache Entfernungsberechnung die euklidische Distanz
und die genaue Entfernungsberechnung verwendet die Bhattacharryya-
Distanz.
-
7 zeigt
ein Ablaufdiagramm der Verarbeitungsschritte gemäß dem zweiten Ausführungsbeispiel.
-
Zuerst wird in Schritt 701 ein
Cluster Φm
erzeugt, das alle Anfangscluster ϕi enthält. Dies
entspricht Schritt S2 in 3.
In Schritt 701 wird überprüft, ob die
Gesamtanzahl M an Clustern erhalten wurde. Wenn kleiner als M, wird
der Ablauf fortgesetzt, und wenn gleich M, ist der Ablauf beendet.
In Schritt 703 wird beurteilt, ob die nächste Clusterbildung die einfache
Entfernungsberechnung oder die genaue Entfernungsberechnung verwendet.
Ist die Anzahl (m) der Cluster kleiner als die Gesamtanzahl M (beispielsweise
600) an Clustern mal × (beispielsweise
10), d. h., vom ersten Cluster bis zum 590. Cluster, geht der Ablauf
zu Schritt 704 zur Ausführung
einer Clusterbildung mittels der einfachen Entfernungsberechnung über.
-
Ist die Anzahl (m) der Cluster (M-x)
oder größer, geht
der Ablauf zu Schritt 704 zur Ausführung der Clusterbildung mittels
der genauen Entfernungsberechnung bis zum letzten Cluster M über. Die
Verarbeitungsschritte in den Schritten 704 und 705 unterscheiden
sich in ihren Berechnungsverfahren und entsprechen den Schritten
S4 bis S7 in 3. Das
heißt,
Schritt 705 verwendet die Bhattacharyya- Distanz und stellt
die gleichen Verarbeitungsvorgänge
wie in den Schritten S4 bis S7 in 3 dar,
und Schritt 704 verwendet die euklidische Distanz und berechnet
die Entfernungen in den Schritten S4 bis S7 über die euklidische Distanz.
Nach Schritt 704 oder 705 wird in Schritt 706 ein
Cluster hinzugefügt,
und der Ablauf kehrt zu Schritt 702 zurück.
-
Die Entfernungsberechnung bei diesem
Ausführungsbeispiel
kann andere Entfernungen verwenden, die sich von der Bhattacharyya-Distanz und der euklidischen
Distanz unterscheiden.
-
In den vorstehenden Ausführungsbeispielen
wird das HMM als Spracherkennungsmodell verwendet. Anstelle eines
HMM können
andere Modelle verwendet werden, wenn sie Zustandsübergangsmodelle
mit Verteilungen sind. Obwohl das Triphon als Modelleinheit verwendet
wird, kann die Erkennungseinheit Musik oder eine andere Information
sein.
-
Obwohl bei den vorstehenden Ausführungsbeispielen
eine Spracherkennung ausgeführt
wird, sind die vorstehenden Abläufe
der Ausführungsbeispiele
bei einem Modellentwurf einer Mustererkennung anwendbar, indem Modelle
mit ähnlichen
Verteilungen verwendet werden.
-
Die Erfindung ist bei einem System
mit einer Vielzahl von Einrichtungen und bei einer einzigen Einrichtung
anwendbar.
-
Die Erfindung ist bei einem Programm
anwendbar, das die Erfindung bildet, und einem System oder einer
Einrichtung zugeführt
wird.
-
Wie bisher beschrieben sind die Merkmale
der Ausführungsbeispiele,
dass (1) Cluster über
eine Clusterbildung von oben nach unten unter Berücksichtigung
des gesamten akustischen Raums erzeugt werden, (2) Zustände unter
Lautklassen und in jeder Lautklasse gemeinsam genutzt werden können, und
(3) eine geteilte Zustandsstruktur eines willkürlichen Sprechers direkt erzeugt
werden kann. Daher kann ein Triphon- HMM einer effizienten geteilten
Zustandsstruktur über
eine Clusterbildung von oben nach unten entworfen werden. Unter
Verwendung des Spracherkennungsmodells, das durch die Abläufe der
Erfindung entwickelt ist, kann eine Spracherkennung mit hoher Geschwindigkeit
und hoher Leistung realisiert werden.