-
HINTERGRUND
DER ERFINDUNG
-
Gebiet der Erfindung
-
Die vorliegende Erfindung bezieht
sich auf ein Spracherkennungsverfahren und eine Vorrichtung dafür und insbesondere
auf ein Spracherkennungsverfahren zum Erkennen der eingegebenen
Sprache unter Nutzung eines Modells und eine Vorrichtung dafür.
-
Relevanter
Stand der Technik
-
Unter den bekannten Spracherkennungstechnologien
verwenden wenige Spracherkennungstechnologien Modelle mehrerer Sprecherklassen,
und selbst falls derartige Modelle verwendet werden, wird ein Verfahren
zur Nutzung von in männliche
und weibliche Sprecher aufgeteilten Modellen und Auswahl des zu
verwendenden Modells vor der Ausführung einer Spracherkennung
angewendet. Es ist kein Verfahren zur Nutzung eines Modells von
unbestimmtem Sprechermodell oder Nutzung eines männlichen Modells und eines weiblichen
Modells zur Spracherkennung zu der gleichen Zeit vorhanden gewesen,
und es ist kein ein derartiges Verfahren nutzender Hochgeschwindigkeitsprozeß vorhanden
gewesen.
-
Bei der Modellvorbereitung zur Spracherkennung
ist es allgemein bekannt, daß eine
höhere
Leistungsfähigkeit
der Erkennung erhalten werden kann, indem Einzelheiten in dem Hidden-Markov-Modell
(HMM) in der Richtung der Phonemumgebung erzeugt werden. Es wird
ebenfalls bekannt, daß eine
höhere
Leistungsfähigkeit
der Erkennung erhalten werden kann, indem durch Geschlechter dargestellte
Einzelheiten in der Richtung von Sprecherklassen erzeugt werden.
Während
jedoch in dem Fall der Erzeugung des ausführlichen Modells in der Richtung
der Phonemumgebung die Last des Erkennungsprozesses hauptsächlich bei
der Ausgabewahrscheinlichkeitsberechnung des HMM zunimmt, nimmt
in dem Fall der Erzeugung des ausführlichen Modells in der Richtung
von Sprecherklassen die Last sowohl bei der Ausgabewahrscheinlichkeitsberechnung als
auch bei der Sprachsuche zu. Bei der Spracherkennung ist der Echtzeitprozeß ein sehr
wichtiger Faktor, der in Kombination mit der hohen Erkennungsrate
erreicht werden muß.
Es ist daher notwendig, den Echtzeitprozeß der Spracherkennung zu realisieren,
während
die Erkennungsrate davon verbessert wird, und zu diesem Zweck ist
es notwendig, einen Sprecherklassenmodelle nutzenden Hochgeschwindigkeitsprozeß zu realisieren.
-
Es ist aus Kosaka et al. "Tree-structured Speaker
Clustering for Fast Speaker Adaptation", Proceedings of the International Conference
on Acoustics, Speech, Signal Processing (ICASSP), Speech Processing 1,
Adelaide, 19.–22.
April 1994, Seiten I-245–I-248
bekannt, eine sprecheradaptive Spracherkennung unter Verwendung
einer hierarchischen Sprecheranhäufung
bereitzustellen, bei der Sprechermodelle in einer Baumstruktur angeordnet
sind, um sowohl eine genaue als auch eine grobe Adaption gemäß dem Ausmaß von Training
zu erreichen.
-
Ausgestaltungen der vorliegenden
Erfindung sind in den beigefügten
Patentansprüchen
definiert.
-
Ein Ausführungsbeispiel ermöglicht eine
Hochgeschwindigkeitsspracherkennung mit einer hohen Erkennungsrate
durch ein Analysieren der eingegebenen Sprache, ein Bestimmen der
Ausgabewahrscheinlichkeit von Modellen, d. h. eines Modells eines
unbestimmten Sprechers bzw. unbestimmten Sprechermodells und mehrerer
gemäß mehreren
Sprecherklassen geclusterter bzw. angehäufter Sprechermodelle, und
des Ergebnisses der Analyse der eingegebenen Sprache, und ein Bestimmen
des Ergebnisses der Erkennung der eingegebenen Sprache auf der Grundlage
der so bestimmten Ausgabewahrscheinlichkeit.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 zeigt
ein funktionelles Blockschaltbild eines Ausführungsbeispiels der vorliegenden
Erfindung;
-
2 zeigt
ein Ablaufdiagramm, das den Prozeßablauf bei dem Ausführungsbeispiel
der vorliegenden Erfindung darstellt;
-
3 zeigt
eine Ansicht, die einen bekannten Prozeß unter Nutzung von Sprecherklassenmodellen darstellt;
-
4 zeigt
eine Ansicht, die einen Hochgeschwindigkeitsprozeß der vorliegenden
Erfindung unter Nutzung von Sprecherklassenmodellen darstellt;
-
5 zeigt
eine Ansicht, die den Vergleich von Verarbeitungszeiten darstellt;
-
6 zeigt
eine Ansicht, die Sprecherklassen mit einer hierarchischen Struktur
darstellt;
-
7 zeigt
eine Tabelle, die die Ergebnisse der Erkennung von Telefonsprache
unter Nutzung von Sprecherklassen darstellt; und
-
8 zeigt
ein Blockschaltbild, das einen Hardwareaufbau einer die vorliegende
Erfindung verkörpernden
Vorrichtung darstellt.
-
BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
-
1 zeigt
ein funktionelles Blockschaltbild einer die vorliegende Erfindung
verkörpernden
Vorrichtung.
-
In 1 sind
eine Spracheingabevorrichtung 101 einschließlich eines
Mikrofons oder eines A/D-Wandlers zum Eingeben der Sprache eines
Eingabesprechers; eine akustische Verarbeitungseinheit 102 zum
Bestimmen von Sprachparametern durch eine akustische Analyse; eine
Ausgabewahrscheinlichkeitsberechnungseinheit 103 zum Berechnen
einer gemeinsamen groben Ausgabewahrscheinlichkeit und einer feinen
Ausgabewahrscheinlichkeit für
jede Sprecherklasse; ein Sprecherklassenmodell (HMM: Hidden-Markov-Modell) 104;
eine Sprachsucheinheit 105 für eine gemeinsame grobe Sprachsuche
und eine feine Sprachsuche für
jede Sprecherklasse; eine bei der Sprachverarbeitung verwendete
Grammatik-/Wörterbucheinheit 106;
und eine Anzeigevorrichtung 107 zum Ausgeben des Ergebnisses
bereitgestellt.
-
1 zeigt
ein funktionelles Blockschaltbild einer die Erfindung verkörpernden
Spracherkennungsvorrichtung, während 8 den Hardwareaufbau einer
derartigen Spracherkennungsvorrichtung zeigt, und die Funktionen
der Blöcke
in 1 sind durch die
in 8 gezeigten Komponenten
realisiert.
-
Genauer ist die Funktion der Spracheingabevorrichtung 101 durch
eine Spracheingabevorrichtung 86 realisiert, und die Funktionen
der akustischen Verarbeitungseinheit 102, der Ausgabewahrscheinlichkeitsberechnungseinheit 103 und
der Sprachsucheinheit 105 sind unter der Steuerung einer
CPU 83 gemäß einem
in einem ROM 81 oder einem RAM 82 gespeicherten
Steuerprogramm realisiert.
-
Das Sprecherklassen-HMM-Modell 104 und
die Grammatik/ das Wörterbuch 106 sind
in dem ROM 81 oder dem RAM 82 gespeichert. Die
Steuerprogramme, das HMM und das Wörterbuch, die in dem RAM 82 gespeichert
sind, und die bei verschiedenen Prozessen erforderlichen Parameter
können über eine
Schnittstelle (I/F) 85 von einer CD-ROM 84 oder über eine öffentliche Übertragungsleitung
von einem (nicht gezeigten) anderen Endgerät installiert werden.
-
Die Anzeigevorrichtung 107 kann
durch eine Anzeigevorrichtung 87 wie beispielsweise eine
CRT oder eine Flüssigkristallanzeigevorrichtung
realisiert sein, und verschiedene Anweisungen können durch eine Eingabeeinrichtung 88 wie
beispielsweise eine Tastatur, eine Maus und/oder ein Tablett eingegeben
werden.
-
Die Spracherkennungsvorrichtung besteht
aus den vorstehend angeführten
Komponenten und funktioniert gemäß dem in 2 gezeigten Ablauf. Durch
die Spracheingabevorrichtung 201 (101 entsprechend) herausgeschnittene
Sprache wird durch die akustische Verarbeitungseinheit 202 (102 entsprechend)
in Sprachparameter in jedem Rahmen analysiert, und die Aus gabewahrscheinlichkeitsberechnungseinheit 203 (103 entsprechend)
berechnet unter Nutzung des HMM 204 (104 entsprechend)
die Ausgabewahrscheinlichkeit. Das HMM 204 (104 entsprechend)
speichert in mehreren Sprecherklassen geclusterte bzw. angehäufte Sprecherklassenmodelle.
Bei der Ausgabewahrscheinlichkeitsberechnung in 203 berechnet
die Ausgabewahrscheinlichkeitsberechnungseinheit zuerst eine gemeinsame
grobe Ausgabewahrscheinlichkeit (203-a) und berechnet auf
der Grundlage des Ergebnisses einer derartigen Berechnung wieder
eine feine Ausgabewahrscheinlichkeit für jede Sprecherklasse, die
zu dem Ergebnis der Erkennung beitragen kann (203-b). Daraufhin
wird eine gemeinsame Ausgabewahrscheinlichkeit aus diesen Ausgabewahrscheinlichkeiten
bestimmt, und die Sprachsucheinheit 205 (105 entsprechend)
führt eine
gemeinsame Sprachsuche auf der Grundlage der Grammatik/ des Wörterbuchs 206 (106 entsprechend)
und der vorstehend bestimmten gemeinsamen Ausgabewahrscheinlichkeit
aus, wodurch ein Kandidat der Erkennung bestimmt wird (205-a).
Die Sprachsucheinheit 205 (105 entsprechend) führt daraufhin
unter Nutzung der feinen Ausgabewahrscheinlichkeit für jede Sprecherklasse
eine feine Sprachsuche für
jede Sprecherklasse aus, wodurch ein Erkennungsergebnis und seine
Wahrscheinlichkeit bestimmt werden (205-b). Diese Ergebnisse
werden als die Ergebnisse der Erkennung bei 207 (107 entsprechend)
ausgegeben.
-
[Verfahren zur Vorbereitung
eines hochwertigen HMM unter Berücksichtigung
von Sprecherklassen]
-
Nachstehend sind Verfahren zur Vorbereitung
von Sprecherklassen und von Sprecherklassen-HMM erläutert.
-
I. Verfahren zur Vorbereitung
von Sprecherklassen
-
Nachstehend ist das Verfahren zur
Vorbereitung von Sprecherklassen erläutert. In einer Sprecherklasse
sind Sprecher mit akustisch ähnlichen
Merkmalen geclustert bzw. angehäuft.
Die Ähnlichkeit
der akustischen Merkmale der Sprecher kann durch verschiedene Verfahren
gemessen werden, wie beispielsweise:
- 1) ein
Verfahren zur Betrachtung des akustischen Merkmals jedes Sprechers
als eine Verteilung, Vorbereitung von Verteilungen für die jeweiligen
Sprecher und Messung der Ähnlichkeit
zwischen den Sprechern durch den Abstand zwischen derartigen Verteilungen;
- 2) ein Verfahren zur Darstellung eines Raums eines unbestimmten
Sprechers bzw. unbestimmten Sprecherraums durch mehrere repräsentative
Punkte oder Verteilungen, Bestimmung der Abweichung der repräsentativen
Punkte jedes Sprechers in dem unbestimmten Sprecherraum und Messung
der Ähnlichkeit zwischen
den Sprechern durch eine derartige Abweichung; und
- 3) ein Verfahren zur Vorbereitung von Teilräumen für jeweilige Sprecher unter
Berücksichtigung
der Lauteigenschaft, Ausbildung einer Entsprechung zwischen derartigen
Teilräumen
unter Berücksichtigung
der Lauteigenschaft und Messung der Ähnlichkeit zwischen den Sprechern
durch die Summe der Ähnlichkeiten der
Teilräume.
-
Das Verfahren (1) kann realisiert
werden, indem das kontinuierliche HMM einer Verteilung für einen Zustand
für jeden
Sprecher unter Nutzung des ganzen Sprachraums untersucht wird und
die Ähnlichkeit
zwischen den Sprechern durch ein Bestimmen des Abstands des HMM
der Sprecher gemessen wird. Bei diesem Verfahren wird jedoch der
Durchschnitt der Verteilung jedes Sprechers ein Cepstrum-Mittelwert,
da der ganze Sprachraum jedes Sprechers durch eine Verteilung dargestellt
ist, so daß der
Unterschied zwischen den Sprechern nicht deutlich werden kann. Folglich
kann dieses Verfahren nicht als zu bevorzugend betrachtet werden.
-
Das Verfahren (2) kann realisiert
werden, indem ein Codebuch (z. B. von einer Codewortgröße von 1024)
eines unbestimmten Sprechers vorbereitet wird (d. h. das HMM der
diskreten Verteilung eines Zustands von 1024 Codewörtern untersucht
wird), die Wahrscheinlichkeiten des Auftretens derartiger Codewörter für jeden
Sprecher bestimmt werden und die Ähnlichkeit zwischen den Sprechern
durch die Abweichung derartiger Auftretenswahrscheinlichkeiten gemessen
wird. Dieses Verfahren ist dem Verfahren (1) dahingehend vorzuziehen,
daß der
Sprachraum in Teilräume
aufgeteilt wird. Da dieses Verfahren die Lauteigenschaft nicht berücksichtigt,
kann jedoch die gemessene Ähnlichkeit
zwischen den Sprechern auf der Ähnlichkeit
zwischen einem Laut eines Sprechers und einem anderen Laut eines
anderen Sprechers basieren, und in Anbetracht einer derartigen Möglichkeit
kann dieses Verfahren nicht als zu bevorzugend betrachtet werden.
-
Das Verfahren (3) kann realisiert
werden, indem Modelle unter Berücksichtigung
des Lauts für
jeden Sprecher vorbereitet werden und die Ähnlichkeit zwischen den Sprechern
durch die Summen der Ähnlichkeiten
der entsprechenden Modelle gemessen wird. Es werden z. B. Phonem-HMM
von 1 Verteilung für
3 Zustände
für jeden
Sprecher vorbereitet, und die Ähnlichkeit
zwischen den Sprechern wird durch ein Bestimmen der Ähnlichkeit
in jedem entsprechenden Zustand jedes entsprechenden Phonems der
Sprecher und ein Berechnen der Summe derartiger Ähnlichkeiten gemessen. Bei
diesem Verfahren wird die Ähnlichkeit
zwischen den Sprechern unter Berücksichtigung
des ganzen Sprachraums der Sprecher gemessen, während eine Entsprechung zwischen
den durch das Phonem dargestellten Phonemteilräumen und dem Zustand ausgebildet
wird, und kann daher unter Berücksichtigung
des Lautmerkmals angegeben werden, wobei auch der genaue Unterschied
bei dem akustischen Merkmal jedes Sprechers widergespiegelt wird.
Die Ähnlichkeit
zwischen den Sprechern kann auch in einer genaueren Art und Weise
gemessen werden, indem das Phonemmodell durch ein von der Phonemumgebung
abhängiges
genaueres HMM ersetzt wird.
-
In Anbetracht des Vorstehenden wird
die Ähnlichkeit
zwischen den Sprechern durch das vorstehend erläuterte Verfahren (3) bestimmt,
und die Sprecherklassen werden gemäß einer derartigen Ähnlichkeit
bestimmt. Nachstehend ist der Algorithmus zum Vorbereiten der Sprecherklassen
erläutert.
-
II. Algorithmus zur Vorbereitung
von Sprecherklassen
-
1) Zuerst werden Phonem-HMM
von 1 Verteilung für
3 Zustände
vorbereitet.
-
Unter Ausschluß des lautlosen Zustands 24
Phoneme betrachtend wird jeder Sprecher durch 72 Teilräume (= 24
Phoneme × 3
Zustände)
dargestellt. Für 204 Sprecher
werden z. B. 4896 HMM vorbereitet, und die gesamte Anzahl von Verteilungen
wird 14688 (4896 × Anzahl
von Zuständen
(3)).
-
2) Die Ähnlichkeit
zwischen den Sprechern wird durch die für jeden Sprecher vorbereiteten
Phonem-HMM gemessen.
-
Für
zwei Sprecher S(1) und S(2) wird
durch ein Definieren von Zuständen ϕp, ϕq für einen
entsprechenden Zustand n eines entsprechenden Phonems m unter den
Phonem-HMM (24 Arten) die Ähnlichkeit
zwischen derartigen Zuständen
durch einen Abstand d (ϕp, ϕq) dargestellt, wobei ϕp und ϕq dargestellt werden durch:
-
-
Da jeder Zustand durch eine Verteilung
dargestellt wird, kann der Abstand d(ϕ
p, ϕ
q) gemäß der folgenden
Gleichung (2) unter Verwendung des Bhattacharyya-Abstands berechnet
werden:
wobei μ
i und Σ
i jeweils
für Mittelwert
und Streuung stehen.
-
Die Abstände aller der Zustände aller
der entsprechenden Phoneme der Sprecher werden durch die vorstehende
Gleichung bestimmt, und die Ähnlichkeit
der Sprecher ist durch den Abstand D(S
(1),
S
(2)) bestimmt, bei dem es sich um die Summe
der vorstehend angeführten
Abstände
handelt. Der Abstand D(S
(1), S
(2)) wird
durch die folgende Gleichung (3) berechnet:
wobei M die Anzahl von Arten
von HMM angibt und N die Anzahl von Zuständen pro HMM angibt.
-
Die Ähnlichkeit wird wie vorstehend
erläutert
für jeweils
zwei Sprecher aller der Sprecher bestimmt.
-
3) Die Sprecher werden
durch einen LBG-Algorithmus auf der Grundlage der Ähnlichkeiten
aller der Sprecher angehäuft.
Der LBG-Algorithmus wird in der folgenden Prozedur ausgeführt:
-
- 1. Es wird ein zentraler Sprecher ausgewählt, für den die
Summe der Ähnlichkeiten
für alle
die Sprecher minimal wird. Der zentrale Sprecher bedeutet einen
Sprecher, für
den die Summe der Ähnlichkeiten
in der betrachteten Klasse minimal wird;
- 2. Es wird ein von dem zentralen Sprecher in der betrachteten
Klasse am weitesten entfernter Sprecher Sa bestimmt;
- 3. Es wird ein von dem vorstehend angeführten entfernten Sprecher Sa
in der betrachteten Klasse am weitesten entfernter Sprecher Sb bestimmt;
- 4. Die Sprecher in der betrachteten Klasse werden in eine dem
Sprecher Sa nähere
Gruppe und eine andere dem Sprecher Sb nähere Gruppe
aufgeteilt, wodurch zwei Sprecherklassen erzeugt werden;
- 5 . Zentrale Sprecher Sa1, Sb1 werden jeweils für so aufgeteilte zwei Sprecherklassen
erneuert;
- 6. Alle die Sprecher werden durch eine Zuweisung zu den nächsten zentralen
Sprechern unter Nutzung aller der derzeit bestimmten zentralen Sprecher
(deren Anzahl gleich der Anzahl von derzeit betrachteten Sprecherklassen
ist) neu angehäuft.
Dieser Schritt 6 wird wiederholt, während die Erneuerung der zentralen Sprecher
fortgesetzt wird, aber die Folge geht zu dem nächsten Schritt 7 über, falls
die zentralen Sprecher nicht mehr erneuert werden. Dieser Schritt
wird beendet, wenn eine gewünschte
Anzahl von Sprecherklassen erhalten wird; und
- 7. Unter allen den Sprecherklassen wird eine Klasse bestimmt,
die für
den zentralen Sprecher die größte Summe
der Ähnlichkeiten
zeigt, und die vorstehenden Schritte 2, 3, 4, 5 und 6 werden bei
einer derartigen Klasse ausgeführt.
-
Die Sprecherklassen werden wie vorstehend
erläutert
vorbereitet. Die vorbereiteten Sprecherklassen können genutzt werden wie sie
sind, aber die Ausbreitung der Sprecher kann gemäß dem vorstehend angeführten Verfahren
zur Vorbereitung in den verschiedenen Klassen verschieden sein.
Falls es wünschenswert ist, ähnliche
Niveaus der Ausbreitung zwischen den verschiedenen Sprecherklassen
zu haben, ist es möglich, nacheinander
einen näheren
Sprecher für
jede Sprecherklasse abzurufen, bis das Niveau der Ausbreitung (die Summe
der Ähnlichkeiten
zu dem zentralen Sprecher) der die breiteste Ausbreitung zeigenden
(d. h. die größte Summe
der Ähnlichkeiten
zu dem zentralen Sprecher aufweisenden) Klasse dem Niveau der Ausbreitung anderer
Klassen ähnlich
wird. Eine derartige Bestimmung der Sprecherklassen stellt eine
gleichmäßige Ausbreitung
der Sprecherklassen bereit, und der Sprecher an der Grenze gehört zu mehreren
Sprecherklassen, so daß die
Spracherkennung von dem sich aus dem Fehler bei der Bestimmung der
Sprecherklassen ergebenden bedeutenden Einfluß befreit werden kann.
-
III. Verfahren zur Vorbereitung
von Sprecherklassen-HMM
-
Die von der Phonemumgebung abhängigen HMM
werden durch den gewöhnlichen
EM-Algorithmus vorbereitet, wobei die Sprachdaten der Sprecher genutzt
werden, die zu jeder Sprecherklasse von so vorbereiteten Sprecherklassen
gehören.
Bei 4 Sprecherklassen werden z. B. von der Phonemumgebung abhängige HMM
von 12 Verteilungen in 3 Zuständen
(238 Arten) vorbereitet.
-
[Hochgeschwindigkeitsspracherkennungsverfahren
unter Nutzung von Sprecherklassen-HMM]
-
Nachstehend ist ein Hochgeschwindigkeitsspracherkennungsverfahren
unter Nutzung von Sprecherklassen-HMM erläutert.
-
Zuerst ist unter Bezugnahme auf 3 ein bekanntes Spracherkennungsverfahren
unter Nutzung von Sprecherklassen-HMM erläutert. In diesem Fall werden
grundsätzlich
in einer parallelen Art und Weise die Spracherkennungsprozesse gemäß den Arten
(N) der Sprecherklassen-HMM durchgeführt, wobei im Vergleich zu
dem Fall des Verwendens nur einer Sprecherklasse, d. h. eines HMM
einer unbestimmten Sprecherklasse bzw. unbestimmten Sprecherklassen-HMM,
die Sprachverarbeitung N Mal erforderlich ist. Folglich sind die
Ausgabewahrscheinlichkeitsberechnung und die Sprachsuche ebenfalls
N Mal erforderlich. Falls die Berechnungen eines derartigen Ausmaßes notwendig
sind, erfordert die Verwendung der Sprecherklassen-HMM bei der tatsächlichen
Spracherkennung zwangsläufig
einen Computer mit einer sehr hohen Geschwindigkeit oder mit paralleler
Verarbeitung zum Realisieren des Echtzeitprozesses. Eine derartige
Verwendung wird daher aufwendig und ist praktisch unrealistisch.
-
Nachstehend ist ein die Sprecherklassen-HMM
nutzendes und zum deutlichen Verringern des Ausmaßes der
vorstehend angeführten
Berechnungen fähiges
Spracherkennungsverfahren vorgeschlagen. Das vorgeschlagene Verfahren
ist in 4 veranschaulicht.
Der vorgeschlagene Spracherkennungsprozeß zeichnet sich durch die Tatsache
aus, daß das
HMM eines unbestimmten Sprechers bzw. unbestimmte Sprecher-HMM immer
auch bei der Erkennung des Sprecherklassen-HMM verwendet wird. Das
unbestimmte Sprecher-HMM entspricht einer Obersprecherklasse aller
der Sprecherklassen-HMM. Es soll die Effizienz der Ausgabewahrscheinlichkeitsberechnung
und der Sprachsuche durch ein Verwenden des Ergebnisses des unbestimmten Sprecher-HMM als den geschätzten Wert
jedes Sprecherklassen-HMM verbessern.
-
Das vorgeschlagene Hochgeschwindigkeitsspracherkennungsverfahren
unter Nutzung der Sprecherklassen-HMM funktioniert in der folgenden
Art und Weise:
- 1) Für das Ergebnis der akustischen
Analyse wird der geschätzte
Wert der Zustandsausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM
(SI-HMM) durch das Hochgeschwindigkeitsausgabewahrscheinlichkeitsberechnungsverfahren
IDMM + SQ unter Nutzung einer skalaren Quantisierung und einer dimensional
unabhängigen
Ausgabewahrscheinlichkeitsberechnung berechnet;
- 2) Unter der Annahme, daß der
Oberrang der durch IDMM + SQ geschätzten Ausgabewahrscheinlichkeit des
unbestimmten Sprecher-HMM ein zu dem Ergebnis der Erkennung beitragender
Zustand ist, wird die Zustandsausgabewahrscheinlichkeit jedes Sprecherklassen-HMM unter Nutzung
des unbestimmten Sprecher-HMM und jedes Sprecherklassen-HMM neu
berechnet, um eine feine Ausgabewahrscheinlichkeit zu erhalten.
Da das unbestimmte Sprecher-HMM die Oberklasse der Sprecherklassen-HMM
bildet, kann bei dieser Operation eine relativ hohe Ausgabewahrscheinlichkeit
bei dem unbestimmten Sprecher-HMM
in einem Zustand erwartet werden, in dem mit einer hohen Ausgabewahrscheinlichkeit
des Sprecherklassen-HMM zu rechnen ist. Folglich kann die durch
IDMM + SQ geschätzte
Ausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM als die
Zustandsausgabewahrscheinlichkeit jedes Sprecherklassen-HMM verwendet
werden;
- 3) Anschließend
wird eine Vorwärtssprachsuche
unter Nutzung der gesamten Ausgabewahrscheinlichkeit des unbestimmten
Sprecher-HMM ausgeführt.
In diesem Fall wird die Sprachsuche nicht in anderen Sprecherklassen
ausgeführt.
Bei dem vorliegenden Spracherkennungsverfahren wird das endgültige Ergebnis der
Erkennung durch eine Rückwärtssprachsuche
unter Nutzung der Tree-Trellis-basierten Suche auf der Grundlage
der Astar-Suche bestimmt. Der heuristische Aufwand der Astar-Suche
nutzt den Vorwärtspunktwert
des unbestimmten Sprechers und erfordert nicht die Vorwärts-Viterbi-Suche für jede Sprecherklasse. In
diesem Fall erfüllt
der heuristische Aufwand die Bedingung der Astar-Suche in einem strenge Sinne nicht, aber
in der Praxis ist der Unterschied kaum von Bedeutung, falls die
endgültigen
N besten Ergebnisse neu sortiert werden, da das eine Oberklasse
der Sprecherklassen-HMM bildende unbestimmte Sprecher-HMM einen
relativ zufriedenstellenden geschätzten Wert für den heuristischen
Aufwand der Sprecherklassen-HMM bereitstellt. Die endgültigen N
besten Ergebnisse müssen
in jedem Fall neu sortiert werden, da die Ergebnisse unter mehreren
Sprecherklassen verwendet werden;
- 4) Daraufhin wird das endgültige
Ergebnis der Erkennung durch eine Rückwärtssprachsuche für jede Sprecherklasse
bestimmt. Bei dieser Operation wird das Ergebnis der Vorwärtssprachsuche
des unbestimmten Sprechers als der heuristische Aufwand jeder Sprecherklasse
verwendet, wie es vorstehend erläutert
ist. Bei der Rückwärts-Viterbi-Suche wird die in
dem Schritt (2) geschätzte
Ausgabewahrscheinlichkeit für
jede Sprecherklasse verwendet;
- 5) Die für
die verschiedenen Sprecherklassen bestimmten Ergebnisse der Erkennung
werden neu sortiert, und das Ergebnis der höchsten Wahrscheinlichkeit wird
als das Ergebnis der Erkennung des ersten Rangs genommen.
-
Bei dem vorstehend erläuterten
Verfahren werden die meisten Berechnungen, die zu dem Ergebnis der
Erkennung beitragen können,
gemäß den sich
auf jede Sprecherklasse beziehenden Informationen ausgebildet.
-
5 zeigt
schematisch den Vergleich der Verarbeitungszeit der das Sprecherklassen-HMM
verwendenden Spracherkennung bei dem bekannten Verfahren und bei
dem Verfahren gemäß der Erfindung,
wobei die Verarbeitungszeit in der Abszisse genommen ist. Die oberste
grafische Darstellung zeigt die Verarbeitungszeit der nur eine Sprecherklasse
(unbestimmte Sprecherklasse) verwendenden bekannten Erkennung, und
die zweite grafische Darstellung zeigt die Verarbeitungszeit der
eine unbestimmte Sprecherklasse verwendenden Erkennung, die durch
IDMM + SQ schneller gemacht worden ist (Erfindung). Die dritte grafische
Darstellung zeigt die Verarbeitungszeit der IDMM + SQ und die Sprecherklassen-HMM
von 3 Sprecherklassen einfach in einer parallelen Art und Weise
verwendenden bekannten Erkennung (wie in 3 gezeigt), während die unterste grafische
Darstellung die Verarbeitungszeit des Hochgeschwindigkeitsspracherkennungsverfahrens
mit 3 Sprecherklassen unter Nutzung der vorgeschlagenen Sprecherklassen-HMM
(wie in 4 gezeigt) zeigt. Die
für die
Ausgabewahrscheinlichkeitsberechnung (Bjot) und die Vorwärts-/Rückwärtssprachsuche
erforderliche Verarbeitungszeit ist abhängig von der das Ziel der Erkennung
bildenden Aufgabe und von der Leistungsfähigkeit von HMM variabel, kann
aber als in dem betrachteten Bereich als eine angemessene Länge dargestellt
angesehen werden. Die für
die Rückwärtssprachsuche
erforderliche Verarbeitungszeit, die in diesen grafischen Darstellungen
als beträchtlich
lang dargestellt ist, beträgt
jedoch in der Praxis weniger als 0,1 Sekunden.
-
Folglich erfordert im Vergleich zu
dem bekannten Verfahren des Berechnens der Sprecherklassen-HMM einfach
in einer parallelen Art und Weise und Ausführens der IDMM + SQ-Berechnung
und der Vorwärts-Viterbi-Suche
gemäß der Anzahl
N der Sprecherklassen das vorgeschlagene Verfahren die IDMM + SQ-Berechnung
für das
unbestimmte Sprecher-HMM und die Vorwärtssuche nur einmal, so daß der Vorteil
des vorgeschlagenen Verfahrens mit der Erhöhung der Anzahl N größer wird.
Demgegenüber
ist das mit der Anzahl N der Sprecherklassen zunehmende Ausmaß der Ausgabewahrscheinlichkeitsneuberechnung
für die Sprecherklassen
und der Rückwärtssprachsuche
bei den ganzen Berechnungen begrenzt. Folglich kann das Verfahren
gemäß der Erfindung
bei dem ganzen Prozeß mit
einer sehr hohen Geschwindigkeit ausgeführt werden.
-
Folglich wird eine verbesserte Möglichkeit
zur Realisierung des Echtzeitprozesses bereitgestellt, ohne auf
einen Hochgeschwindigkeitscomputer oder parallele Computer angewiesen
zu sein, und es kann eine praktische Spracherkennung realisiert
werden.
-
[Versuchsergebnisse bei
der Spracherkennung mit Sprecherklassen-HMM]
-
In 7 sind
Ergebnisse eines mit mehreren Sprecherklassen durchgeführten Versuchs
gezeigt. Die Spracherkennung wurde mit (a) einer unbestimmten Sprecherklasse
(g1), (2) männlichen
und weiblichen Sprecherklassen (g2) und (3) 8 aus vier männlichen
Klassen und vier weiblichen Klassen zusammengesetzten Sprecherklassen
(g8) versucht. Von der Phonemumgebung abhängige HMM von 6 Verteilungen
für 3 Zustände wurden
für jede
der vorstehend angeführten
Sprecherklassen (1)– (3)
vorbereitet (insgesamt 238 Arten), und der Erkennungsversuch wurde
für 520
durch zwanzig männliche
und weibliche Sprecher ausgesprochene Wörter (Telefonsprache) durchgeführt.
-
Die Versuchsergebnisse in 7 geben die Wirkung der
Verwendung der Sprecherklassen an. Gemäß diesen Ergebnissen hat der
die unbestimmte Sprecherklasse in Kombination mit den Sprecherklassen nutzende
Fall den Prozentsatz der maximalen Verschlechterung gesenkt und
die Prozentsätze
der maximalen Verbesserung und der mittleren Verbesserung erhöht.
-
Vorstehend ist ein Fall des Verwendens
der unbestimmten Sprecherklasse und der männlichen und weiblichen Sprecherklassen
erläutert,
aber es kann auch eine große
Anzahl der Sprecherklassen verwendet werden.
-
Außerdem ist vorstehend ein Fall
des Nutzens der unbestimmten Sprecherklasse bei der Berechnung der gemeinsamen
Ausgabewahrscheinlichkeit erläutert,
aber es kann auch ein beliebiger Parameter verwendet werden, der
aus den Ausgabewahrscheinlichkeitswerten der Sprecherklassen bestimmt
werden kann. Es kann z. B. der maximale Wert der Ausgabewahrscheinlichkeiten
der Sprecherklassen-HMM verwendet werden.
-
Ferner ist vorstehend ein Fall des
Nutzens von IDMM + SQ bei der Berechnung der groben Ausgabewahrscheinlichkeit
erläutert,
aber es kann auch ein Verfahren des Verwendens eines HMM von kleinerem
Bestand für
die Berechnung der groben Ausgabewahrscheinlichkeit und Verwendens
eines HMM von größerem Bestand
für die
Berechnung der feinen Ausgabewahrscheinlichkeit oder ein Verfahren
des Verwendens eines Phonem-HMM für die Berechnung der groben
Ausgabewahrscheinlichkeit und Verwendens eines von der Phonemumgebung
abhängigen
HMM für
die Berechnung der feinen Ausgabewahrscheinlichkeit verwendet werden.
-
Ferner ist vorstehend ein Fall des
Verdoppelns der Anzahl der Sprecherklassen für jede hierarchische Ebene
erläutert,
aber die Anzahl der Sprecherklassen kann in einer beliebigen Art
und Weise erhöht
werden.
-
Ferner ist vorstehend ein Fall des
Anhäufens
der Sprecher in einer derartigen Art und Weise, daß die Sprecher
zwischen den verschiedenen Klassen nicht überlappen, erläutert, aber
das Anhäufen
kann auch derart ausgebildet werden, daß ein derartiges Überlappen
erlaubt ist.