DE60115738T2

DE60115738T2 - Sprachmodelle für die Spracherkennung

Info

Publication number: DE60115738T2
Application number: DE60115738T
Authority: DE
Inventors: Katsuki Shinagawa-ku Minamino; Yasuharu Shinagawa-ku Asano; Hiroaki Shinagawa-ku Ogawa; Helmut Shinagawa-ku Lucke
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-02-28
Filing date: 2001-02-26
Publication date: 2006-08-31
Anticipated expiration: 2021-02-27
Also published as: DE60115738D1; JP4465564B2; CN1312543A; EP1128361A2; JP2001242884A; EP1128361A3; CN1169116C; EP1128361B1; US20010020226A1; US7013277B2

Description

Die vorliegende Erfindung betrifft Spracherkennungsgeräte und Spracherkennungsverfahren.
Die folgenden Abschnitte geben einen Hinweis auf ein technisches Problem, auf das die vorliegende Erfindung gerichtet ist, und geben wenigstens teilweise einen Hinweis auf eine durch Ausführungsformen der vorliegenden Erfindung bereitgestellte Lösung.
1 zeigt einen beispielhaften Aufbau eines herkömmlichen Spracherkennungsgeräts.
Vom Benutzer geäußerte Sprache wird in ein Mikrofon 1 eingegeben, und das Mikrofon 1 setzt die eingegebene Sprache in ein Audiosignal um, das ein elektrisches Signal ist. Das Audiosignal wird zu einem Analog-zu-Digital-Umsetzungsabschnitt (AD-Umsetzungsabschnitt) 2 gesendet. Der AD-Umsetzungsabschnitt 2 abtastet, quantisiert und setzt das Audiosignal, das ein vom Mikrofon 1 gesendetes analoges Signal ist, in Audiodaten um, die ein digitales Signal sind. Die Audiodaten werden zu einem Merkmalextrahierungsabschnitt 3 gesendet.
Der Merkmalextrahierungsabschnitt 3 wendet auf die vom AD-Umsetzungsabschnitt 2 in Einheiten aus einer geeigneten Anzahl von Rahmen (frames) gesendeten Audiodaten eine akustische Verarbeitung an, um eine Merkmalgröße wie beispielsweise einen Mel-Frequenz-Cepstrumkoeffizienten (Mel frequency cepstrum coefficient (MFCC)) zu extrahieren, und sendet sie zu einem Anpassungsabschnitt 4. Der Merkmalextrahierungsabschnitt 3 kann andere Merkmalgrößen wie beispielsweise Spektren, Linearvorhersagekoeffizienten, Cepstrumkoeffizienten und Linienspektrumpaare extrahieren.
Der Anpassungsabschnitt 4 benutzt die vom Merkmalextrahierungsabschnitt 3 gesendete Merkmalgröße und bezieht sich, falls notwendig, auf eine Akustikmodelldatenbank 5, eine Lexikondatenbank 6 und eine Grammatikdatenbank 7, um auf die in das Mikrofon 1 eingegebene Sprache (Eingabesprache) Spracherkennung anzuwenden, beispielsweise durch ein Kontinuierlichverteilungs-HMM-Verfahren (continousdistribution HMM method).
Insbesondere speichert die Akustikmodelldatenbank 5 akustische Modelle, die akustische Merkmale jedes Phonems und jeder Silbe unter einem linguistischen Aspekt der Sprache, auf die Spracherkennung angewendet wird, anzeigen. Da Spracherkennung entsprechend dem Kontinuierlichverteilungs-HMM-Verfahren (HMM = hidden-Markov-model (Verdeckt-Markowmodell bzw. -Markowkette)) angewendet wird, wird HMM beispielsweise als ein akustisches Modell benutzt. Die Lexikondatenbank 6 speichert ein Wortlexikon, in welchem Information (Phoneminformation) bezüglich der Betonung jedes zu erkennenden Worts (Vokabular) beschrieben ist. Die Grammatikdatenbank 7 speichert eine Grammatikregel (Sprachmodell), die beschreibt, wie jedes in das Wortlexikon der Lexikondatenbank 6 eingegebene Wort verkettet (verbunden) wird. Beispielsweise kann die Grammatikregel eine kontextfreie Grammatik (context free grammar (CFG)) oder eine auf statistische Wortkettenwahrscheinlichkeiten (N-gram) basierte Regel sein.
Der Anpassungsabschnitt 4 verbindet in der Akustikmodelldatenbank 5 gespeicherte akustische Modelle durch sich beziehen auf das Wortlexikon der Lexikondatenbank 6, um Wortakustikmodelle (Wortmodelle) zu bilden. Der Anpassungsabschnitt 4 verbindet außerdem mehrere Wortmodelle durch sich beziehen auf die in der Grammatikdatenbank 6 gespeicherte Grammatikregel und benutzt die verbundenen Wortmodelle zum Erkennen der in das Mikrofon 1 eingegebenen Sprache durch das Kontinuierlichverteilungs-HMM-Verfahren entsprechend Merkmalgrößen. In anderen Worten detektiert der Anpassungsabschnitt 4 eine Reihe von Wortmodellen, die beim Beobachten zeitsequentieller Merkmalgrößen, die vom Merkmalextrahierungsabschnitt 3 ausgegeben werden, die höchste Bewertung (Wahrscheinlichkeit) aufweist, und gibt die mit der Reihe von Wortmodellen korrespondierende Wortkette als das Resultat der Spracherkennung aus.
In anderen Worten akkumuliert der Anpassungsabschnitt 4 die Wahrscheinlichkeit des Auftretens jeder Merkmalgröße für Wortketten, die mit verbundenen Wortmodellen korrespondieren, benutzt einen akkumulierten Wert als eine Bewertung und gibt die Wortkette, welche die höchste Bewertung aufweist, als Resultat der Spracherkennung aus.
Eine Bewertung wird generell durch die totale Auswertung einer akustischen Bewertung (nachstehend, wenn notwendig, als Akustikbewertung bezeichnet), die durch in der Akustikmodelldatenbank 5 gespeicherte Akustikmodelle gegeben ist, und eine linguistische Bewertung (nachstehend, wenn notwendig, als Sprachebewertung bezeichnet), die durch die in der Grammatikdatenbank 7 gespeicherte Grammatikregel gegeben ist, erhalten.
Insbesondere wird die Akustikbewertung für jedes Wort beispielsweise durch das HMM-Verfahren von Akustikmodellen berechnet, die ein Wortmodell entsprechend der Wahrscheinlichkeit (Auftrittswahrscheinlichkeit) bilden, mit der eine Reihe von aus dem Merkmalextrahierungsabschnitt 3 ausgegebenen Merkmalgrößen beobachtet wird. Die Sprachebewertung wird erhalten, beispielsweise durch Bigram (bigram), entsprechend der Wahrscheinlichkeit einer Verkettung (Verbindung) zwischen einem angezielten Wort und einem unmittelbar vor dem angezielten Wort angeordneten Wort. Das Resultat der Spracherkennung wird entsprechend der von einer totalen Auswertung der Akustikbewertung und der Sprachebewertung für jedes Wort erhaltenen endgültigen Bewertung (nachstehend, als Endbewertung, bezeichnet) bestimmt.
Insbesondere wird die Endbewertung S einer aus N Wörtern gebildeten Wortkette beispielsweise durch den folgenden Ausdruck berechnet, bei dem w_k das k-te Wort in der Wortkette anzeigt, A(w_k) die Akustikbewertung des Worts w_k anzeigt und L(w_k) die Sprachebewertung des Worts anzeigt. S = Σ(A(wk) + Ck × L(wk)). (1)
Σ zeigt eine Summation an, die erhalten wird, wenn k von 1 bis N geändert wird. C_k zeigt ein auf die Sprachebewertung L(w_k) des Worts W_k angewendetes Gewicht an.
Der Anpassungsabschnitt 4 führt beispielsweise eine Anpassungsverarbeitung aus, um N, das die durch den Ausdruck (1) dargestellte Endbewertung am höchsten macht, und eine Wortkette w₁, w₂, ..., und w_N zu erhalten, und gibt die Wortkette w₁, w₂, ..., und w_N als das Resultat der Spracherkennung aus.
Mit der oben beschriebenen Verarbeitung berechnet das in 1 gezeigte Spracherkennungsgerät, wenn der Benutzer „New York ni ikitai desu" äußert, eine Akustikbewertung und eine Sprachebewertung für jedes der Wörter „New York", „ni", „ikitai" oder „desu". Wenn deren von einer totalen Auswertung erhaltene Endbewertung die höchste ist, wird die Wortkette „New York", „ni", „ikitai", und „desu" als das Resultat der Spracherkennung ausgegeben.
Wenn im obigen Fall die fünf Wörter „New York", „ni", „ikitai", und „desu" im Wortlexikon der Lexikondatenbank 6 gespeichert werden, gibt es 55 Arten einer Fünfwortanordnung, die aus diesen fünf Wörtern gebildet werden können. Deshalb kann auf einfache Weise gesagt werden, dass der Anpassungsabschnitt 4 55 Wortketten auswertet und unter ihnen die für die Äußerung des Benutzers am besten geeignete Wortkette (Wortkette, welche die höchste Endbewertung aufweist) bestimmt. Wenn die Anzahl von im Wortlexikon gespeicherten Wörtern zunimmt, ist die Anzahl von aus den Wörtern gebildeten Wortketten die Anzahl von Wörtern multipliziert die-Anzahl-von-Wörtern-mal mit sich selbst. Folglich sollte eine sehr große Anzahl von Wortketten ausgewertet werden.
Da außerdem die Anzahl von in einer Äußerung enthaltenen Wörtern generell unbekannt ist, sollten nicht nur aus fünf Wörtern gebildete Wortketten, sondern aus einem Wort, zwei Wörtern und ... gebildete Wortketten ausgewertet werden. Deshalb wird die Anzahl von auszuwertenden Wortketten sehr groß. Es ist im Sinne des Berechnungsaufwands und der Speicherkapazität, die zu benutzen sind, sehr wichtig, unter einer sehr großen Anzahl von Wortketten die wahrscheinlichste Wortkette als das Resultat der Spracherkennung effizient zu bestimmen.
Um einen effizienten Gebrauch vom Berechnungsaufwand und von der Speicherkapazität, die zu benutzen sind, zu machen, werden gewisse Maßnahmen getroffen wie beispielsweise eine akustische Zweigschneidtechnik zum Stoppen einer Bewertungsberechnung, wenn eine Akustikbewertung, die während eines Prozesses zum Erhalten einer Akustikbewertung erhalten wird, gleich oder kleiner als eine vorbestimmte Schwelle wird oder eine linguistische Zweigschneidtechnik zum Reduzieren der Anzahl von Wörtern, für die eine Bewertungsberechnung ausgeführt wird, entsprechend Sprachebewertungen.
Entsprechend diesen Zweigschneidtechniken wird, da Wörter, für die eine Bewertungsberechnung ausgeführt wird, entsprechend einer vorbestimmten Bestimmungsreferenz (wie beispielsweise eine während einer oben beschriebenen Berechnung erhaltene Akustikbewertung und eine einem Wort gegebene Sprachebewertung) reduziert werden, der Berechnungsaufwand reduziert. Wenn viele Wörter reduziert werden, das heißt wenn eine strikte Bestimmungsreferenz benutzt wird, wird jedoch auch ein Wort, das als ein Resultat der Spracherkennung korrekt zu erhalten ist, auch entfernt, und es tritt eine falsche Erkennung auf. Deshalb muss bei den Zweigschneidetechniken eine Wortreduktion ausgeführt werden, wobei zu einem gewissen Ausmaß ein Spielraum (margin) bereitgestellt wird, um nicht ein Wort zu entfernen, das als ein Resultat der Spracherkennung korrekt zu erhalten ist. Folglich ist es schwierig, den Berechnungsaufwand stark zu reduzieren.
Wenn Akustikbewertungen für alle Wörter, für die eine Bewertungsberechnung auszuführen ist, unabhängig erhalten werden, ist der Berechnungsaufwand groß. Deshalb ist ein Verfahren vorgeschlagen worden, zu um von einem Teil einer Akustikbewertungsberechnung für mehrere Wörter gemeinsam Gebrauch zu machen (sharing). Bei diesem Sharingverfahren wird auf im Wortlexikon gespeicherte Wörter, die vom ersten Phonem zum zweiten Phonem das gleiche erste Phonem aufweisen, ein gemeinsames akustisches Modell angewendet und auf die nachfolgenden Phoneme werden akustische Modelle unabhängig angewendet, um als Ganzes ein Baumstrukturnetzwerk zu bilden und Akustikbewertungen zu erhalten. Insbesondere seien beispielsweise die Wörter „akita" und „akebono" in Betracht gezogen. Wenn angenommen wird, dass die Phoneminformation von „akita" gleich „akita" ist und die von „akebono" gleich „akebono" ist, werden die Akustikbewertungen der Wörter „akita" und „akebono" für das erste bis zweite Phonem „a" und „k" gemeinsam berechnet. Für die verbleibenden Phoneme „i", „t" und „a" des Worts „akita" und die verbleibenden Phoneme „e" „b" „o", „n" und „o" des Worts „akebono" werden Akustikbewertungen unabhängig berechnet.
Deshalb wird gemäß diesem Verfahren der für Akustikbewertungen ausgeführte Berechnungsaufwand stark reduziert.
Bei diesem Verfahren kann jedoch, wenn ein gemeinsamer Teil berechnet wird (Akustikbewertungen werden gemeinsam berechnet), das Wort, für das Akustikbewertungen berechnet werden, nicht bestimmt werden. In anderen Worten kann bei dem obigen Beispiel der Wörter „akita" und „akebono", wenn Akustikbewertungen für das erste und zweite Phonem „a" und „k" berechnet werden, nicht bestimmt werden, ob Akustikbewertungen für das Wort „akita" oder das Wort „akebono" berechnet werden.
In diesem Fall kann, was „akita" anbetrifft, wenn die Berechnung einer Akustikbewertung für sein drittes Phonem „i" startet, bestimmt werden, dass das Wort, für das die Berechnung ausgeführt wird, „akita" ist. Auch was „akebono" anbetrifft, kann, wenn die Berechnung einer Akustikbewertung für sein drittes Phonem „e" startet, bestimmt werden, dass das Wort, für das die Berechnung ausgeführt wird, „akebono" ist.
Wenn deshalb ein Teil einer Akustikbewertungsberechnung gemeinsam benutzt wird, kann ein Wort, für das die Berechnung ausgeführt wird, nicht identifiziert werden, wenn die Akustikbewertungsberechnung startet. Als ein Resultat ist es schwierig, das oben beschriebene linguistische Zweigschneideverfahren vor dem Start einer Akustikbewertungsberechnung zu benutzen. Es kann eine nicht rentable Berechnung ausgeführt werden.
Wenn außerdem ein Teil einer Akustikbewertungsberechnung gemeinsam benutzt wird, wird für alle im Wortlexikon gespeicherten Wörter das oben beschriebene Baumstrukturnetzwerk gebildet. Zum Halten des Netzwerks ist eine große Speicherkapazität erforderlich.
Um vom Berechnungsaufwand und der Speicherkapazität, die zu benutzen sind, effektiven Gebrauch zu machen, kann eine andere Technik genommen werden, bei der Akustikbewertungen nicht für alle im Wortlexikon gespeicherten Wörter, sondern nur für vorläufig ausgewählte Wörter berechnet werden. Die vorläufige Auswahl wird durch Benutzung beispielsweise einfacher akustischer Modelle oder einer einfachen Grammatikregel, die keine sehr hohe Präzision aufweisen, ausgeführt.
Ein Verfahren zum vorläufigen Auswählen ist beispielsweise in „A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition", IEEE Trans. Speech and Audio Proc., Vol. 1, Seiten 59–67, 1993, geschrieben von L. R. Bahl, S. V. De Gennaro, P. S. Gopalakrishnan und R. L. Mercer, beschrieben.
Die Akustikbewertung eines Worts wird durch Benutzung einer Reihe von Merkmalgrößen einer Sprache berechnet. Wenn der Ausgangspunkt oder der Beendigungspunkt einer Reihe einer zur Berechnung zu benutzenden Merkmalgröße anders ist, wird auch eine zu erhaltende Akustikbewertung geändert. Diese Änderung beeinflusst die durch den Ausdruck (1), in welchem eine Akustikbewertung und eine Sprachebewertung total ausgewertet werden, erhaltene Endbewertung.
Der Ausgangspunkt und der Beendigungspunkt der Reihe von mit einem Wort korrespondierenden Merkmalgrößen, das heißt die Grenzen von Wörtern (Wortgrenzen) können beispielsweise durch ein dynamisches Programmierungsverfahren erhalten werden. Ein Punkt in der Reihe einer Merkmalgröße wird auf einen Kandidaten für eine Wortgrenze eingestellt, und eine durch totale Auswertung einer Akustikbewertung und einer Sprachebewertung erhaltene Bewertung (nachstehend, wenn notwendig, als eine Wortbewertung bezeichnet) wird für jedes Wort in einer Wortkette, die als ein Kandidat für ein Resultat einer Spracherkennung dient, akkumuliert. Die Kandidaten für Wortgrenzen, welche die höchsten akkumulierten Werte ergeben, werden zusammen mit den akkumulierten Werten gespeichert.
Wenn die akkumulierten Werte von Wortbewertungen erhalten worden sind, werden auf die Wortgrenzen, welche die höchsten akkumulierten Werte, das heißt die höchsten Bewertungen ergeben, ebenfalls erhalten.
Das Verfahren zum Erhalten von Wortgrenzen in der obigen Weise wird als Viterbi-Decodierung oder Eindurchgangsdecodierung bezeichnet und Details sind beispielsweise in „Voice Recognition Using Probability Model", the Journal of the Institute of Electronics, Information and Communication Engineers, Seiten 20–26, July 1. 1988, geschrieben von Seiichi Nakagawa, beschrieben.
Um die oben beschriebene vorläufige Auswahl effektiv auszuführen, ist es sehr wichtig, Wortgrenzen zu bestimmen, das heißt einen Ausgangspunkt in einer Reihe einer Merkmalgröße (Merkmalgrößenreihe) zu bestimmen.
Insbesondere in einer Merkmalgrößenreihe, die von einer beispielsweise in 2(A) gezeigten Äußerung „kyouwaiitenkidesune" erhalten wird, beeinflusst, wenn eine korrekte Wortgrenze beim Zeitpunkt t₁ zwischen „kyou" und „wa" angeordnet ist, wenn der Zeitpunkt t_1-i, der dem korrekten Zeitpunkt t₁ vorhergeht, bei der vorläufigen Auswahl für das dem Wort „kyou" folgende Wort „wa" als Ausgangspunkt ausgewählt wird, nicht nur die Merkmalgröße des Wortes „wa", sondern auch der letzte Abschnitt der Merkmalgröße des Worts „kyou" die vorläufige Auswahl. Wenn der Zeitpunkt t_i+1, der auf den korrekten Zeitpunkt t_i folgt, bei der vorläufigen Auswahl als Ausgangspunkt für das Wort „wa" ausgewählt wird, wird der beginnende Abschnitt der Merkmalgröße des Worts „wa" nicht bei der vorläufigen Auswahl benutzt.
In jedem Fall wird, wenn ein Ausgangspunkt falsch ausgewählt wird, der vorläufigen Auswahl und dann der danach ausgeführten Anpassungsverarbeitung ein ungünstiger Effekt gegeben.
In 2 (auch in 5 und 7, die später beschrieben werden) verläuft die Zeit in Richtung von links nach rechts. Der Ausgangszeitpunkt einer Sprachzone ist auf 0 eingestellt, und der Beendigungszeitpunkt ist auf die Zeit T eingestellt.
Bei dem oben beschriebenen dynamischen Programmierungsverfahren ist es, da endgültige Wortgrenzen nicht bestimmt werden können, bis Wortbewertungen (Akustikbewertungen und Sprachebewertungen) bis zum Ende einer Merkmalgrößenreihe, das heißt zum Beendigungszeitpunkt T der Sprachzone in 2, berechnet worden sind, schwierig, Wortgrenzen, die bei der vorläufigen Auswahl als Ausgangspunkte dienen, allein zu bestimmen, wenn die vorläufige Auswahl ausgeführt wird.
Um dieses Problem zu lösen, ist eine Technik vorgeschlagen worden, bei der Kandidaten für Wortgrenzen gehalten werden, bis durch Benutzung einer Wortgrößenreihe in einer Sprachzone Wortbewertungen berechnet worden sind.
Bei dieser Technik werden, wenn eine Wortbewertung für das Wort „kyou" mit dem als Ausgangspunkt benutzten Ausgangszeitpunkt 0 der Sprachzone berechnet wird und beispielsweise t_i-1, t_i und t_i+1 als Kandidaten für den Beendigungspunkt der Äußerung des Wortes „kyou" erhalten werden, diese drei Zeitpunkte t_i-1, t_i und t_i+1 gehalten, und es wird eine vorläufige Auswahl für das nächste Wort ausgeführt, wobei jeder dieser Zeitpunkte als ein Ausgangspunkt benutzt wird.
Bei der vorläufigen Auswahl wird angenommen, dass, wenn der Zeitpunkt t_i-1 als Ausgangspunkt benutzt wird, die zwei Wörter „wa" und „ii" erhalten werden, wenn der Zeitpunkt t_i als Ausgangspunkt benutzt wird, das einzelne Wort „wa" erhalten wird, und wenn der Zeitpunkt t_i+1 als Ausgangspunkt benutzt wird, die zwei Wörter „wa" und „ii" erhalten werden. Es wird auch angenommen, dass für jedes dieser Wörter eine Wortbewertung berechnet wird und in 2(B) bis 2(G) gezeigte Resultate erhalten werden.
Insbesondere zeigt 2(B), dass eine Wortbewertung für das Wort „wa" berechnet wird, wobei der Zeitpunkt t_i-1, als Ausgangspunkt benutzt wird, und der Zeitpunkt t₂ als ein Kandidat für einen Beendigungspunkt erhalten wird. 2(C) zeigt, dass für das Wort „ii" eine Wortbewertung berechnet wird, wobei der Zeitpunkt t_i-1 als Ausgangspunkt benutzt wird und der Zeitpunkt t₂₊₁ als ein Kandidat für einen Beendigungspunkt erhalten wird. 2(D) zeigt, dass für das Wort „wa" eine Wortbewertung berechnet wird, wobei der Zeitpunkt t_i als Ausgangspunkt benutzt wird und der Zeitpunkt t_2-1 als ein Kandidat für einen Beendigungspunkt erhalten wird. 2(E) zeigt, dass für das Wort „wa" eine Wortbewertung berechnet wird, wobei der Zeitpunkt t₁ als Ausgangspunkt benutzt wird und der Zeitpunkt t₂ als ein Kandidat für einen Beendigungspunkt erhalten wird. 2(E) zeigt, dass für das Wort „wa" eine Wortbewertung berechnet wird, wobei der Zeitpunkt t_i als Ausgangspunkt benutzt wird und der Zeitpunkt t₂ als ein Kandidat für einen Beendigungspunkt erhalten wird. 2(F) zeigt, dass für das Wort „wa" eine Wortbewertung berechnet wird, wobei der Zeitpunkt t_i+1 als Ausgangspunkt benutzt wird und der Zeitpunkt t₂ als ein Kandidat für einen Beendigungspunkt erhalten wird. 2(G) zeigt, dass für das Wort „ii" eine Wortbewertung berechnet wird, wobei der Zeitpunkt t_i+1 als Ausgangspunkt benutzt wird und der Zeitpunkt t₂₊₂ als ein Kandidat für einen Beendigungspunkt erhalten wird. In 2 gilt t_i-1 < t_i < t_i+1 < t₂ < t₂₊₁ < t₂₊₂.
Unter 2(B) bis 2(G) zeigen 2(B), 2(E) und 2(F), dass die gleiche Wortkette, „kyou" und „wa", als ein Kandidat für ein Resultat einer Spracherkennung erhalten wird und dass der Beendigungspunkt des letzten Worts „wa" der Wortkette beim Zeitpunkt t₂ ist. Deshalb ist es beispielsweise möglich, dass unter ihnen der geeigneste Fall entsprechend den akkumulierten Werten der bis zum Zeitpunkt t₂ erhaltenen Wortbewertungen ausgewählt wird und die restlichen Fälle beiseite gelegt werden.
Beim laufenden Zeitpunkt jedoch kann unter einem Fall, der von den in 2(B), 2(E) und 2(F) gezeigten plus in 2(C), 2(D) und 2(G) gezeigten Fällen ausgewählt ist, ein korrekter Fall nicht identifiziert werden. Deshalb müssen diese vier Fälle gehalten werden. Für diese vier Fälle wird wieder eine vorläufige Auswahl ausgeführt.
Deshalb müssen bei dieser Technik Wortbewertungen berechnet werden, wobei viele Wortgrenzkandidaten gehalten werden, bis die eine Merkmalgrößenreihe in einer Sprachzone benutzende Wortbewertungsberechnung abgeschlossen ist. Sie wird im Sinne einer effizienten Benutzung des Berechnungsaufwands und der Speicherkapazität nicht bevorzugt.
Auch werden in diesem Fall, wenn wirklich korrekte Wortgrenzen als Kandidaten für Wortgrenzen gehalten werden, im Prinzip schließlich die gleichen korrekten Wortgrenzen erhalten, wie diejenigen, die in einem Fall erhalten werden, bei dem die oben beschriebene dynamische Programmierungstechnik benutzt wird. Wenn eine wirklich korrekte Wortgrenze nicht als ein Kandidat für eine Wortgrenze gehalten wird, wird ein Wort, das die Wortgrenze als einen Ausgangspunkt oder als seinen Beendigungspunkt aufweist, falsch erkannt, und außerdem kann aufgrund dieser falschen Erkennung ein auf das Wort folgendes Wort falsch erkannt werden.
In den letzten Jahren sind akustische Modelle benutzt worden, die von (Erwägungs-) Kontexten abhängen. Von Kontexten abhängige akustische Modelle bedeuten akustische Modelle auch für die gleiche Silbe (oder das gleiche Phonem), die entsprechend einer unmittelbar vorher oder unmittelbar nachher angeordneten Silbe als unterschiedliche Modelle modelliert worden sind. Deshalb wird beispielsweise eine Silbe „a" zwischen Fällen, bei denen eine unmittelbar davor oder unmittelbar danach angeordnete Silbe „k" und „sa" ist, durch unterschiedliche akustische Modelle modelliert.
Von Kontexten abhängige akustische Modelle werden in solche, die von Kontexten in Wörtern abhängen, und solche, die von sich über Wörter erstreckenden Kontexten abhängen, unterteilt.
In einem Fall, bei dem von Kontexten in Wörtern abhängige akustische Modelle benutzt werden, wird, wenn das Wortmodell „kyou" durch Koppeln der akustischen Modelle „kyo" und „u" erzeugt wird, ein akustisches Modell „kyou", das von der unmittelbar danach kommenden Silbe „u" abhängt (wobei das akustische Modell „kyo" mit der unmittelbar danach kommenden Silbe „u" in Betracht gezogen wird), benutzt oder ein akustische Modell „u", das von der unmittelbar davor kommenden Silbe „kyo" abhängt, benutzt.
In einem Fall, bei dem von sich über Wörter erstreckenden Kontexten abhängige akustische Modelle benutzt werden, wird, wenn ein Wortmodell „kyou" durch Koppeln der akustischen Modelle „kyo" und „u" erzeugt wird, wenn das unmittelbar danach kommende Wort „wa" ist, ein akustisches Modell „u" benutzt, das von der ersten Silbe „wa" des unmittelbar danach kommenden Worts abhängt. Von sich über Wörter erstreckenden Kontexten abhänge Akustische Modelle werden als Quer- bzw. Kreuzwortmodelle (cross-word models) bezeichnet.
Wenn Kreuzwortmodelle bei einer Spracherkennung, die eine vorläufige Auswahl ausführt, angewendet werden, kann eine Beziehung zu einem unmittelbar vor einem vorläufig ausgewählten Wort angeordneten Wort berücksichtigt werden, aber eine Beziehung zu einem unmittelbar nach dem vorläufig ausgewählten Wort angeordneten Wort kann nicht berücksichtigt werden, da das unmittelbar danach kommende Wort noch nicht bestimmt ist.
Um dieses Problem zu lösen ist ein Verfahren entwickelt worden, bei dem ein Wort, das sehr wahrscheinlich unmittelbar nach einem vorläufig ausgewählten Wort anzuordnen ist, im voraus erhalten wird und ein Wortmodell erzeugt wird, wobei die Beziehung zu dem erhaltenen Wort berücksichtigt wird. Insbesondere wird beispielsweise, wenn die Wörter „wa" und „ga" und „no" sehr wahrscheinlich unmittelbar nach dem Wort „kyou" anzuordnen sind, das Wortmodell durch Benutzung akustischer Modelle „u" erzeugt, die von „wa", „ga" und „no", welche mit der letzten Silbe von Wortmodellen für das Wort „kyou" korrespondieren, abhängen.
Da jedoch immer nicht notwendige Kontexte berücksichtigt werden, ist dieses Verfahren hinsichtlich einer effizienten Benutzung des Berechnungsaufwands und der Speicherkapazität nicht wünschenswert.
Aus dem gleichen Grund ist es schwierig, die Sprachebewertung eines vorläufig ausgewählten Wortes bei Berücksichtigung des unmittelbar danach angeordneten Worts zu berechnen.
Als ein Spracherkennungsverfahren, bei dem nicht nur ein einem angezielten Wort vorhergehendes Wort, sondern auch ein dem angezielten Wort folgendes Wort berücksichtigt wird, ist ein Zweidurchgangsdecodierungsverfahren vorgeschlagen worden, das beispielsweise in „The N-Best Algorithm: An Efficient and Exact Procedure for Finding The Most Likely Sentence Hypotheses" Proc. ICASSP, Seiten 81–84, 1990, geschrieben von R. Schwarts und Y. L. Chow, beschrieben ist.
3 zeigt umrissenen einen Aufbau eines herkömmlichen Spracherkennungsgeräts, das eine Spracherkennung durch das Zweidurchgangsdecodierungsverfahren ausführt.
Bei 3 führt ein Anpassungsabschnitt 41 beispielsweise die gleiche Anpassungsverarbeitung wie der in 1 gezeigte Anpassungsabschnitt 4 aus und gibt eine als das Resultat der Verarbeitung erhaltene Wortkette aus. Der Anpassungsabschnitt 4 gibt nicht nur die Wortkette aus, die zwischen mehreren als die Resultate der Anpassungsverarbeitung erhaltenen Wortketten als das endgültige Spracherkennungsresultat dient, sondern gibt mehrere wahrscheinliche Wortketten als Kandidaten für ein Spracherkennungsresultat aus.
Die Ausgangssignale des Anpassungsabschnitts 41 werden zu einem Anpassungsabschnitt 42 gesendet. Der Anpassungsabschnitt 42 führt unter den vom Anpassungsabschnitt 41 ausgegebenen mehreren Wortketten eine Anpassungsverarbeitung zur erneuten Auswertung der Wahrscheinlichkeit der Bestimmung jeder Wortkette als das Spracherkennungsresultat aus. In einer vom Anpassungsabschnitt 41 als das Spracherkennungsresultat ausgegebenen Wortkette benutzt der Anpassungsabschnitt 42, da ein Wort nicht nur ein unmittelbar davor angeordnetes Wort, sondern auch ein unmittelbar danach angeordnetes Wort aufweist, Kreuzwortmodelle zum Erhalten einer neuen Akustikbewertung und einer neuen Sprachebewertung, wobei nicht nur das unmittelbar davor angeordnete Wort, sondern auch das unmittelbar danach angeordnete Wort berücksichtigt wird. Der Anpassungsabschnitt 42 bestimmt und gibt unter den mehreren vom Anpassungsabschnitt 41 ausgegebenen Wortketten entsprechend einer neuen Akustikbewertung und Sprachebewertung für jede Wortkette eine wahrscheinliche Wortkette als das Spracherkennungsresultat aus.
Bei der oben beschriebenen Zweidurchgangsdecodierung werden im Anpassungsabschnitt 41, der eine erste Anpassungsverarbeitung ausführt, generell einfache akustische Modelle, ein Wortlexikon und eine Grammatikregel, die keine hohe Präzision aufweisen, benutzt, und werden im Anpassungsabschnitt 42, der die nachfolgende Anpassungsverarbeitung ausführt, akustische Modelle, ein Wortlexikon und eine Grammatikregel, die eine hohe Präzision aufweisen, benutzt. Bei dieser Konfiguration werden bei dem in 3 gezeigten Spracherkennungsgerät die in den Anpassungsabschnitten 41 und 42 ausgeführten Verarbeitungsaufwände beide reduziert, und es wird ein hochpräzises Spracherkennungsresultat erhalten.
3 zeigt, wie oben beschrieben, ein Zweidurchgangsdecodierungs-Spracherkennungsgerät. Es ist auch ein Spracherkennungsgerät vorgeschlagen worden, das eine Mehrdurchgangsdecodierung ausführt, bei der nach dem in 3 gezeigten Anpassungsabschnitt 42 die gleichen Anpassungsabschnitte hinzugefügt sind.
Bei der Zweidurchgangsdecodierung und Mehrdurchgangsdecodierung kann jedoch die nächste Anpassungsverarbeitung nicht erreicht werden, solange die erste Anpassungsverarbeitung beendet worden ist. Deshalb wird eine Verzögerungszeit, die ab der Eingabe einer Äußerung bis zur Ausgabe des endgültigen Spracherkennungsresultats gemessen wird, lang.
Zur Lösung dieses Problems ist ein Verfahren vorgeschlagen worden, bei dem, wenn die erste Anpassungsverarbeitung für mehrere Wörter beendet worden ist, eine nachfolgende Anpassungsverarbeitung für die mehreren Wörter ausgeführt wird, wobei Kreuzwortmodelle benutzt werden, und diese Operation für andere Wörter wiederholt wird. Das Verfahren ist beispielsweise in „Evaluation of a Stack Decoder on a Japanese Newspaper Dictation Task", Onkoron, 1 – R-12, Seiten 141–142, 1997, geschrieben von M. Schuster, beschrieben.
Eine vorläufige Auswahl wird generell durch Benutzung einfacher akustischer Modelle und einer Grammatikregel, die keine hohe Präzision aufweisen, ausgeführt. Da eine vorläufige Auswahl bei allen im Wortlexikon gespeicherten Wörter angewendet wird, wenn die vorläufige Auswahl mit hochpräzisen akustischen Modellen und einer hochpräzisen Grammatikregel ausgeführt wird, sind große Ressourcenmengen wie beispielsweise der Berechnungsaufwand und eine Speicherkapazität erforderlich, um ein Echtzeitmerkmal zu halten. Deshalb wird auch für ein großes Vokabular eine vorläufige Auswahl mit der Benutzung einfacher akustischer Modelle und einer einfachen Grammatikregel mit hoher Geschwindigkeit mit relativ kleineren Ressourcen ausgeführt.
Bei der vorläufigen Auswahl jedoch wird, nachdem durch Benutzung einer Merkmalgrößenreihe eine Anpassungsverarbeitung für ein Wort ausgeführt ist und ein wahrscheinlicher Beendigungspunkt erhalten ist, der Beendigungspunkt auf einen Ausgangspunkt eingestellt und die Anpassungsverarbeitung durch Benutzung einer Merkmalgrößenreihe ab dem mit dem Ausgangspunkt korrespondierenden Zeitpunkt erneut ausgeführt. In anderen Worten wird die vorläufige Auswahl ausgeführt, wenn Grenzen (Wortgrenzen) zwischen Wörtern, die in einer kontinuierlich geäußerten Sprache enthalten sind, noch nicht endgültig bestimmt sind.
Deshalb wird die vorläufige Auswahl, wenn der Ausgangspunkt und der Beendigungspunkt einer bei der vorläufigen Auswahl benutzten Merkmalgrößenreihe vom Ausgangspunkt und Beendigungspunkt des korrespondierenden Worts verschoben werden, durch Benutzung einer Merkmalgrößenreihe, welche die Merkmalgröße eines Phonems, das in einem unmittelbar vor dem korrespondierenden Wort angeordneten Wort oder einem unmittelbar nach dem korrespondierenden Wort angeordneten Wort enthalten ist, aufweist, oder durch Benutzung einer Merkmalgrößenreihe, in welcher die Merkmalgröße des beginnenden oder letzten Abschnitts des korrespondierenden Worts fehlt, das heißt durch Benutzung einer Merkmalgrößenreihe, die akustisch nicht stabil ist, ausgeführt.
Deshalb kann es bei einer einfache akustische Modelle benutzenden vorläufigen Auswahl geschehen, dass ein in einer Äußerung enthaltenes Wort nicht ausgewählt wird. Wenn bei der vorläufigen Auswahl ein korrektes Wort nicht ausgewählt wird, da für das Wort die Anpassungsverarbeitung nicht ausgeführt wird, wird ein falsches Spracherkennungsresultat erhalten.
Zur Lösung dieses Problems ist für die vorläufige Auswahl ein Verfahren zur Erweiterung einer akustischen oder linguistischen Bestimmungsreferenz, die zum Auswählen eines Worts zur Erhöhung der Anzahl ausgewählter Wörter benutzt wird, und ein Verfahren, bei dem hochpräzise akustische Modelle und eine hochpräzise Grammatikregel benutzt werden, vorgeschlagen worden.
Wenn eine zum Auswählen eines Worts benutzte akustische oder linguistische Bestimmungsreferenz bei der vorläufigen Auswahl erweitert wird, wird jedoch bei vielen Wörtern, die wahrscheinlich nicht Spracherkennungsresultate sind, eine Anpassungsverarbeitung angewendet, und es ist zur Anpassungsverarbeitung eine zunehmende Menge von Ressourcen wie beispielsweise der Berechnungsaufwand und eine Speicherkapazität erforderlich, die eine schwerere Last pro Wort als die vorläufige Auswahl aufweist.
Wenn bei der vorläufigen Auswahl hochpräzise akustische Modelle und eine hochpräzise Grammatikregel benutzt werden, ist für die vorläufige Auswahl eine zunehmende Menge von Ressourcen erforderlich.
In EP-A-0 677 835 ist ein Wortlinienerkennungsverfahren beschrieben, das Wortresultate für jedes Wort in einem Sprachsignal erzeugt, wobei das Wortresultat eine Referenz auf einen Schätz- bzw. Bewertungswert für das Wort, eine Referenz auf das Wort selbst und eine Referenz auf das vorhergehende Wort aufweist. Der Bewertungswert wird dann in Abhängigkeit von einem Sprachmodellwert, der unter Benutzung eines Sprachmodells erzeugt wird, aktualisiert.
Unterschiedliche Aspekte und Merkmale der vorliegenden Erfindung sind in den beigefügten Ansprüchen definiert.
Bei einer Ausführungsform der vorliegenden Erfindung ist ein Spracherkennungsgerät zur Berechnung einer Bewertung, welche die Wahrscheinlichkeit eines Resultats einer auf eine Eingabesprache angewendeten Spracherkennung anzeigt, und zur Erkennung der Sprache entsprechend der Bewertung bereitgestellt, das aufweist: eine Auswähleinrichtung zum Auswählen eines oder mehrerer, auf Wörter, die in einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette erhalten worden sind, folgender Wörter aus einer Gruppe von Wörtern, auf welche die Spracherkennung angewendet wird, eine Bildungseinrichtung zur Berechnung der Bewertungen für die von der Auswähleinrichtung ausgewählten Wörter und zur Bildung einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette entsprechend den Bewertungen, eine Speichereinrichtung zur Speicherung von Wortverbindungsbeziehungen zwischen Wörtern in der als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette, eine Korrektureinrichtung zum Korrigieren von Wortverbindungsbeziehungen und eine Bestimmungseinrichtung zur Bestimmung einer als das Resultat der Spracherkennung dienenden Wortkette entsprechend den korrigierten Wortverbindungsbeziehungen.
Ausführungsformen der vorliegenden Erfindung betreffen Spracherkennungsgeräte, Spracherkennungsverfahren und Aufzeichnungsmedien und insbesondere ein Spracherkennungsgerät, ein Spracherkennungsverfahren und ein Aufzeichnungsmedium, die es ermöglichen, die Präzision der Spracherkennung zu verbessern.
Ausführungsformen der vorliegenden Erfindung sind in Anbetracht der obigen Bedingungen gemacht worden. Ausführungsformen der vorliegenden Erfindung können eine hochpräzise oder wenigstens verbesserte Präzisionsspracherkennung ausführen, wobei eine Zunahme von zur Verarbeitung erforderlichen Ressourcen unterdrückt oder wenigstens reduziert ist.
Die Speichereinrichtung kann die Verbindungsbeziehungen durch Benutzung einer Graphenstruktur, die durch einen Knoten und eine Kante bzw. einen Bogen ausgedrückt ist, speichern.
Die Speichereinrichtung kann Knoten, die als ein einzelner Knoten beteiligt bzw. gemeinschaftlich benutzt werden, speichern.
Die Speichereinrichtung kann die akustische Bewertung und die linguistische Bewertung für jedes Wort und den Ausgangszeitpunkt und den Beendigungszeitpunkt der mit jedem Wort korrespondierenden Äußerung zusammen mit Verbindungsbeziehungen zwischen Wörtern speichern.
Das Spracherkennungsgerät kann so konfiguriert sein, dass die Bildungseinrichtung eine als ein Kandidat für ein Resultat der Spracherkennung dienende Wortkette durch Verbinden der Wörter, für welche die Bewertungen berechnet werden, mit einem Wort, für das eine Bewertung berechnet worden ist, bildet, und die Korrektureinrichtung sequentiell die Verbindungsbeziehungen jedes Mal, wenn durch die Bildungseinrichtung ein Wort verbunden wird, korrigiert.
Die Auswähleinrichtung und/oder die Bildungseinrichtung können/kann eine Verarbeitung ausführen, wobei sie sich auf die Verbindungsbeziehungen beziehen/bezieht.
Die Auswähleinrichtung, die Bildungseinrichtung und/oder die Korrektureinrichtung könne/kann eine akustische oder linguistische Bewertung für ein Wort berechnen und eine Verarbeitung entsprechend der akustischen oder linguistischen Bewertung ausführen.
Die Auswähleinrichtung, die Bildungseinrichtung und/oder die Korrektureinrichtung können/kann eine akustische oder linguistische Bewertung für jedes Wort unabhängig berechnen.
Die Auswähleinrichtung, die Bildungseinrichtung und/oder die Korrektureinrichtung können/kann eine akustische oder linguistische Bewertung hinsichtlich der Zeit für jedes Wort unabhängig berechnen.
Die Korrektureinrichtung kann eine akustische oder linguistische Bewertung für ein Wort durch sich beziehen auf die Verbindungsbeziehungen berechnen, wobei ein Wort berücksichtigt wird, das vor oder nach dem Wort, für das eine Bewertung zu berechnen ist, angeordnet ist.
Bei einer anderen Ausführungsform der vorliegenden Erfindung ist ein Spracherkennungsverfahren zur Berechnung einer Bewertung, welche die Wahrscheinlichkeit eines Resultats einer auf eine Eingabesprache angewendeten Spracherkennung anzeigt, und zur Erkennung der Sprache entsprechend der Bewertung bereitgestellt, das aufweist: einen Auswählschritt zum Auswählen eines oder mehrerer, auf Wörter, die in einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette erhalten worden sind, folgender Wörter aus einer Gruppe von Wörtern, auf welche die Spracherkennung angewendet wird, einen Bildungsschritt zur Berechnung der Bewertungen für die beim Auswählschritt ausgewählten Wörter und zur Bildung einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette entsprechend den Bewertungen, einen Korrekturschritt zum Korrigieren von Wortverbindungsbeziehungen zwischen Wörtern in der als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette, wobei die Wortverbindungsbeziehungen in einer Speichereinrichtung gespeichert werden, und einen Bestimmungsschritt zur Bestimmung einer als das Resultat der Spracherkennung dienenden Wortkette entsprechend den korrigierten Wortverbindungsbeziehungen.
Bei einer anderen Ausführungsform der vorliegenden Erfindung ist ein Aufzeichnungsmedium bereitgestellt, das ein Programm speichert, welches bewirkt, dass ein Computer eine Spracherkennungsverarbeitung zur Berechnung einer die Wahrscheinlichkeit eines Resultats der auf eine Eingabesprache angewendeten Spracherkennung anzeigenden Bewertung und zur Erkennung der Sprache entsprechend der Bewertung ausführt, wobei das Programm aufweist: einen Auswählschritt zum Auswählen eines oder mehrerer, auf Wörter, welche in einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette erhalten worden sind, folgender Wörter aus einer Gruppe von Wörtern, auf welche die Spracherkennung angewendet wird, einen Bildungsschritt zur Berechnung der Bewertungen für die beim Auswählschritt ausgewählten Wörter und zur Bildung einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette entsprechend den Bewertungen, einen Korrekturschritt zum Korrigieren von Wortverbindungsbeziehungen zwischen Wörtern in der als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette, wobei die Wortverbindungsbeziehungen in einer Speichereinrichtung gespeichert werden, und einen Bestimmungsschritt zur Bestimmung einer als das Resultat der Spracherkennung dienenden Wortkette entsprechend den korrigierten Wortverbindungsbeziehungen.
Die Erfindung wird nun beispielhaft anhand der beigefügten Zeichnungen beschrieben, in denen durchwegs gleiche Teile mit gleichen Bezugszeichen bezeichnet sind und in denen:
1 ein Blockdiagramm eines herkömmlichen Spracherkennungsgeräts ist;
2 eine Darstellung ist, die einen Grund zeigt, warum Kandidaten für Grenzen zwischen Wörtern gehalten werden müssen;
3 ein Blockdiagramm eines anderen herkömmlichen Spracherkennungsgeräts ist;
4 ein Blockdiagramm eines Spracherkennungsgeräts gemäß einer Ausführungsform der vorliegenden Erfindung ist;
5 eine Darstellung ist, die eine Wortverbindungsinformation zeigt;
6 ein Flussdiagramm einer von dem in 4 gezeigten Spracherkennungsgerät ausgeführten Verarbeitung ist;
7 eine Darstellung ist, die eine von einem Erneutauswertungsabschnitt 15 ausgeführte Verarbeitung zeigt;
8 ein Blockdiagramm eines Computers gemäß einer anderen Ausführungsform der vorliegenden Erfindung ist.
4 zeigt einen beispielhaften Aufbau eines Spracherkennungsgeräts gemäß einer Ausführungsform der vorliegenden Erfindung. In 4 sind die gleichen Symbole wie die in 1 benutzten den Abschnitten zugeordnet, die mit den in 1 korrespondieren, und ihre Beschreibung ist fortgelassen.
Von einem Merkmalextrahierungsabschnitt 3 ausgegebene Reihen von Merkmalgrößen (feature amounts) der vom Benutzer geäußerten Sprache werden in Einheiten von Rahmen (frames) zu einem Steuerungsabschnitt 11 gesendet. Der Steuerungsabschnitt 11 sendet die vom Merkmalextrahierungsabschnitt 3 gesendeten Merkmalgrößen zu einem Merkmalgrößenspeicherabschnitt 12.
Der Steuerungsabschnitt 11 steuert einen Anpassungsabschnitt 14 und einen Erneutauswertungsabschnitt 15 durch sich beziehen auf Wortverbindungsinformation, die in einem Wortverbindungsinformations-Speicherabschnitt 16 gespeichert ist. Der Steuerungsabschnitt 11 erzeugt auch Wortverbindungsinformation entsprechend akustischen Bewertungen und Sprachebewertungen, die im Anpassungsabschnitt 14 als die Resultate der gleichen Anpassungsverarbeitung wie die in dem in 1 gezeigten Anpassungsabschnitt 4 ausgeführte erhalten werden, und aktualisiert durch diese Wortverbindungsinformation die Speicherinhalte des Wortverbindungsinformations-Speicherabschnitts 16. Der Steuerungsabschnitt 11 korrigiert außerdem die Speicherinhalte des Wortverbindungsinformations-Speicherabschnitts 16 entsprechend der Ausgabe des Erneutauswertungsabschnitts 15. Außerdem bestimmt der Steuerungsabschnitt 11 das endgültige Resultat der Spracherkennung entsprechend der im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherten Wortverbindungsinformation und gibt es aus.
Der Merkmalgrößenspeicherabschnitt 12 speichert vom Speicherabschnitt 11 gesendete Reihen von Merkmalgrößen, bis beispielsweise das Resultat der Spracherkennung des Benutzers erhalten wird. Der Speicherabschnitt 11 sendet einen Zeitpunkt (nachstehend, wenn notwendig, als ein Extraktionszeitpunkt bezeichnet), bei dem eine vom Merkmalextrahierungsabschnitt 3 ausgegebene Merkmalgröße erhalten wird, wobei der Ausgangszeitpunkt einer Sprachzone auf eine Referenz (beispielsweise 0) eingestellt wird, zusammen mit der Merkmalgröße zum Merkmalgrößenspeicherabschnitt 12. Der Merkmalgrößenspeicherabschnitt 12 speichert die Merkmalgröße zusammen mit dem Extrahierungszeitpunkt. Die Merkmalgröße und der Extrahierungszeitpunkt, die im Merkmalgrößenspeicherabschnitt 12 gespeichert sind, können, wenn notwendig, auf einen Vorläufigwortauswählabschnitt 13, den Anpassungsabschnitt 14 und den Erneutauswertungsabschnitt 15 bezogen sein.
In Reaktion auf eine Anforderung vom Anpassungsabschnitt 14 führt der Vorläufigwortauswählabschnitt 13 eine Vorläufigwortauswählverarbeitung zum Auswählen eines oder mehrerer Wörter aus, bei denen der Anpassungsabschnitt 14 eine Anpassungsverarbeitung anwendet, wenn notwendig mit der Benutzung der im Merkmalgrößenspeicherabschnitt 12 gespeicherten Merkmalgröße durch sich beziehen auf den Wortverbindungsinformations-Speicherabschnitt 16, eine Akustikmodelldatenbank 17A, eine Lexikondatenbank 18A und eine Grammatikdatenbank 19A.
Unter der Steuerung des Steuerungsabschnitts 11 wendet der Anpassungsabschnitt 14 bei den durch die Vorläufigwortauswählverarbeitung im Vorläufigwortauswählabschnitt 13 erhaltenen Wörtern eine Anpassungsverarbeitung an, wenn notwendig mit der Benutzung der im Merkmalgrößenspeicherabschnitt 12 gespeicherten Merkmalgrößen durch sich beziehen auf den Wortverbindungsinformations-Speicherabschnitt 16, eine Akustikmodelldatenbank 17B, eine Lexikondatenbank 18B und eine Grammatikdatenbank 19B, und sendet das Resultat der Anpassungsverarbeitung zum Steuerungsabschnitt 11.
Unter der Steuerung des Steuerungsabschnitts 11 wertet der Erneutauswertungsabschnitt 15 die im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherte Wortverbindungsinformation erneut aus, wenn notwendig mit der Benutzung der im Merkmalgrößenspeicherabschnitt 12 gespeicherten Merkmalgrößen durch sich beziehen auf eine Akustikmodelldatenbank 17C, eine Lexikondatenbank 18C und eine Grammatikdatenbank 19C, und sendet das Resultat der erneuten Auswertung zum Steuerungsabschnitt 11.
Der Wortverbindungsinformations-Speicherabschnitt 16 speichert die vom Steuerungsabschnitt 11 gesendete Wortverbindungsinformation, bis das Resultat der Spracherkennung des Benutzers erhalten wird.
Die Wortverbindungsinformation zeigt Verbindungsbeziehungen (oder Verkettungsbeziehungen) zwischen Wörtern an, die als Kandidaten für das endgültige Resultat der Spracherkennung dienende Wortketten bilden, und weist die Akustikbewertung und Sprachebewertung jedes Worts und den Ausgangszeitpunkt und den Beendigungszeitpunkt der mit jedem Wort korrespondierenden Äußerung auf.
5 zeigt die im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherte Wortverbindungsinformation durch Benutzung einer Graphenstruktur.
Bei der in 5 gezeigten Ausführungsform ist die Graphenstruktur, welche die Wortverbindungsinformation anzeigt, aus Wörter anzeigenden Kanten bzw. Bögen (Abschnitte, die in 5 durch Marken 0 verbindende Segmente angedeutet sind) und Grenzen zwischen Wörtern anzeigende Knoten (Teile, die in 5 durch Marken 0 angedeutet sind) gebildet.
Knoten weisen Zeitinformation auf, die den Extrahierungszeitpunkt der mit den Knoten korrespondierenden Merkmalgrößen anzeigt. Wie oben beschrieben zeigt ein Extrahierungszeitpunkt einen Zeitpunkt an, bei dem eine vom Merkmalextrahierungsabschnitt 3 ausgegebene Merkmalgröße erhalten wird, wobei der Ausgangszeitpunkt einer Sprachzone auf null eingestellt wird. Deshalb ist in 5 der Start einer Sprachzone, das heißt die Zeitinformation, die der mit dem Beginn eines ersten Worts korrespondierende Knoten Node₁ (Knoten₁) aufweist, null. Knoten können die Ausgangsenden und die Beendigungsenden von Bögen sein. Die Zeitinformation, die als Ausgangsenden dienende Knoten (Ausgangsendeknoten) aufweisen, oder die Zeitinformation, die als Beendigungsenden dienende Knoten (Beendigungsendeknoten) aufweisen, sind der Ausgangszeitpunkt bzw. der Beendigungszeitpunkt der Äußerungen der mit den Knoten korrespondierenden Wörter.
In 5 verläuft die Zeit in der Richtung von links nach rechts. Deshalb dient zwischen Knoten, die links und rechts eines Bogens angeordnet sind, der linke Knoten als der Ausgangsendeknoten und dient der rechte Knoten als der Beendigungsendenknoten.
Knoten weisen die akustischen Bewertungen und die Sprachebewertungen der mit den Bögen korrespondierenden Wörter auf. Bögen werden durch Einstellen eines Beendigungsknotens auf einen Ausgangsknoten sequentiell verbunden, um eine als ein Kandidat für das Resultat der Spracherkennung dienende Reihe von Wörtern zu bilden.
Insbesondere verbindet der Steuerungsabschnitt 11 die mit wahrscheinlich als die Resultate der Spracherkennung dienenden Wörtern korrespondierenden Bögen zuerst mit dem Knoten Node₁, der den Start einer Sprachzone anzeigt. Bei der in 5 gezeigten Ausführungsform sind ein mit „kyou" korrespondierender Bogen Arc₁, ein mit „ii" korrespondierender Bogen Arc₆ und ein mit „tenki" korrespondierender Bogen Arc₁₁ mit dem Knoten Node₁ verbunden. Es wird entsprechend Akustikbewertungen und Sprachebewertungen, die vom Anpassungsabschnitt 14 erhalten werden, bestimmt, ob Wörter wahrscheinlich als die Resultate der Spracherkennung dienen.
Dann werden in der gleichen Weise die mit wahrscheinlichen Wörtern korrespondierenden Bögen mit einem Knoten Node₂, der als das Beendigungsende des mit „kyou" korrespondierenden Bogens Arc₁ dient, mit einem Beendigungsknoten Node₇, der als das Beendigungsende des mit „ii" korrespondierenden Bogens Arc₆ dient, und mit einem Knoten Node₁₂, der als das Beendigungsende des mit „tenki" korrespondierenden Bogens Arc₁₁ dient, verbunden.
Knoten werden wie oben verbunden, um einen oder mehrere als Bögen und Knoten gebildete Durchgänge in der Richtung von links nach rechts zu bilden, wobei der Start der Sprachzone als ein Ausgangspunkt benutzt wird. Wenn alle Durchgänge das Ende (bei der in 5 gezeigten Ausführungsform der Zeitpunkt T) der Sprachzone erreichen, akkumuliert beispielsweise der Steuerungsabschnitt 11 die Akustikbewertungen und Sprachebewertungen, die Bögen aufweisen, welche jeden vom Start zum Ende der Sprachzone gebildeten Durchgang bilden, um Endbewertungen zu erhalten. Die Reihen von Wörtern, die mit den Bögen korrespondieren, welche den Durchgang bilden, der die höchste Endbewertung aufweist, werden als das Resultat der Spracherkennung bestimmt und ausgegeben.
Insbesondere wird bei 5, wenn die höchste Endbewertung für einen Durchgang erhalten wird, der aus dem Knoten Node₁, dem mit „kyou" korrespondierenden Bogen Arc₁, dem Knoten Node₂, dem mit „wa" korrespondierenden Bogen Arc₂, einem Knoten Node₃, einem mit „ii" korrespondierenden Bogen Arc₃, einem Knoten Node₄, einem mit „tenki" korrespondierenden Bogen Arc₄, einem Knoten Node₅, einem mit „desune" korrespondierenden Bogen Arc₅ und einem Knoten Node₆ gebildet ist, für beispielsweise die Reihe von Wörtern „kyou", „wa", „ii", „tenki" und „desune" als das Resultat der Spracherkennung ausgegeben.
Im obigen Fall sind Bögen immer mit in der Sprachzone angeordneten Knoten verbunden, um einen sich vom Start zum Ende der Sprachzone erstreckenden Durchgang zu bilden. Während eines Prozesses zur Bildung eines solchen Durchgangs ist es möglich, dass, wenn es aus einer Bewertung für einen Durchgang, der so weit gemacht worden ist, klar ist, dass der Durchgang als das Resultat der Spracherkennung nicht geeignet ist, die Bildung des Durchgangs gestoppt wird (ein Bogen wird nicht mehr verbunden).
Entsprechend der obigen Durchgangsbildungsregel dient das Beendigungsende eines einzelnen Bogens als die Ausgangsendeknoten eines oder mehrerer als nächstes zu verbindender Bögen, und Durchgänge werden grundsätzlich als ausgebreitete Zweige und Blätter gebildet. Es gibt einen Ausnahmefall, bei dem das Beendigungsende eines einzelnen Bogens zum Beendigungsende eines anderen Bogens passt, das heißt der Beendigungsendeknoten eines Bogens und das Beendigungsende eines anderen Bogens werden als identischer Knoten beteiligt bzw. gemeinsam benutzt.
Wenn als Grammatikregel Bigram benutzt wird, passen, wenn zwei sich von unterschiedlichen Knoten erstreckende Bögen mit einem identischen Wort korrespondieren und der gleiche Beendigungszeitpunkt der Äußerung des Wortes benutzt wird, die Beendigungsenden der zwei Bögen zusammen.
In 5 korrespondieren ein sich von einem als ein Ausgangsende benutzten Knoten Node₇ erstreckender Bogen Arc₇ und ein sich von einem als ein Ausgangspunkt benutzten Knoten Node₁₃ erstreckender Bogen Arc₁₃ beide mit „tenki", und wenn der gleiche Beendigungszeitpunkt der Äußerung benutzt wird, werden seine Beendigungsknoten als ein identischer Knoten Node₈ gemeinsam benutzt bzw. beteiligt.
Es ist auch möglich, dass Knoten immer nicht gemeinsam benutzt werden. Vom Standpunkt der effizienten Benutzung einer Speicherkapazität wird vorgezogen, dass zwei Beendigungsknoten übereinstimmen können. Bei 5 ist Bigram als eine Grammatikregel benutzt. Auch wenn andere Regeln wie beispielsweise (trigram) benutzt werden, ist es möglich, Knoten gemeinsam zu benutzen.
Der Vorläufigwortauswählabschnitt 13, der Anpassungsabschnitt 14 und der Erneutauswertungsabschnitt 15 können sich, wenn notwendig, auf die im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherte Wortverbindungsinformation beziehen.
Nach 4 wiederum speichern die Akustikmodelldatenbanken 17A, 17B und 17C grundsätzlich akustische Modelle wie beispielsweise die vorher beschriebenen, in der in 1 gezeigten Akustikmodelldatenbank 5 gespeicherten.
Die Akustikmodelldatenbank 17B speichert hochpräzise akustische Modelle, bei denen eine präzisere Verarbeitung angewendet werden kann, als die bei den in der Akustikmodelldatenbank 17A gespeicherten akustischen Modellen angewendeten. Die Akustikmodelldatenbank 17C speichert hochpräzise akustische Modelle, bei denen eine präzisere Verarbeitung angewendet werden kann, als die bei den in der Akustikmodelldatenbank 17B gespeicherten akustischen Modellen angewendeten. Insbesondere speichert, wenn die Akustikmodelldatenbank 17A beispielsweise akustische Einzelmustermodelle speichert, die nicht vom Kontext für jedes Phonem und jede Silbe abhängen, die Akustikmodelldatenbank 17B beispielsweise akustische Modelle, die von dem sich über Wörter erstreckenden Kontext abhängen, das heißt Kreuzwortmodelle sowie akustische Modelle, die nicht vom Kontext für jedes Phonem und jede Silbe abhängen. In diesem Fall speichert die Akustikmodelldatenbank 17C beispielsweise akustische Modelle, die vom Kontext innerhalb von Wörtern abhängen, zusätzlich zu akustischen Modellen, die nicht vom Kontext abhängen, und Kreuzwortmodelle.
Die Lexikondatenbanken 18A, 18B und 18C speichern grundsätzlich ein Wortlexikon wie beispielsweise das in der in der oben beschriebenen 1 gezeigten Lexikondatenbank 6 gespeicherte.
Insbesondere wird in den Wortlexika der Lexikondatenbanken 18A bis 18C die gleiche Menge von Wörtern gespeichert. Das Wortlexikon der Lexikondatenbank 18B speichert hochpräzise Phoneminformation, bei der eine präzisere Verarbeitung angewendet werden kann, als die bei der im Wortlexikon der Lexikondatenbank 18A gespeicherten Phoneminformation angewendete. Das Wortlexikon der Lexikondatenbank 18C speichert hochpräzise Phoneminformation, bei der eine präzisere Verarbeitung angewendet werden kann, als die bei der im Wortlexikon der Lexikondatenbank 18B gespeicherten Phoneminformation angewendete. Insbesondere wenn beispielsweise für jedes Wort im Wortlexikon der Lexikondatenbank 18A nur ein einzelnes Stück von Phoneminformation (Lesen) gespeichert ist, werden mehrere Stücke von Phoneminformation für jedes Wort im Wortlexikon der Lexikondatenbank 18B gespeichert. In diesem Fall werden beispielsweise mehrere Stücke von Phoneminformation für jedes Wort im Wortlexikon der Lexikondatenbank 18C gespeichert.
Konkret wird beispielsweise für das Wort „ohayou" ein einzelnes Stück von Phoneminformation, „ohayou", im Wortlexikon der Lexikondatenbank 18A gespeichert, werden „ohayou" und „ohayo" sowie „ohayou" als Phoneminformation im Wortlexikon der Lexikondatenbank 18B gespeichert und werden „hayou" und „hayoo" zusätzlich zu „ohayou", „ohayoo" und „ohayo" werden als Phoneminformation im Wortlexikon der Lexikondatenbank 18C gespeichert.
Die Grammatikdatenbanken 19A, 19B und 19C speichern grundsätzlich eine Grammatikregel wie beispielsweise die in der oben beschriebenen 1 gezeigten Grammatikdatenbank 7 gespeicherte.
Die Grammatikdatenbank 19B speichert eine hochpräzise Grammatikregel, bei der eine präzisere Verarbeitung angewendet werden kann, als die bei der in der Grammatikdatenbank 19A gespeicherten Grammatikregel angewendete. Die Grammatikdatenbank 19C speichert eine hochpräzise Grammatikregel, bei der eine präzisere Verarbeitung angewendet werden kann, als die bei der in der Grammatikdatenbank 19B gespeicherten Grammatikregel angewendete. Insbesondere wenn die Grammatikdatenbank 19A beispielsweise eine auf Unigram (unigram) basierende Grammatikregel (auftreten von Wahrscheinlichkeiten von Wörtern) speichert, speichert die Grammatikdatenbank 19B beispielsweise Bigram (auftreten von Wahrscheinlichkeiten von Wörtern, wobei eine Beziehung zu unmittelbar davor angeordneten Wörtern berücksichtigt wird). In diesem Fall speichert die Grammatikdatenbank 19C beispielsweise eine auf Trigram (auftreten von Wahrscheinlichkeiten von Wörtern, wobei Beziehungen zu Wörtern, die unmittelbar davor angeordnet sind und Wörtern, die ein oder mehrere Wörter davor angeordnet sind, berücksichtigt werden) basierende Grammatikregel und eine kontextfreie Grammatik.
Wie oben beschrieben speichert die Akustikmodelldatenbank 17A akustische Einzelmustermodelle für jedes Phonem und jede Silbe, speichert die Akustikmodelldatenbank 17B akustische Mehrmustermodelle für jedes Phonem und jede Silbe und speichert die Akustikmodelldatenbank 17C akustische Mehrmustermodelle für jedes Phonem und jede Silbe. Die Lexikondatenbank 18A speichert für jedes Wort ein einzelnes Stück von Phoneminformation, die Lexikondatenbank 18B speichert für jedes Wort mehrere Stücke von Phoneminformation und die Lexikondatenbank 18C speichert für jedes Wort mehr Stücke von Phoneminformation. Die Grammatikdatenbank 19A speichert eine einfache Grammatikregel, die Grammatikdatenbank 19B speichert eine hochpräzise Grammatikregel und die Grammatikdatenbank 19C speichert eine höherpräzise Grammatikregel.
Der sich auf die Akustikmodelldatenbank 17A, die Lexikondatenbank 18A und die Grammatikdatenbank 19A beziehende Vorläufigwortauswählabschnitt 13 erhält Akustikbewertungen und Sprachebewertungen für viele Wörter schnell, wenngleich die Präzision nicht hoch ist. Der sich auf die Akustikmodelldatenbank 17B, die Lexikondatenbank 18B und die Grammatikdatenbank 19B beziehende Anpassungsabschnitt 14 erhält Akustikbewertungen und Sprachebewertungen für eine gewisse Anzahl von Wörtern schnell mit hoher Präzision. Der sich auf die Akustikmodelldatenbank 17C, die Lexikondatenbank 18C und die Grammatikdatenbank 19C beziehende Erneutauswertungsabschnitt 15 erhält Akustikbewertungen und Sprachebewertungen für wenige Wörter schnell mit hoher Präzision.
Die Präzisionen der in den Akustikmodelldatenbanken 17A bis 17C gespeicherten akustischen Modelle sind bei der obigen Beschreibung unterschiedlich. Die Akustikmodelldatenbanken 17A bis 17C können die gleichen akustischen Modelle speichern. In diesem Fall können die Akustikmodelldatenbanken 17A bis 17C in einer einzelnen Akustikmodelldatenbank integriert sein. In der gleichen Weise können die Wortlexika der Lexikondatenbanken 18A bis 18C die gleichen Inhalte speichern, und die Grammatikdatenbanken 19A bis 19C können die gleiche Grammatikregel speichern. Als nächstes wird die in dem in 4 gezeigten Spracherkennungsgerät ausgeführte Spracherkennungsverarbeitung anhand eines in 6 gezeigten Flussdiagramms beschrieben.
Wenn sich der Benutzer äußert, wird die geäußerte Sprache durch ein Mikrofon 1 und einen RD-Umsetzungsabschnitt 2 in digitale Sprachdaten umgesetzt und zum Merkmalextrahierungsabschnitt 3 gesendet. Der Merkmalextrahierungsabschnitt 3 extrahiert sequentiell eine Sprachmerkmalgröße aus den gesendeten Sprachdaten in Einheiten von Rahmen und sendet sie zum Steuerungsabschnitt 11.
Der Steuerungsabschnitt 11 erkennt durch eine gewisse Technik eine Sprachzone, bezieht eine Reihe von vom Merkmalextrahierungsabschnitt 3 gesendeten Merkmalgrößen auf den Extrahierungszeitpunkt jeder Merkmalgröße in der Sprachzone, sendet sie zum Merkmalgrößenspeicherabschnitt 12 und speichert sie in ihm.
Nachdem die Sprachzone startet erzeugt der Steuerungsabschnitt 11 auch einen Knoten (nachstehend, wenn notwendig, als Anfangsknoten bezeichnet), der den Start der Sprachzone anzeigt, und sendet ihn zum Wortverbindungsinformations-Speicherabschnitt 16 und speichert ihn beim Schritt S1. In anderen Worten speichert der Steuerungsabschnitt 11 beim Schritt S1 den in 5 gezeigten Knoten Node₁ im Wortverbindungsinformations-Speicherabschnitt 16.
Die Verarbeitung geht zum Schritt S2 weiter. Der Steuerungsabschnitt 11 bestimmt, ob ein Zwischenknoten existiert, indem er sich auf die im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherte Wortverbindungsinformation bezieht.
Wie oben beschrieben werden bei der in 5 gezeigten Wortverbindungsinformation Bögen mit Beendigungsendeknoten verbunden, um einen Durchgang zu bilden, der sich vom Start der Sprachzone zum Ende erstreckt. Beim Schritt S2 wird unter den Beendigungsendeknoten nach einem Knoten, mit dem ein Bogen noch nicht verbunden worden ist und der das Ende der Sprachzone nicht erreicht, als ein Zwischenknoten (wie beispielsweise die Knoten Node₈, Node₁₀ und Node₁₁ in 5) gesucht, und es wird bestimmt, ob ein solcher Zwischenknoten existiert.
Wie oben beschrieben wird die Sprachzone durch eine gewisse Technik erkannt, und der mit einem Beendigungsendeknoten korrespondierende Zeitpunkt wird durch sich Beziehen auf die Zeitinformation, die der Beendigungsendeknoten aufweist, erkannt. Deshalb wird, ob ein Beendigungsendeknoten, mit dem ein Bogen noch nicht verbunden worden ist, das Ende der Sprachzone noch nicht erreicht hat, durch Vergleichen des Endezeitpunkts der Sprachzone mit der Zeitinformation, die der Beendigungsendeknoten aufweist, bestimmt.
Wenn beim Schritt S2 bestimmt wird, dass ein Zwischenknoten existiert, geht die Verarbeitung zum Schritt S3 weiter. Der Steuerungsabschnitt 11 wählt von den in der Wortverbindungsinformation enthaltenen Zwischenknoten einen einzelnen Knoten als einen Knoten (nachstehend, wenn notwendig, als Angezieltknoten bezeichnet) zur Bestimmung eines Worts aus, das als ein mit dem Knoten zu verbindender Bogen dient.
Wenn insbesondere nur ein einzelner Zwischenknoten in der Wortverbindungsinformation enthalten ist, wählt der Steuerungsabschnitt 11 den Zwischenknoten als einen Angezieltknoten aus. Wenn mehrere Zwischenknoten in der Wortverbindungsinformation enthalten sind, wählt der Steuerungsabschnitt 11 einen der mehreren Zwischenknoten als einen Angezieltknoten aus. Insbesondere bezieht sich der Steuerungsabschnitt 11 auf die Zeitinformation, die jeder der mehreren Zwischenknoten aufweist, und wählt den Knoten, der die den ältesten (dem Start der Sprachzone nächstliegenden) Zeitpunkt anzeigende Zeitinformation aufweist, oder den Knoten, der die den neuesten (dem Ende der Sprachzone nächstliegenden) Zeitpunkt anzeigende Zeitinformation aufweist, als einen Angezieltknoten aus. Alternativ dazu akkumuliert der Steuerungsabschnitt 11 beispielsweise die Akustikbewertungen und die Sprachebewertungen, welche die einen sich vom Anfangsknoten zu jedem der mehreren Zwischenknoten sich erstreckenden Bögen aufweisen, und wählt den am Beendigungsende des Durchgangs angeordneten Zwischenknoten aus, der den größten oder den kleinsten von akkumulierten Werten (nachstehend, wenn notwendig, als partiell akkumulierte Werte bezeichnet) aufweist.
Dann gibt der Steuerungsabschnitt 11 eine Instruktion (nachstehend, wenn notwendig, als Anpassungsverarbeitungsinformation bezeichnet) zur Ausführung einer Anpassungsverarbeitung mit der Zeitinformation, die der Angezieltknoten als eine Ausgangszeit benutzt hat, an den Anpassungsabschnitt 14 und den Erneutauswertungsabschnitt 15 aus.
Wenn der Erneutauswertungsabschnitt 15 die Anpassungsverarbeitungsinstruktion vom Steuerungsabschnitt 11 empfängt, geht die Verarbeitung zum Schritt S4 weiter. Der Erneutauswertungsabschnitt 15 erkennt die Wortkette (nachstehend als partielle Wortkette bezeichnet), die von den Bögen, welche den sich vom Anfangsknoten zum Angezieltknoten erstreckenden Durchgang (nachstehend als partieller Durchgang bezeichnet) bilden, angezeigt wird, durch sich beziehen auf den Wortverbindungsinformations-Speicherabschnitt 16, um die partielle Wortkette erneut auszuwerten. Die partielle Wortkette ist, wie später beschrieben, ein als ein Kandidat für das Resultat der Spracherkennung dienendes Zwischenresultat einer Wortkette, das durch die Anpassungsverarbeitung erhalten wird, die der Anpassungsabschnitt 14 bei vom Vorläufigwortauswählabschnitt 13 vorläufig ausgewählten Wörtern anwendet. Der Erneutauswertungsabschnitt 15 wertet das Zwischenresultat wieder aus.
Insbesondere liest der Erneutauswertungsabschnitt 15 die mit der partiellen Wortkette korrespondierende Reihe von Merkmalgrößen aus dem Merkmalgrößenspeicherabschnitt 12, um eine Sprachebewertung und eine Akustikbewertung für die partielle Wortkette erneut zu berechnen. Insbesondere liest der Erneutauswertungsabschnitt 15 beispielsweise die Reihe von Merkmalgrößen (Merkmalgrößenreihe) bezüglich der Periode ab dem von der Zeitinformation, die der Anfangsknoten, der beginnenden Knoten des partiellen Durchgangs, aufweist, angezeigten Zeitpunkt zu dem von der Zeitinformation, die den Angezieltknoten aufweist, anzeigten Zeitpunkt aus dem Merkmalgrößenspeicherabschnitt 12. Außerdem berechnet der Erneutauswertungsabschnitt 15 eine Sprachebewertung und eine Akustikbewertung für die partielle Wortkette durch sich beziehen auf die Akustikmodelldatenbank 17C, die Lexikondatenbank 18C und die Grammatikdatenbank 19C mit der Benutzung der vom Merkmalgrößenspeicherabschnitt 12 gelesenen Merkmalgrößenreihe erneut. Diese erneute Berechnung wird ohne Fixierung der Wortgrenzen der die partielle Wortkette bildenden Wörter ausgeführt. Deshalb bestimmt der Erneutauswertungsabschnitt 15 die Wortgrenzen der die partielle Wortkette bildenden Wörter entsprechend dem dynamischen Programmierungsverfahren durch erneute Berechnung einer Sprachebewertung und einer Akustikbewertung für die partielle Wortkette.
Wenn der Erneutauswertungsabschnitt 15 die Sprachebewertung, die Akustikbewertung und die Wortgrenzen jedes Worts der partiellen Wortkette erhält, benutzt der Erneutauswertungsabschnitt 15 die neuen Sprachebewertungen und Akustikbewertungen zum Korrigieren der Sprachebewertungen und der Akustikbewertungen, welche die Bögen aufweisen, die den mit der partiellen Wortkette korrespondierenden, im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherten partiellen Durchgang bilden, und benutzt auch die neuen Wortgrenzen zum Korrigieren der Zeitinformation, welche die Knoten aufweisen, die den mit der partiellen Wortkette korrespondierenden, im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherten partiellen Durchgang bilden. Bei der vorliegenden Ausführungsform korrigiert der Erneutauswertungsabschnitt 15 die Wortverbindungsinformation durch den Steuerungsabschnitt 11.
Wenn der in 7 gezeigte Knoten Node₅ auf einen Angezieltknoten eingestellt ist, erzeugt, wenn beispielsweise in dem sich vom Anfangsknoten Node₁ zum Angezieltknoten Node₅ erstreckenden partiellen Durchgang eine aus dem Knoten Node₃, dem mit dem Wort „ii" korrespondierenden Bogen Arc₃, dem Knoten Node₄, dem mit dem Wort „tenki" korrespondierenden Bogen Arc₄ und dem Knoten Node₅ gebildete Wortkette „ii" und „tenki" geprüft wird, der Erneutauswertungsabschnitt 15 Wortmodelle für die Wörter „ii" und „tenki" und berechnet durch sich beziehen auf die Akustikmodelldatenbank 17C und die Lexikondatenbank 18C Akustikbewertungen mit der Benutzung der Merkmalgrößenreihe von dem mit dem Knoten Node₃ korrespondierenden Zeitpunkt zu dem mit dem Knoten Node_S korrespondierenden Zeitpunkt. Der Erneutauswertungsabschnitt 15 berechnet auch Sprachebewertungen für die Wörter „ii" und „tenki" durch sich beziehen auf die Grammatikdatenbank 19C. Insbesondere wenn die Grammatikdatenbank 19C eine Grammatikregel aus beispielsweise Trigramm speichert, benutzt der Erneutauswertungsabschnitt 15 für das Wort „ii" das unmittelbar davor angeordnete Wort „wa" und das ein oder mehrere Wörter davor angeordnete Wort „kyou" zum Berechnen der Wahrscheinlichkeit der Wortkette „kyou", „wa" und „ii" in dieser Ordnung und berechnet eine Sprachebewertung entsprechend der erhaltenen Wahrscheinlichkeit. Der Erneutauswertungsabschnitt 15 benutzt für das Wort „tenki" das unmittelbar davor angeordnete Wort „ii" und das ein oder mehrere Wörter davor angeordnete Wort „wa" zum Berechnen der Wahrscheinlichkeit der Wortkette „wa", „ii" und „tenki" in dieser Ordnung und berechnet eine Sprachebewertung entsprechend der erhaltenen Wahrscheinlichkeit.
Der Erneutauswertungsabschnitt 15 akkumuliert wie oben beschrieben erhaltene Akustikbewertungen und Sprachebewertungen und bestimmt die Wortgrenze zwischen den Wörtern „ii" und „tenki", um den größten akkumulierten Wert zu erhalten. Der Erneutauswertungsabschnitt 15 benutzt die erhaltenen Akustikbewertungen und Sprachebewertungen zum Korrigieren der Akustikbewertungen, die der mit dem Wort „ii" korrespondierende Bogen Arc₃ aufweist und der mit dem Wort „tenki" korrespondierende Bogen Arc₄ aufweist, und benutzt die bestimmte Wortgrenze zum Korrigieren der Zeitinformation, die der mit der Wortgrenze zwischen den Wörtern „ii" und „tenki" korrespondierende Knoten Node₄ aufweist.
Deshalb bestimmt der Erneutauswertungsabschnitt 15 die Wortgrenzen der die partiellen Wortkette bildenden Wörter durch das dynamische Programmierungsverfahren und korrigiert sequentiell die im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherte Wortverbindungsinformation.
Da der Vorläufigwortauswählabschnitt 13 und der Anpassungsabschnitt 14 eine Verarbeitung durch sich beziehen auf die korrigierte Wortverbindungsinformation ausführen, werden die Präzision und Zuverlässigkeit der Verarbeitung verbessert.
Zusätzlich kann, da der Erneutauswertungsabschnitt 15 in der Wortverbindungsinformation enthaltene Wortgrenzen korrigiert, die Anzahl von in der Wortverbindungsinformation gespeicherten Wortgrenzekandidaten stark reduziert werden, um einen effizienten Gebrauch von der Speicherkapazität zu machen.
In anderen Worten müssen herkömmlicherweise wie vorher bezüglich der 2 beschrieben drei Zeitpunkte t_i-1, t₁ und t_i+1 als Wortgrenzekandidaten zwischen den Wörtern „kyou" und „wa" gehalten werden. Wenn der Zeitpunkt t₁, der die korrekte Wortgrenze ist, fälschlicherweise nicht gehalten wird, wird die Anpassungsverarbeitung danach ungünstig beeinflusst. Wenn im Gegensatz dazu der Erneutauswertungsabschnitt 15 Wortgrenzen sequentiell korrigiert, ändert der Erneutauswertungsabschnitt 15, selbst wenn beispielsweise nur der Zeitpunkt t_i-1, der eine falsche Wortgrenze ist, gehalten wird, den Zeitpunkt t_i-1, der eine falsche Wortgrenze ist, in den Zeitpunkt t₁, der die korrekte Wortgrenze ist. Deshalb wird die Anpassungsverarbeitung danach nicht ungünstig beeinflusst.
Der Erneutauswertungsabschnitt 15 benutzt Kreuzwortmodelle, bei denen Wörter vor und nach einem Zielwort berücksichtigt werden, für die partielle Wortkette bildenden Wörter mit Ausnahme des ersten Worts und des Endewort zum Berechnen von Akustikbewertungen. Vor und nach einem Zielwort angeordnete Wörter können bei der Berechnung von Sprachebewertungen auch berücksichtigt werden. Deshalb ist eine hochpräzise Verarbeitung möglich gemacht. Da außerdem der Erneutauswertungsabschnitt die Verarbeitung sequentiell ausführt, tritt keine große Verzögerung auf, die bei der oben beschriebenen Zweidurchgangsdecodierung auftritt.
Wenn der Erneutauswertungsabschnitt 15 die im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherte Wortverbindungsinformation wie oben beschrieben korrigiert hat, berichtet der Erneutauswertungsabschnitt 15 die Vollendung der Korrektur dem Anpassungsabschnitt 14 durch den Steuerungsabschnitt 11.
Wie oben beschrieben sendet der Anpassungsabschnitt 14 nachdem er die Anpassungsverarbeitungsinstruktion vom Steuerungsabschnitt 11 empfängt, wenn dem Anpassungsabschnitt 14 vom Erneutauswertungsabschnitt 15 durch den Steuerungsabschnitt 11 berichtet wird, dass die Wortverbindungsinformation korrigiert worden ist, den Angezieltknoten und die Zeitinformation, die der Angezieltknoten aufweist, dem Vorläufigwortauswählabschnitt 13 und fordert die Anwendung der Vorläufigwortauswählverarbeitung an, und die Verarbeitung geht zum Schritt S5 weiter.
Beim Schritt S5 wendet der Vorläufigwortauswählabschnitt 13, wenn er die Anforderung zur Vorläufigwortauswählverarbeitung vom Anpassungsabschnitt 14 empfängt, die Vorläufigwortauswählverarbeitung auf die im Wortlexikon der Lexikondatenbank 18A gespeicherten Wörter zum Auswählen eines als ein mit dem Angezieltknoten zu verbindenden Bogen dienenden Wortkandidaten an.
Insbesondere erkennt der Vorläufigwortauswählabschnitt 13 den Ausgangszeitpunkt einer Reihe von zur Berechnung einer Sprachebewertung und einer Akustikbewertung benutzten Merkmalgrößen aus der Zeitinformation, die der Angezieltknoten aufweist, und liest die erforderliche Reihe von Merkmalgrößen, die beim Ausgangszeitpunkt startet, aus dem Merkmalgrößenspeicherabschnitt 12. Der Vorläufigwortauswählabschnitt 13 erzeugt auch für jedes im Wortlexikon der Lexikondatenbank 18A gespeicherte Wort ein Wortmodell durch Verbinden von in der Akustikmodelldatenbank 17A gespeicherten akustischen Modellen und berechnet eine Akustikbewertung entsprechend dem Wortmodell durch die Benutzung der aus dem Merkmalgrößenspeicherabschnitt 12 gelesenen Reihe von Merkmalgrößen.
Der Vorläufigwortauswählabschnitt 13 berechnet die Sprachebewertung des mit jedem Wortmodell korrespondierenden Worts entsprechend der in der Grammatikdatenbank 19A gespeicherten Grammatikregel. Insbesondere erhält der Vorläufigwortauswählabschnitt 13 die Sprachebewertung jedes Worts entsprechend beispielsweise Unigram.
Es ist möglich, dass der Vorläufigwortauswählabschnitt 13 Kreuzwortmodelle benutzt, die von Wörtern (Wörter, die mit Bogen korrespondieren, die den Angezieltknoten als Beendigungsende aufweisen) abhängen, die unmittelbar vor Zielwörtern angeordnet sind, um die Akustikbewertung jedes Worts durch sich beziehen auf die Wortverbindungsinformation zu berechnen.
Es ist auch möglich, dass der Vorläufigwortauswählabschnitt 13 die Sprachebewertung jedes Worts entsprechend Bigram berechnet, das die Wahrscheinlichkeit der Verkettung des Zielworts und eines davor angeordneten Worts durch sich beziehen auf die Wortverbindungsinformation spezifiziert.
Wenn der Vorläufigwortauswählabschnitt 13 die Akustikbewertung und Sprachebewertung wie oben beschrieben erhält, erhält der Vorläufigwortauswählabschnitt 13 eine Bewertung (nachstehend, wenn notwendig, als Wortbewertung bezeichnet), die eine Gesamtauswertung der Akustikbewertung und Sprachebewertung ist, und sendet L Wörter, die höhere Wortbewertungen aufweisen, als Wörter, bei denen die Anpassungsverarbeitung anzuwenden ist, zum Anpassungsabschnitt 14.
Der Vorläufigwortauswählabschnitt 13 wählt ein Wort entsprechend der Wortbewertung, die eine totale Auswertung der Akustikbewertung und der Sprachebewertung jedes Worts ist, aus. Es ist auch möglich, dass der Vorläufigwortauswählabschnitt 13 Wörter entsprechend beispielsweise nur Akustikbewertungen oder nur Sprachebewertungen auswählt.
Es ist auch möglich, dass der Vorläufigwortauswählabschnitt 13 nur den beginnenden Abschnitt der aus dem Merkmalgrößenspeicherabschnitt 12 gelesenen Reihe von Merkmalgrößen benutzt, um mehrere Phoneme für den beginnenden Abschnitt des korrespondierenden Worts entsprechend den in der Akustikmodelldatenbank 17A gespeicherten Akustikmodellen zu erhalten, und Wörter aus wählt, in denen ihre beginnenden Abschnitte zu den erhaltenen Phonemen passen.
Es ist außerdem möglich, dass der Vorläufigwortauswählabschnitt 13 den Teil der Sprache des Worts (Wort, das mit dem Bogen korrespondiert, der den Angezieltknoten als Beendigungsendeknoten aufweist), das unmittelbar vor dem Zielwort angeordnet ist, durch sich beziehen auf die Wortverbindungsinformation erkennt und Wörter auswählt, die als ein Teil der Sprache dienen, der auf den erkannten Teil der Sprache wahrscheinlich folgt.
Der Vorläufigwortauswählabschnitt 13 kann jedes Wortauswählverfahren benutzen. Letztendlich können Wörter zufällig ausgewählt werden.
Wenn der Anpassungsabschnitt 14 die L Wörter (nachstehend als ausgewählte Wörter bezeichnet), die bei der Anpassungsverarbeitung benutzt werden, vom Vorläufigwortauswählabschnitt 13 empfängt, wendet der Anpassungsabschnitt 14 beim Schritt S6 die Anpassungsverarbeitung auf die ausgewählten Wörter an.
Insbesondere erkennt der Anpassungsabschnitt 14 den Startzeitpunkt einer Reihe von Merkmalgrößen, die zur Berechnung einer Sprachebewertung und einer Akustikbewertung benutzt werden, aus der Zeitinformation, die der Angezieltknoten aufweist, und liest die erforderliche Reihe von Merkmalgrößen, die beim Ausgangszeitpunkt startet, aus dem Merkmalgrößenspeicherabschnitt 12. Der Anpassungsabschnitt 14 erkennt die Phoneminformation der vom Vorläufigwortauswählabschnitt 13 gesendeten ausgewählten Wörter durch sich beziehen auf die Lexikondatenbank 18B, liest die mit der Phoneminformation korrespondierenden akustischen Modelle aus der Akustikmodelldatenbank 17B und verbindet die akustischen Modelle, um Wortmodelle zu bilden.
Der Anpassungsabschnitt 14 berechnet die Akustikbewertungen der vom Vorläufigwortauswählabschnitt 13 gesendeten ausgewählten Wörter durch die Benutzung der aus dem Merkmalgrößenspeicherabschnitt 12 gelesenen Merkmalgrößenreihen entsprechend den wie oben beschrieben gebildeten Wortmodellen. Es ist möglich, dass der Anpassungsabschnitt 14 die Akustikbewertungen der ausgewählten Wörter durch sich beziehen auf die Wortverbindungsinformation entsprechend Kreuzwortmodellen berechnet.
Der Anpassungsabschnitt 14 berechnet auch die Sprachebewertungen der vom Vorläufigwortauswählabschnitt 13 gesendeten ausgewählten Wörter durch sich beziehen auf die Grammatikdatenbank 19B. Insbesondere bezieht sich der Anpassungsabschnitt 14 beispielsweise auf die Wortverbindungsinformation, um Wörter, die unmittelbar vor den vom Vorläufigwortauswählabschnitt 13 gesendeten ausgewählten Wörtern angeordnet sind, und Wörter, die ein oder mehrere Wörter davor angeordnet sind, zu erkennen, und erhält die Sprachebewertungen der vom Vorläufigwortauswählabschnitt 13 gesendeten ausgewählten Wörter durch die Benutzung von Wahrscheinlichkeiten auf Basis von Bigram oder Trigram.
Der Anpassungsabschnitt 14 erhält, wie oben beschrieben, die Akustikbewertungen und Sprachebewertungen aller L ausgewählten Wörter, die vom Vorläufigwortauswählabschnitt 13 gesendet werden, und die Verarbeitung geht zum Schritt S7 weiter. Beim Schritt S7 wird für jedes ausgewählte Wort eine Wortbewertung, die eine totale Auswertung der Akustikbewertung und der Sprachebewertung des Worts ist, erhalten, und die im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherte Wortverbindungsinformation wird entsprechend den erhaltenen Wortbewertungen aktualisiert.
In anderen Worten erhält beim Schritt S7 der Anpassungsabschnitt 14 die Wortbewertungen der ausgewählten Wörter und vergleicht beispielsweise die Wortbewertungen mit einer vorbestimmten Schwelle, um die ausgewählten Wörter auf Wörter einzuengen, die als ein mit dem Angezieltknoten zu verbindender Bogen dienen können. Dann sendet der Anpassungsabschnitt 14 die durch Einengen erhaltenen Wörter zusammen mit ihren Akustikbewertungen, ihren Sprachebewertungen und ihren Beendigungszeitpunkten zum Steuerungsabschnitt 11.
Der Anpassungsabschnitt 14 erkennt den Beendigungszeitpunkt jedes Worts aus dem Extrahierungszeitpunkt der zur Berechnung der Akustikbewertung benutzten Merkmalgröße. Wenn mehrere Extrahierungszeitpunkte, die sehr wahrscheinlich als der Beendigungszeitpunkt eines Worts dienen, erhalten werden, werden Sätze aus jedem Beendigungszeitpunkt, der korrespondierenden Akustikbewertung und der korrespondierenden Sprachebewertung des Worts zum Steuerungsabschnitt 11 gesendet.
Wenn der Steuerungsabschnitt 11 die Akustikbewertung, Sprachebewertung und den Beendigungszeitpunkt jedes Worts wie oben beschrieben vom Anpassungsabschnitt 14 empfängt, benutzt der Steuerungsabschnitt den Angezieltknoten in der im Wortverbindungsinformations-Speicherabschnitt 16 gespeicherten Wortverbindungsinformation (5) als einen Ausgangsendeknoten, erweitert einen Bogen und verbindet den Bogen mit dem Beendigungsendezeitpunkt korrespondierenden Beendigungsendeknoten für jedes Wort. Der Steuerungsabschnitt 11 ordnet jedem Bogen das korrespondierende Wort, die korrespondierende Akustikbewertung und die korrespondierende Sprachebewertung zu und gibt den korrespondierenden Beendigungszeitpunkt als Zeitinformation an den Beendigungsendeknoten jedes Bogens. Dann kehrt die Verarbeitung zum Schritt 52 zurück, und die Prozesse werden wiederholt.
Wie oben beschrieben wird die Wortverbindungsinformation entsprechend den Resultaten der im Anpassungsabschnitt 14 ausgeführten Verarbeitung sequentiell aktualisiert und weiter durch den Erneutauswertungsabschnitt 15 sequentiell aktualisiert. Deshalb ist es möglich gemacht, dass der Vorläufigwortauswählabschnitt 13 und der Anpassungsabschnitt 14 die Wortverbindungsinformation für ihre Verarbeitung immer benutzen.
Der Steuerungsabschnitt 11 integriert, wenn möglich, wenn er die Wortverbindungsinformation integriert, wie oben beschrieben zwei Beendigungsendeknoten in einen.
Wenn beim Schritt S2 bestimmt wird, dass es keinen Zwischenknoten gibt, geht die Verarbeitung zum Schritt S8 weiter. Der Steuerungsabschnitt 11 bezieht sich, um die Endbewertung zu erhalten, auf die Wortverbindungsinformation, um für jeden in der Wortverbindungsinformation gebildeten Durchgang Wortbewertungen zu akkumulieren, gibt beispielsweise die Wortkette, die mit den Bögen, die den die höchste endgültige Bewertung aufweisenden Durchgang bilden, korrespondiert, als das Resultat der Spracherkennung für die Äußerung des Benutzers aus und beendet die Verarbeitung.
Wie oben beschrieben wählt der Vorläufigwortauswählabschnitt 13 ein oder mehrere Wörter, die auf Wörter folgen, welche in einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette erhalten worden sind, aus, berechnet der Anpassungsabschnitt 14 Bewertungen für die ausgewählten Wörter und bildet eine als ein Kandidat für ein Resultat der Spracherkennung dienende Wortkette entsprechend den Bewertungen, korrigiert der Erneutauswertungsabschnitt 15 Wortverbindungsbeziehungen zwischen Wörtern in der als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette und bestimmt der Steuerungsabschnitt 11 eine als das Resultat der Spracherkennung dienende Wortkette entsprechend den korrigierten Wortverbindungsbeziehungen. Deshalb wird eine hochpräzise Spracherkennung ausgeführt, wobei eine Zunahme von zur Verarbeitung erforderlichen Ressourcen unterdrückt wird.
Da der Erneutauswertungsabschnitt 15 Wortgrenzen in der Wortverbindungsinformation korrigiert, zeigt die Zeitinformation, die der Angezieltknoten aufweist, eine Wortgrenze hochpräzise an. Der Vorläufigwortauswählabschnitt 13 und der Anpassungsabschnitt 14 führen ab dem durch die hochpräzise Zeitinformation angezeigten Zeitpunkt eine Verarbeitung durch Benutzung einer Reihe von Merkmalgrößen aus. Deshalb ist, selbst wenn eine Bestimmungsreferenz zum Auswählen von Wörtern im Vorläufigwortauswählabschnitt 13 und eine Bestimmungsreferenz zum Einengen der ausgewählten Wörter im Anpassungsabschnitt 14 strikt gemacht werden, eine Wahrscheinlichkeit für das Ausschließen eines als ein Resultat der Spracherkennung dienenden korrekten Worts sehr niedrig gemacht.
Wenn die Bestimmungsreferenz zum Auswählen von Wörtern im Vorläufigwortauswählabschnitt 13 strikt gemacht ist, wird die Anzahl von Wörtern, bei denen der Anpassungsabschnitt 14 eine Anpassungsverarbeitung ausübt, reduziert. Als ein Resultat werden auch der Berechnungsaufwand und die Speicherkapazität, die zur Verarbeitung im Anpassungsabschnitt 14 erforderlich sind, reduziert.
Wenn der Vorläufigwortauswählabschnitt 13 ein ab einem gewissen Zeitpunkt beginnendes Wort, das eines der Wörter ist, welche die als das korrekte Resultat der Spracherkennung dienende Wortkette bilden, zu diesem Zeitpunkt nicht auswählt, korrigiert der Erneutauswertungsabschnitt 15, wenn das Wort zu einem falschen Zeitpunkt, der vom gewissen Zeitpunkt verschoben ist, ausgewählt wird, den falschen Zeitpunkt, und es wird die als das korrekte Resultat der Spracherkennung dienende Wortkette erhalten. In anderen Worten wird, selbst wenn der Vorläufigwortauswählabschnitt 13 verfehlt, ein Wort auszuwählen, das eines der Wörter ist, welche die als das korrekte Resultat der Spracherkennung dienende Wortkette bilden, korrigiert der Erneutauswertungsabschnitt 15 das Versagen der Auswahl, um die als das korrekte Resultat der Spracherkennung dienende Wortkette zu erhalten.
Deshalb korrigiert der Erneutauswertungsabschnitt 15 eine vom Vorläufigwortauswählabschnitt 13 ausgeführte falsche Wortauswahl zusätzlich zu einer falschen Detektion eines vom Anpassungsabschnitts 14 ausgeführten Endzeitpunkts.
Die oben beschriebene Verarbeitungsreihe kann durch Hardware oder Software implementiert werden. Wenn die Verarbeitungsreihe durch Software erhalten wird, wird ein die Software bildendes Programm in einem Universalcomputer oder dgl. installiert.
8 zeigt einen beispielhaften Aufbau eines Computers, in welchem ein Programm zur Ausführung der oben beschriebenen Verarbeitungsreihe installiert ist, entsprechend einer Ausführungsform.
Das Programm kann im Voraus in einer Festplatte 105 oder einem Nurlesespeicher (ROM) 103, die oder der als ein in den Computer eingebautes Speichermedium dient, aufgezeichnet sein.
Alternativ dazu ist das Programm zeitweilig oder dauerhaft in einem entfernbaren Aufzeichnungsmedium 111 wie beispielsweise einer Diskette, einem Compaktdisk-Nurlesespeicher (CD-ROM), einer magnetooptischen Platte (MO-Platte), einer digitalen mehrseitigen Platte (DVD (digital versatile disk)), einer Magnetplatte oder einem Halbleiterspeicher aufgezeichnet. Ein solches entfernbares Aufzeichnungsmedium 111 kann als sogenannte Paketsoftware (package Software) bereitgestellt sein.
Das Programm kann vom oben beschriebenen entfernbaren Aufzeichnungsmedium 111 auf dem Computer installiert werden. Alternativ dazu wird das Programm durch einen künstlichen Satelliten für digitalen Satellitenrundfunk von einer Herunterladestelle durch Funk zum Computer übertragen oder mittels Kabel durch ein Netzwerk wie beispielsweise ein LAN (local area network (lokales Netz)) oder das Internet zum Computer übertragen, wird von einem Kommunikationsabschnitt 108 des Computers empfangen und wird auf der in den Computer eingebauten Festplatte 105 installiert.
Der Computer weist eine zentrale Verarbeitungseinheit (CPU (central processing unit)) 102 auf. Die CPU 102 ist durch einen Bus 101 mit einer Eingangs- und Ausgangsschnittstelle 110 verbunden. Wenn der Benutzer einen aus einer Tastatur, einer Maus und einem Mikrofon gebildeten Eingabeabschnitt 107 zur Eingabe eines Befehls durch die Eingangs- und Ausgangsschnittstelle 110 betätigt, führt die CPU 102 entsprechend dem Befehl ein im ROM 103 gespeichertes Programm aus. Alternativ dazu lädt die CPU 102 in einen Speicher mit wahlfreiem Zugriff (RAM (random access memory)) 104 ein auf der Festplatte 105 gespeichertes Programm, ein durch einen Satelliten oder ein Netzwerk übertragenes Programm, das vom Kommunikationsabschnitt 108 empfangen wird und in der Festplatte 105 installiert wird, oder ein von dem auf einem Laufwerk 109 befestigten entfernbaren Aufzeichnungsmedium 111 gelesenes und in der Festplatte 105 installiertes Programm und führt es aus. Die CPU führt die im obigen Flussdiagramm dargestellte Verarbeitung oder eine von dem im obigen Blockdiagramm gezeigten Aufbau ausgeführte Verarbeitung aus. Dann gibt die CPU 102 das Verarbeitungsresultat wie erforderlich beispielsweise durch die Eingangs- und Ausgangsschnittstelle 110 von einem aus einer Flüssigkristallanzeige (LCD (liquid crystal display)) und einem Lautsprecher gebildeten Ausgabeabschnitt 106 aus, überträgt das Verarbeitungsresultat vom Kommunikationsabschnitt 108 oder zeichnet das Verarbeitungsresultat auf der Festplatte 105 auf.
In der vorliegenden Beschreibung werden die Schritte, die das Programm zum Bewirken, dass der Computer verschiedene Typen von Verarbeitung ausführt, beschreiben, nicht notwendig in einer zeitsequentiellen Weise in der im Flussdiagramm beschriebenen Ordnung ausgeführt, sondern umfassen auch eine Verarbeitung (beispielsweise eine parallele Verarbeitung oder objektbasierte Verarbeitung) auf, die parallel oder separat ausgeführt wird.
Das Programm kann durch einen einzelnen Computer ausgeführt werden oder kann von mehreren Computern verteilt verarbeitet werden. Das Programm kann auch zu einem fernen Computer übertragen und ausgeführt werden.
Da Wörter, für die der Anpassungsabschnitt 14 Bewertungen berechnet, vom Vorläufigwortauswählabschnitt 13 im Voraus ausgewählt worden sind, kann der Anpassungsabschnitt 14 für jedes Wort Bewertungen unabhängig ohne Bildung eines Baumstrukturnetzwerks berechnen, bei dem, wie oben beschrieben, ein Teil der Akustikbewertungsberechnung gemeinsam benutzt wird. In diesem Fall wird die vom Anpassungsabschnitt 14 zum Berechnen von Bewertungen für jedes Wort benutzte Kapazität eines Speichers auf ein niedriges Niveau gedrückt. Außerdem wird in diesem Fall, da jedes Wort identifiziert werden kann, wenn eine Bewertungsberechnung für das Wort gestartet wird, eine nicht rentable Berechnung, die andernfalls ausgeführt wird, da das Wort nicht identifiziert ist, verhindert. In anderen Worten wird, bevor eine akustische Bewertung für ein Wort berechnet wird, eine Sprachebewertung berechnet und entsprechend der Sprachebewertung ein Zweigschneiden ausgeführt, so dass eine nicht rentable Akustikbewertungsberechnung verhindert wird.
Der Vorläufigwortauswählabschnitt 13, der Anpassungsabschnitt 14 und der Erneutauswertungsabschnitt 15 können Bewertungen für jedes Wort hinsichtlich der Zeit unabhängig berechnen. In diesem Fall kann der für die Bewertungsberechnung erforderliche gleiche Speicher gemeinsam benutzt werden, um die erforderliche Speicherkapazität auf ein niedriges Niveau zu drücken.
Das in 4 gezeigte Spracherkennungsgerät kann bei interaktiven Sprachsystemen angewendet werden, die in einem Fall, bei dem eine Datenbank durch Sprache gesucht wird, in einem Fall, bei dem verschiedene Typen von Einheiten durch Sprache betätigt werden, und in einem Fall, bei dem Daten in jede Einheit durch Sprache eingegeben werden, benutzt werden. Insbesondere kann beispielsweise das Spracherkennungsgerät bei einem Datenbanksuchgerät zur Anzeige einer Abbildungsinformation in Reaktion auf eine Frage nach dem Namen eines Platzes durch Sprache, einem industriellen Roboter zur Klassifizierung von Materialien in Reaktion auf eine Instruktion durch Sprache, einem Diktiersystem zur Erzeugung von Texten in Reaktion auf eine Spracheingabe anstelle einer Tastatureingabe und einem interaktives System in einem Roboter zum Sprechen mit einem Benutzer angewendet werden.
Gemäß einem Spracherkennungsgerät und einem Spracherkennungsverfahren und einem Aufzeichnungsmedium der vorliegenden Erfindung werden ein oder mehrere Wörter aus einer Gruppe von Wörtern, bei denen Spracherkennung angewendet wird, ausgewählt, um als Wörter zu dienen, die auf Wörter folgen, welche in einer als ein Kandidat für ein Resultat der Spracherkennung dienenden Wortkette erhalten worden sind, werden Bewertungen für die ausgewählten Wörter berechnet und wird eine als ein Kandidat für ein Resultat der Spracherkennung dienende Wortkette gebildet. Verbindungsbeziehungen zwischen Wörtern in der als Kandidat für ein Resultat der Spracherkennung dienenden Wortkette werden korrigiert, und eine als das Resultat der Spracherkennung dienende Wortkette wird entsprechend den korrigierten Verbindungsbeziehungen bestimmt. Deshalb wird eine hochpräzise Spracherkennung implementiert, während eine Zunahme von für die Verarbeitung erforderlichen Ressourcen unterdrückt wird.
Soweit die oben beschriebenen Ausführungsformen der Erfindung wenigstens zum Teil unter Benutzung eines softwaregesteuerten Verarbeitungsgeräts implementiert werden, ist zu erkennen, dass ein eine solche Software bereitstellendes Computerprogramm und ein Speichermedium, mit dem ein solches Computerprogramm gespeichert wird, als Aspekte der vorliegenden Erfindung anzusehen sind.
Kombinationen von Merkmalen aus den abhängigen Ansprüchen können mit Merkmalen der unabhängigen Ansprüche geeignet und nicht nur wie in den Ansprüchen explizit dargelegt kombiniert werden.

Claims

Spracherkennungsgerät für eine Eingabesprache, aufweisend: eine Auswähleinrichtung (13) zum Auswählen eines oder mehrerer Wörter aus einer Gruppe von Wörtern, auf welche die Spracherkennung angewendet wird, wobei das oder die mehreren ausgewählten Wörter, die auf Wörter folgen, die vorher erhalten worden sind, in einer Kandidatenwortkette als ein Kandidat für ein Resultat der Spracherkennung dienen, eine Bildungseinrichtung (14) zur Berechnung akustischer und linguistischer Bewertungen für die von der Auswähleinrichtung ausgewählten Wörter und zur Bildung der Kandidatenwort kette entsprechend den Bewertungen durch Verbinden der Wörter, für welche die Bewertungen berechnet werden, mit einem Wort, für das vorher eine Bewertung berechnet worden ist, eine Speichereinrichtung (16) zur Speicherung einer Wortverbindungsinformation, die Wortverbindungsbeziehungen wischen Wörtern in der Kandidatenwort kette, die akustische Bewertung und die linguistische Bewertung jedes Wortes und die Startzeit und die Beendigungszeit einer Äußerung in der mit jedem Wort korrespondierenden Eingabesprache, eine Korrektureinrichtung (15) zum sequentiellen Korrigieren der Wortverbindungsinformation jedes Mal, wenn durch die Bildungseinrichtung ein Wort mit der Kandidatenwort kette verbunden wird, und eine Bestimmungseinrichtung (11) zur Bestimmung einer als das Resultat der Spracherkennung dienenden Resultatwortkette entsprechend den akustischen und linguistischen Bewertungen der korrigierten Wortverbindungsinformation.
Spracherkennungsgerät nach Anspruch 1, wobei die Speichereinrichtung (16) die Wortverbindungsinformation unter Benutzung einer Graphenstruktur, die durch Knoten und eine oder mehrere, die Knoten verbindenden Bogen ausgedrückt ist, speichert.
Spracherkennungsgerät nach Anspruch 2, wobei die Speichereinrichtung (16) Knoten speichert, die als ein einzelner Knoten beteiligt werden können.
Spracherkennungsgerät nach Anspruch 1, wobei eine von der Auswähleinrichtung (13) und der Bildungseinrichtung (14) eine Verarbeitung ausführt, während sie sich auf die Wortverbindungsinformation bezieht.
Spracherkennungsgerät nach Anspruch 1, wobei eine von der Auswähleinrichtung (13), der Bildungseinrichtung (14) und der Korrektureinrichtung (15) eine akustische oder linguistische Bewertung für ein Wort berechnet und entsprechend der akustischen oder linguistischen Bewertung eine Verarbeitung ausführt.
Spracherkennungsgerät nach Anspruch 5, wobei eine von der Auswähleinrichtung (13), der Bildungseinrichtung (14) und der Korrektureinrichtung (15) eine akustische oder linguistische Bewertung für jedes Wort unabhängig berechnet.
Spracherkennungsgerät nach Anspruch 5, wobei eine von der Auswähleinrichtung (13), der Bildungseinrichtung (14) und der Korrektureinrichtung (15) eine akustische oder linguistische Bewertung für jedes Wort in Form von Zeit unabhängig berechnet.
Spracherkennungsgerät nach Anspruch 5, wobei die Korrektureinrichtung (15) eine akustische oder linguistische Bewertung für ein Wort durch sich Beziehen auf die Verbindungsbeziehungen, wobei ein Wort, das vor oder nach dem Wort, für das eine Bewertung zu berechnen ist, angeordnet ist, berücksichtigt wird.
Spracherkennungsgerät zur Erkennung einer Eingabesprache, aufweisend: einen Auswählschritt zum Auswählen eines oder mehrerer Wörter aus einer Gruppe von Wörtern, auf welche die Spracherkennung angewendet wird, wobei das oder die mehreren ausgewählten Wörter, die auf Wörter folgen, die vorher erhalten worden sind, in einer Kandidatenwort kette als ein Kandidat für ein Resultat der Spracherkennung dienen, einen Bildungsschritt zur Berechnung von akustischen und linguistischen Bewertungen für die im Auswählschritt ausgewählten Wörter und Bilden der Kandidatenwortkette entsprechend den Bewertungen durch Verbinden der Wörter, für die Bewertungen berechnet werden, mit einem Wort, für das vorher eine Bewertung berechnet worden ist, einen Korrekturschritt zum sequentiellen Korrigieren einer Wortverbindungsinformation jedes Mal, wenn durch den Bildungsschritt ein Wort verbunden wird, wobei die Wortverbindungsinformation Wortverbindungsbeziehungen zwischen Wörtern in der Kandidatenwortkette, die akustische Bewertung und die linguistische Bewertung jedes Wortes und die Startzeit und Beendigungszeit einer Äußerung in der mit jedem Wort korrespondierenden Eingabesprache aufweist, wobei die Wortverbindungsinformation in der Speichereinrichtung gespeichert ist, und einen Bestimmungsschritt zur Bestimmung einer als das Resultat der Spracherkennung dienenden Resultatwortkette entsprechend den akustischen und linguistischen Bewertungen der korrigierten Wortverbindungsinformation.
Aufzeichnungsmedium, das ein Programm speichert, welches einen Computer veranlasst, eine Spracherkennungsverarbeitung zur Erkennung einer Eingabesprache auszuführen, wobei das Programm aufweist: einen Auswählschritt zum Auswählen eines oder mehrer Wörter aus einer Gruppe von Wörtern, auf welche die Spracherkennung angewendet wird, wobei das oder die mehreren ausgewählten Wörter, die auf Wörter folgen, die vorher erhalten worden sind, in einer Kandidatenwortkette als ein Kandidat für ein Resultat der Spracherkennung dienen, einen Bildungsschritt zur Berechnung akustischer und linguistischer Bewertungen für die beim Auswählschritt ausgewählten Wörter und zur Bildung der Kandidatenwortkette entsprechend den Bewertungen durch Verbinden der Wörter, für welche die Bewertungen berechnet werden, mit einem Wort, für das eine Bewertung vorher berechnet worden ist, einen Korrekturschritt zum sequentiellen Korrigieren einer Wortverbindungsinformation jedes Mal, wenn durch den Bildungsschritt ein Wort verbunden wird, wobei die Wortverbindungsinformation Wortverbindungsbeziehungen zwischen Wörtern in der Kandidatenwortkette, die akustische Bewertung und die linguistische Bewertung jedes Wortes und die Startzeit und Beendigungszeit einer Äußerung in der mit jedem Wort korrespondierenden Eingabesprache aufweist, wobei die Wortverbindungsinformation in der Speichereinrichtung gespeichert ist, und einen Bestimmungsschritt zur Bestimmung einer als das Resultat der Spracherkennung dienenden Resultatwortkette entsprechend den akustischen und linguistischen Bewertungen der korrigierten Wortverbindungsinformation.