DE69834366T2

DE69834366T2 - Vorrichtung zum Sortieren potentieller Spracherkennungsergebnisse in optimierter Ordnung, die durch einen linguistischen Sprachprozessor erhalten werden

Info

Publication number: DE69834366T2
Application number: DE69834366T
Authority: DE
Inventors: NEC Corporation Kiyokazu Minato-ku Miki
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-08-08
Filing date: 1998-08-10
Publication date: 2007-04-19
Anticipated expiration: 2018-08-11
Also published as: US6088672A; EP0896320B1; DE69834366D1; JPH1152980A; EP0896320A2; EP0896320A3; JP3050180B2

Description

Hintergrund der Erfindung:
Die vorliegende Erfindung bezieht sich auf ein Sprachabschnitt-Erkennungssystem und insbesondere auf ein Sprachabschnitt-Erkennungssystem, das aus mehreren voraussichtlichen Sprachabschnitt-Erkennungsergebnissen in Bezug auf mehr als zwei Sprachabschnitte als Ganzes eine optimierte Folge von Erkennungsergebnissen auswählt.
Herkömmlich wird ein Beispiel eines Sprachabschnitt-Erkennungssystems betrachtet, das aus voraussichtlichen Erkennungsergebnissen, die pro jeden Sprachabschnitt für jedes Wort erhalten werden, automatisch eine Folge von durch ein Sprachmodell optimierten Erkennungsergebnissen auswählt und anzeigt.
Andererseits ist in der japanischen ungeprüften Patentveröffentlichung Nr. 328580/1996 ein weiteres Beispiel eines Sprachabschnitt-Erkennungssystems offenbart. In dem darin offenbarten Beispiel werden die durch aufeinander folgende Sprachabschnitte erhaltenen voraussichtlichen Erkennungsergebnisse durch die Verwendung einer dynamischen Programmierung von einer Seite einer Sprachverarbeitung unterworfen, so dass automatisch eine optimierte Folge von Erkennungsergebnissen ausgewählt wird. Selbst wenn ein bestimmtes Wort falsch ist, wird ein voraussichtliches Erkennungsergebnis für das falsche Wort z. B. durch eine Operation eines Anwenders gelöscht und durch die Verwendung einer dynamischen Programmierung von der einen Seite erneut einer Sprachverarbeitung unterworfen, um eine nächste optimierte Folge von Erkennungsergebnissen auszuwählen.
Wenn die in der oben erwähnten Abhandlung Nr. 328580/1996 offenbarte Technik auf voraussichtliche Erkennungsergebnisse angewendet wird, die durch Sprachabschnitte diskreter Wörter erhalten werden, können in Bezug auf einen bestimmten Sprachabschnitt nicht nur die besten voraussichtlichen Erkennungsergebnisse, sondern auch die darauf folgenden erhalten werden.
Allerdings muss die oben erwähnte Sprachverarbeitung, die eine dynamische Programmierung verwendet, n-mal wiederholt werden, um die höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen bestimmten Sprachabschnitt anzuzeigen. Somit sind unvermeidlich eine große Anzahl von Be rechnungen erforderlich.
Kuhn u. a.: "DP-based wordgraph pruning", 1996 IEEE ICASSP, Atlanta, GA, USA, 7–10 M, S. 861–864, Bd. 2, New York, NY (USA), offenbart eine Technik zum Erzeugen von Wortgraphen in einem kontinuierlichen Sprachabschnitt-Erkennungssystem. Die Hauptidee ist, in der ersten Phase einen riesigen Wortgraphen zu erzeugen, der in der zweiten Phase durch die Verwendung von Wissen einer höheren Ebene wie etwa n-gramm-Sprachmodellen reduziert wird. In der ersten Phase wird der Wortgraph als ein Nebenprodukt einer angesteuerten Vorwärtssuche erzeugt. Das Lexikon wird als ein Baum realisiert. Für die Wortgrapherzeugung wird ein asynchrones Verfahren verwendet. Falls der letzte Zustand des Wortes erreicht ist, wird in einem bestimmten Gebiet ein neuer Lexikonbaum initialisiert. Dieser Lexikonbaum wird durch den am besten bewerteten Pfad initialisiert, der in diesem Zeitrahmen endet. Die erzeugten Wortgraphen sollten groß genug sein, damit alle geäußerten Wörter als Worthypothesen enthalten sind. In der ersten Phase werden die Informationen eines Sprachmodells nur verwendet, um die m am besten bewerteten Worthypothesen zu bestimmen. m ist eine vorgegebene Konstante, die in der ersten Phase die Größe eines Wortgraphen einstellt.
In der zweiten Phase wird der so genannte "Jumbo-große Wortgraph" erheblich reduziert, so dass die folgende linguistische Analyse den kleineren Wortgraphen innerhalb einer sinnvollen Zeit übergeben kann. Die zweite Phase beruht auf einer dynamischen Programmierprozedur. Für jede Kante g_j in dem Wortgraphen G wird durch einen Vorwärts- und durch einen Rückwärtspfad die Bewertung des besten Pfades berechnet, der durch diese Kante geht.
Zusammenfassung der Erfindung:
Es ist eine Aufgabe der vorliegenden Erfindung, ein Sprachabschnitt-Erkennungssystem zu schaffen, das voraussichtliche Erkennungsergebnisse, die für einen bestimmten Sprachabschnitt erhalten werden, durch einmalige Sprachverarbeitung in optimierter Reihenfolge sortieren kann.
Weitere Aufgaben der vorliegenden Erfindung werden klar, während die Beschreibung fortschreitet.
Bei der Beschreibung des Hauptpunkts der vorliegenden Erfindung ist leicht verständlich, dass ein Sprachabschnitt-Erkennungssystem in Bezug auf wenigstens zwei eingehende Sprachabschnitte mehrere voraussichtliche Erkennungsergebnisse sucht und unter den jeweiligen mehreren voraussichtlichen Erkennungsergebnissen jedes voraussichtliche Erkennungsergebnis in Bezug auf die zwei eingehenden Sprachabschnitte auswählt, so dass als Ganzes eine optimierte Folge von Erkennungsergebnissen erhalten wird.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Sprachabschnitt-Erkennungssystem geschaffen, wie es in Anspruch 1 definiert ist. Die abhängigen Ansprüche definieren Ausführungsformen der Erfindung.
Um eine optimierte Folge von Erkennungsergebnissen zu erhalten, kann die Sprachverarbeitung an allen Sprachabschnitten in dem Gitter ausgeführt werden.
Das Sprachabschnitt-Erkennungssystem kann eine Folge von Erkennungsergebnissen bezüglich des bestimmten Sprachabschnitts, in der voraussichtliche Erkennungsergebnisse in optimierter Reihenfolge sortiert sind, und bezüglich der anderen Sprachabschnitte, die dem bestimmten Sprachabschnitt folgen, anzeigen, um keine Zeit nach dem bestimmten Sprachabschnitt zu verlieren, so dass das Sprachabschnitt-Erkennungssystem die voraussichtlichen Erkennungsergebnisse in dem Fall, in dem die Erkennungsergebnisse durch die dem bestimmten Sprachabschnitt folgenden anderen Sprachabschnitte erneuert werden, neu schreiben kann.
Kurzbeschreibung der Zeichnung:
1 ist ein Ablaufplan, der Operationen des automatischen Auswählens der höheren n voraussichtlichen Erkennungsergebnisse im Rang zeigt, die in Bezug auf einen bestimmten Sprachabschnitt (den i-ten Sprachabschnitt) in dem herkömmlichen Sprachabschnitt-Erkennungssystem erhalten werden;
2 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
3 ist eine Ansicht, die ein Beispiel einer Gitterstruktur zeigt, die in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung verwendet wird;
4 ist eine Ansicht, die ein Beispiel einer Auswahl der höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen bestimmten Sprachabschnitt erläutert;
5 ist eine Ansicht, die eine Tabelle der kumulativen Bewertung und der akustischen Bewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
6 ist eine Ansicht, die eine Tabelle der Sprachbewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
7 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt; und
8 ist eine Ansicht, die ein Beispiel einer Gitterstruktur zeigt, die in dem Sprachabschnitt-Erkennungssystem gemäß der zweiten Ausführungsform der vorliegenden Erfindung verwendet wird.
Beschreibung der bevorzugten Ausführungsformen:
Um ein Verständnis der vorliegenden Erfindung zu erleichtern, wird zunächst anhand von 1 eine Beschreibung eines herkömmlichen Sprachabschnitt-Erkennungssystems gegeben, das in der oben erwähnten japanischen ungeprüften Patentveröffentlichung Nr. 328580/1996 offenbart ist.
1 ist ein Ablaufplan, der Operationen des automatischen Auswählens der höheren n voraussichtlichen Erkennungsergebnisse im Rang zeigt, die in Bezug auf einen bestimmten Sprachabschnitt (den i-ten Sprachabschnitt) in dem herkömmlichen Sprachabschnitt-Erkennungssystem erhalten werden.
Ein eingehender Sprachabschnitt wird in mehrere voraussichtliche Sprachabschnitt-Erkennungsergebnisse umgewandelt und als die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in einem Erkennungsergebnis-Halteabschnitt gespeichert. In dem Erkennungsergebnis-Halteabschnitt werden die höheren n vor aussichtlichen Erkennungsergebnisse im Rang in Bezug auf den i-ten Sprachabschnitt angezeigt, indem die folgenden Operationen n-mal wiederholt werden. Das heißt, alle gespeicherten voraussichtlichen Erkennungsergebnisse werden durch die Verwendung einer dynamischen Programmierung von einer Seite zu der anderen Seite, z. B. von einer linken Seite zu einer rechten Seite, einer Sprachverarbeitung unterworfen, um einen optimierten Pfad zu suchen (Schritt 1101). Innerhalb der voraussichtlichen Erkennungsergebnisse in Bezug auf den i-ten Sprachabschnitt wird ein voraussichtliches Erkennungsergebnis, das in dem optimierten Pfad enthalten ist, angezeigt und aus den voraussichtlichen Erkennungsergebnissen gelöscht (Schritt 1102). Um die höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf den i-ten Sprachabschnitt zu zeigen, werden die in den Schritten 1101 und 1102 gezeigten Operationen wiederholt. Dementsprechend können alle voraussichtlichen Erkennungsergebnisse wie oben erwähnt sortiert werden, sofern n die Anzahl der voraussichtlichen Sprachabschnitt-Erkennungsergebnisse ist.
Allerdings muss die oben erwähnte Sprachverarbeitung, die die dynamische Programmierung verwendet, n-mal wiederholt werden, um die höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen bestimmten Sprachabschnitt anzuzeigen. Somit sind unvermeidlich eine große Anzahl von Berechnungen erforderlich.
Anhand der 2 bis 6 fährt die Beschreibung nun mit einem Sprachabschnitt-Erkennungssystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung fort.
2 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt.
Wie in 2 veranschaulicht ist, wird ein pro Wort erzeugter eingehender Sprachabschnitt durch eine akustische Verarbeitungseinheit 101 analysiert. Der durch die akustische Verarbeitungseinheit 101 analysierte eingehende Sprachabschnitt wird durch eine Sprachabschnitt-Erkennungseinheit 102 mit jedem Standardmuster des Wortes verglichen, das in einer Standardmuster-Speichereinheit 103 gespeichert ist. Dadurch wird die akustische Wahrscheinlichkeit zwischen dem eingehenden Sprachabschnitt und jedem der Standardmuster bestimmt. Der eingehende Sprachabschnitt wird wie oben erwähnt analysiert und durch die akustische Verar beitungseinheit 101 in eine Folge von Parametervektoren geändert. Die akustische Verarbeitungseinheit 101 ist aus einer Filterbank, aus einer Fourier-Transformationseinrichtung, aus einem Analysator linearer prädiktiver Faktoren und dergleichen aufgebaut. Die in der Standardmuster-Speichereinheit 103 gespeicherten Standardmuster sind als eine Folge von Parametervektoren ausgedrückt. Durch die Sprachabschnitt-Erkennungseinheit 102 werden unter allen in der Standardmuster-Speichereinheit 103 gespeicherten Standardmustern mehrere Standardmuster mit einer großen akustischen Wahrscheinlichkeit mit dem analysierten eingehenden Sprachabschnitt als voraussichtliche Erkennungsergebnisse ausgewählt. Durch eine Erkennungsergebnis-Halteeinheit 104 wird eine vorgegebene Menge der voraussichtlichen Erkennungsergebnisse in der Reihenfolge von dem zuvor erzeugten Erkennungsergebnis gemerkt und gespeichert. Wenn die Anzahl der Sprachabschnitte die vorgegebene Menge übersteigt, wird ein Teil der voraussichtlichen Erkennungsergebnisse von einem älteren davon in der Erkennungsergebnis-Halteeinheit 104 gelöscht. Durch eine Kontextspeichereinheit 107 wird eine kumulative Bewertung gespeichert, die in Bezug auf einen vorhergehenden Sprachabschnitt durch eine Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung in einer vorhergehenden Richtung in einer Sprachverarbeitungseinheit 106 und durch voraussichtliche Erkennungsergebnisse in Bezug auf den vorhergehenden Sprachabschnitt erhalten wird. Der durch die Kontextspeichereinheit 107 gespeicherte Inhalt wird durch die Sprachverarbeitungseinheit 106 erneuert. Durch eine Gitterkonstruktionseinheit 105 wird anhand der von der Erkennungsergebnis-Halteeinheit 104 gelieferten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse und anhand der bis dahin von der Kontextspeichereinheit 107 gelieferten Ergebnisse der Sprachverarbeitung ein Gitter konstruiert. Bei dem linken Endabschnitt besitzt das Gitter voraussichtliche Sprachabschnitt-Erkennungsergebnisse in Bezug auf einen Sprachabschnitt, der von der Kontextspeichereinheit 107 unmittelbar zuvor bis dahin geliefert worden ist. Außerdem besitzt das Gitter bei einem auf der rechten Seite des linken Endabschnitts positionierten Abschnitt voraussichtliche Sprachabschnitt-Erkennungsergebnisse, die von der Erkennungsergebnis-Halteeinheit 104 geliefert werden. Die Sprachverarbeitungseinheit 106 wendet auf das von der Gitterkonstruktionseinheit 105 gelieferte Gitter ein Sprachmodell an, um die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in Bezug auf einen bestimmten Sprachabschnitt in optimierter Reihenfolge zu sortieren.
Anhand der 3 bis 6 wird eine Beschreibung hinsichtlich der Struktur des Gitters gegeben, das durch das in 2 veranschaulichte Sprachabschnitt-Erkennungssystem geliefert wird.
3 ist eine Ansicht, die ein Beispiel eines Gitters zeigt, das in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung verwendet wird. 4 ist eine Ansicht zur Erläuterung eines Beispiels einer Auswahl der höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen vorgegebenen Sprachabschnitt von k = 2. 5 ist eine Ansicht, die eine Tabelle einer kumulativen Bewertung und einer akustischen Bewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt. 6 ist eine Ansicht, die eine Tabelle der Sprachbewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt.
Anhand der 4 bis 6 wird hier konkret eine Beschreibung eines Beispiels gegeben, in dem die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in Bezug auf einen bestimmten Sprachabschnitt durch die Sprachverarbeitungseinheit 106 in optimierter Reihenfolge sortiert werden. In dem veranschaulichten Beispiel sind die Sprachabschnitte
(Genzai/Okinawa/de/hirakarete/iru), während der jüngste Sprachabschnitt
(iru) ist. In dem Beispiel wird das Wortbigramm als ein Sprachmodell verwendet. In dem Gitter wird ein voraussichtliches Sprachabschnitt-Erkennungsergebnis, das sich bei dem linken Endabschnitt befindet, als "w.1" ausgedrückt, während voraussichtliche Sprachabschnitt-Erkennungsergebnisse, die in Bezug auf einen bestimmten Sprachabschnitt zu sortieren sind, als "w.2" ausgedrückt werden und ein voraussichtliches Sprachabschnitt-Erkennungsergebnis, das sich bei dem rechten Endabschnitt befindet, durch "w.k + 2" ausgedrückt wird.
In 4 ist ein Beispiel für k = 2 veranschaulicht. In der Sprachverarbeitungseinheit 106 wird in Bezug auf jedes "w.2" eine Lösung der folgenden Gleichung (1) bestimmt.
wobei G(w.1) eine kumulative Bewertung einer Spalte am linken Ende des Gitters ist, I(w.1, w.2) eine Sprachbewertung ist, die durch das Wortbigramm-Modell entschieden wird (eine Bewertung, die proportional zu einer bedingten Wahrscheinlichkeit entschieden wird, dass neben einem Wort "w.1" ein Wort "w.2" erzeugt wird), a(w.i) eine akustische Wahrscheinlichkeit eines Wortes "w.i" ist und w eine Konstante ist. Die Lösung der obigen Gleichung (1) kann effizient durch Anwenden dynamischer Programmierung von dem linken Ende in einer Vorwärtsrichtung (zukünftigen Richtung) (d. h. in einer Richtung nach rechts in dem Blatt aus 4, wie sie in 4 durch einen großen Pfeil 200 gezeigt ist) bestimmt werden.
Andererseits wird in Bezug auf jedes "w.2" durch Anwenden dynamischer Programmierung von dem rechten Ende in einer Rückwärtsrichtung (Richtung in die Vergangenheit) (d. h. Richtung nach links in dem Blatt aus 4, wie in 4 durch einen großen Pfeil 300 gezeigt ist) zu dem bestimmten Sprachabschnitt eine Lösung der folgenden Gleichung (2) bestimmt.
In dem bestimmten Sprachabschnitt werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in der Reihenfolge von einem mit der größten Bewertung S.f(w.2) + S.b(w.2) sortiert. Ferner erzeugt die Sprachverarbeitungseinheit 106 für die Erkennungsergebnis-Halteeinheit 104 jedes "w.2" und jedes S.f(w.2) als eine neue kumulative Bewertung G(w.2).
Wie in S veranschaulicht ist, werden jedem voraussichtlichen Sprachabschnitt-Erkennungsergebnis in dem in 4 gezeigten Gitter eine kumulative Bewertung und eine akustische Wahrscheinlichkeit zugewiesen. Wie in 6 veranschaulicht ist, wird ferner jedem Wortpaar eine Sprachbewertung zugewiesen. Außerdem ist in den beiden obigen Gleichungen (1) und (2) jede Gewichtung w = 1.
Andererseits kann sicher gestellt werden, dass die Verbindung zwischen jedem Wortpaar in 6 verboten ist, wenn die Sprachbewertung des Paars "0" ist. Dementsprechend werden hinsichtlich der drei voraussichtlichen Erkennungsergebnisse die S.f(w.2) jeweils wie folgt bestimmt.
Ähnlich werden die S.b(w.2) hinsichtlich der drei voraussichtlichen Erkennungsergebnisse jeweils wie folgt bestimmt.
Angesichts des Obigen werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in der Reihenfolge von einem mit der größten Bewertung S.f(w.2) + S.b(w.2) sortiert. Im Ergebnis werden die sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse auf folgende Weise angeordnet.
Wie in der obigen Weise gezeigt ist, können die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in Bezug auf den bestimmten Sprachabschnitt (den ersten Sprachabschnitt) allein durch einmaliges gleichzeitiges Anwenden einer dynamischen Programmierung von beiden Richtungen, d. h. sowohl von der oben erwähnten Vorwärts- als auch von der oben erwähnten Rückwärtsrichtung, auf optimierte Weise sortiert werden.
In 4 sind die in Bezug auf den bestimmten Sprachabschnitt in optimierter Reihenfolge [in der Reihenfolge
[in der Reihenfolge (de), (reru), (miru)] sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse veranschaulicht. Gleichzeitig kann in dem Gitter auch eine optimierte Wortfolge bestimmt werden (die optimierte Wortfolge ist in der obigen Weise von einer Strichlinie umgeben gezeigt). Somit kann durch Anzeigen einer solchen op timierten Wortfolge ein verbessertes Sprachabschnitt-Erkennungssystem geschaffen werden, das nie zu einem erzeugten Sprachabschnitt verzögert. Durch die Verwendung der Erkennungsergebnisse nach dem bestimmten Sprachabschnitt unter den optimierten Wortfolgen kann das Ergebnis selbst in Bezug auf diejenigen Sprachabschnitte neu geschrieben werden, deren Ergebnis bereits angezeigt worden ist. Somit kann eine Genauigkeit der Erkennungsergebnisse dementsprechend verbessert werden.
Anhand der 7 und 8 fährt die Beschreibung mit einem Sprachabschnitt-Erkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung fort.
7 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt. 8 ist eine Ansicht, die ein Beispiel eines Gitters zeigt, das in dem Sprachabschnitt-Erkennungssystem gemäß der zweiten Ausführungsform der vorliegenden Erfindung verwendet wird.
Wie in 7 veranschaulicht ist, hat das Sprachabschnitt-Erkennungssystem gemäß der zweiten Ausführungsform abgesehen davon, dass das Sprachabschnitt-Erkennungssystem der zweiten Ausführungsform keine Kontextspeichereinheit 107 in der ersten Ausführungsform besitzt, grundsätzlich eine ähnliche Struktur wie das der ersten Ausführungsform. Ähnliche Abschnitte sind mit den gleichen Bezugszeichen bezeichnet.
In dem in 7 veranschaulichten Sprachabschnitt-Erkennungssystem wird ein Gitter nur aus den in der Erkennungsergebnis-Halteeinheit 104 gespeicherten voraussichtlichen Sprachabschnitt-Erkennungsergebnissen konstruiert.
Wie in den 7 und 8 gezeigt ist, wird eine Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung in einer Vorwärtsrichtung, d. h. vom linken Ende des Gitters zu dem bestimmten Sprachabschnitt in Bezug auf die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse, ausgeführt. Gleichzeitig wird durch die Verwendung dynamischer Programmierung in einer Rückwärtsrichtung, d. h. von dem rechten Ende des Gitters zu dem bestimmten Sprachabschnitt in Bezug auf die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse, ebenfalls eine weitere Sprachverarbeitung ausgeführt. Eine Summe kumulativer Bewertungen, die durch die Sprachverarbeitung in der Vorwärtsrichtung erhalten werden, wird mit einer weiteren Summe kumulativer Bewertungen verglichen, die durch die weitere Sprachverarbeitung in der Rückwärtsrichtung erhalten werden. Im Ergebnis des Vergleichs werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse sortiert. Dementsprechend können die auf optimierte Weise sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse erhalten werden.
In 8 ist ein Beispiel mit "i = 3" gezeigt. Wenn das Wortbigramm als ein Sprachmodell verwendet wird, kann ähnlich dem Wortunigramm eine Bewertung genutzt werden, die nur von dem linken Ende des Gitters geliefert wird. In diesem Fall kann eine Kontextspeichereinheit in dem Sprachabschnitt-Erkennungssystem weggelassen werden. Ferner kann das Sprachabschnitt-Erkennungssystem frei von einem Einfluss eines Fehlers sein, der gemacht wird, bevor sich das gespeicherte voraussichtliche Sprachabschnitt-Erkennungsergebnis ergibt.
Wie oben beschrieben wurde, wird gemäß der ersten und der zweiten Ausführungsform der vorliegenden Erfindung durch die Verwendung einer dynamischen Programmierung von den beiden Enden der gespeicherten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse, d. h. sowohl in Vorwärts- als auch in Rückwärtsrichtung, gleichzeitig eine jeweilige Sprachverarbeitung zu einem bestimmten Sprachabschnitt ausgeführt. Ein Sprachabschnitt-Erkennungssystem wird fähig, voraussichtliche Erkennungsergebnisse, die für den bestimmten Sprachabschnitt erhalten werden, nur durch einmalige Sprachverarbeitung in optimierter Reihenfolge zu sortieren.
Obgleich die vorliegende Erfindung bisher nur in Verbindung mit zwei Ausführungsformen davon beschrieben wurde, ist es nun für den Fachmann auf dem Gebiet leicht möglich, diese Erfindung auf verschiedene andere Weise auszudrücken. Zum Beispiel wird in der ersten Ausführungsform das Wortbigramm als ein Sprachmodul verwendet. Allerdings können alternativ die anderen Sprachmodelle wie etwa ein n-gramm-Modell genutzt werden, sofern die Sprachmodelle durch die Verwendung dynamischer Programmierung angewendet werden können.
Darüber hinaus wird das Sprachabschnitt-Erkennungssystem der vorliegenden Erfindung in der ersten und in der zweiten Ausführungsform auf die Sprachabschnitterkennung in japanischer Sprache angewendet. Allerdings kann das Prinzip der vorliegenden Erfindung auf die Sprachabschnitterkennung in irgendwelchen anderen Sprachen als der japanischen Sprache angewendet werden.
Darüber ist das, was in der vorstehenden Beschreibung durch den Begriff "Sprachabschnitt" ("voice") verstanden wird, keine "Sprache" in ihrem herkömmlichen Sinn, sondern bezieht sich der Begriff Sprachabschnitt auf einen Wortteil oder auf ein Wort oder auf einen Satzteil oder auf einen Satz, die durch das Sprachabschnitt-Erkennungssystem erkannt werden sollen.
Im Folgenden werden Transkriptionen der Zeilen auf Seite 9 gegeben, die chinesische und japanische Zeichen enthalten, in denen die chinesischen und die japanischen Zeichen durch lateinische Zeichen ersetzt sind.

Claims

Sprachabschnitt-Erkennungssystem, das mehrere voraussichtliche Erkennungsergebnisse in Bezug auf wenigstens zwei eingehende Sprachabschnitte sucht und unter den jeweiligen mehreren voraussichtlichen Erkennungsergebnissen jedes voraussichtliche Erkennungsergebnis in Bezug auf die wenigstens zwei eingehenden Sprachabschnitte auswählt, so dass als Ganzes eine optimierte Folge von Erkennungsergebnissen erhalten wird, dadurch gekennzeichnet, dass das Sprachabschnitterkennungssystem umfasst: eine primäre Sprachverarbeitungseinrichtung zum Ausführen einer primären Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung (200) in Vorwärtsrichtung an einem primären voraussichtlichen Erkennungsergebnis in Bezug auf die wenigstens zwei eingehenden Sprachabschnitte eines vorhergehenden Sprachabschnitts, der einem bestimmten Sprachabschnitt vorhergeht; eine sekundäre Sprachverarbeitungseinrichtung zum Ausführen einer sekundären Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung (300) in Rückwärtsrichtung an einem sekundären voraussichtlichen Erkennungsergebnis in Bezug auf die wenigstens zwei eingehenden Sprachabschnitte eines folgenden Sprachabschnitts, der dem bestimmten Sprachabschnitt folgt; eine Bewertungseinrichtung, die an jedem der primären voraussichtlichen Erkennungsergebnisse des vorhergehenden Sprachabschnitts eine kumulative Bewertung eines optimierten Pfades, der die bestimmten voraussichtlichen Erkennungsergebnisse des bestimmten Sprachabschnitts in Bezug auf jedes Ergebnis der primären Sprachverarbeitung und der sekundären Sprachverarbeitung berechnet; und eine Sortiereinrichtung zum Sortieren der bestimmten voraussichtlichen Erkennungsergebnisse des bestimmten Sprachabschnitts der Reihe nach ausgehend von einem der bestimmten voraussichtlichen Erkennungsergebnisse, das den größten Wert der kumulativen Bewertung besitzt.
Sprachabschnitterkennungssystem nach Anspruch 1, dadurch gekennzeichnet, dass das Sprachabschnitt-Erkennungssystem ferner umfasst: eine akustische Verarbeitungseinheit (101) zum Analysieren eines eingehenden Sprachabschnitts, um einen analysierten eingehenden Sprachabschnitt zu erzeugen; eine Standardmuster-Speichereinheit (103), die Standard-Schallmuster besitzt, die bereits analysiert worden sind; eine Sprachabschnit-Erkennungseinheit (102), die die akustische Wahrscheinlichkeit dafür bestimmt, dass Ähnlichkeiten zwischen dem analysierten eingehenden Sprachabschnitt und jedem der akustischen Standardmuster auftreten, und die wenigstens ein voraussichtliches Erkennungsergebnis für jeden Sprachabschnitt zusammen mit der akustischen Wahrscheinlichkeit erzeugt; eine Erkennungsergebnis-Halteeinheit (104), die das wenigstens eine voraussichtliche Erkennungsergebnis, das anhand der Sprachabschnitt-Erkennungseinheit (102) erzeugt wird, speichert, um einen vorgegebenen Betrag des wenigstens einen voraussichtlichen Erkennungsergebnisses auszugeben; eine Sprachverarbeitungseinheit (106), die die primäre Sprachverarbeitungseinrichtung, die sekundäre Sprachverarbeitungseinrichtung, die Bewertungseinrichtung und die Sortiereinrichtung umfasst: eine Kontextspeichereinheit (107), die ein Ergebnis der primären Sprachverarbeitungseinrichtung speichert, das von der Sprachverarbeitungseinheit (106) geliefert wird; eine Gitterkonstruktionseinheit (105) zum Konstruieren eines Gitters, das aus dem vorgegebenen Betrag der voraussichtlichen Erkennungsergebnisse und aus dem von der Kontextspeichereinheit (107) ausgegebenen Ergebnis aufgebaut ist; und wobei die primäre Sprachverarbeitung von einem linken Ende des Gitters zu einem bestimmten Sprachabschnitt ausgeführt wird, während die sekundäre Sprachverarbeitung von einem rechten Ende des Gitters zu dem bestimmten Sprachabschnitt ausgeführt wird.
Sprachabschnitt-Erkennungssystem nach Anspruch 2, dadurch gekennzeichnet, dass die Sprachverarbeitung an allen Sprachabschnitten in dem Gitter ausgeführt wird, um eine optimierte Folge von Erkennungsergebnissen zu erhalten.
Sprachabschnitt-Erkennungssystem nach Anspruch 3, dadurch gekennzeichnet, dass das Sprachabschnitt-Erkennungssystem eine Folge von Erkennungsergebnissen bezüglich des bestimmten Sprachabschnitts, in der voraussichtliche Erkennungsergebnisse in optimierter Reihenfolge sortiert sind, und bezüglich der anderen Sprachabschnitte, die dem bestimmten Sprachabschnitt folgen, anzeigt, um keine Zeit nach dem bestimmten Sprachabschnitt zu verlieren, und dass das Sprachabschnitt-Erkennungssystem die voraussichtlichen Erkennungsergebnisse in dem Fall, in dem die Erkennungsergebnisse durch die dem bestimmten Sprachabschnitt folgenden anderen Sprachabschnitte erneuert werden, neu schreibt.