-
Hintergrund der Erfindung:
-
Die
vorliegende Erfindung bezieht sich auf ein Sprachabschnitt-Erkennungssystem
und insbesondere auf ein Sprachabschnitt-Erkennungssystem, das aus
mehreren voraussichtlichen Sprachabschnitt-Erkennungsergebnissen
in Bezug auf mehr als zwei Sprachabschnitte als Ganzes eine optimierte
Folge von Erkennungsergebnissen auswählt.
-
Herkömmlich wird
ein Beispiel eines Sprachabschnitt-Erkennungssystems betrachtet,
das aus voraussichtlichen Erkennungsergebnissen, die pro jeden Sprachabschnitt
für jedes
Wort erhalten werden, automatisch eine Folge von durch ein Sprachmodell
optimierten Erkennungsergebnissen auswählt und anzeigt.
-
Andererseits
ist in der japanischen ungeprüften
Patentveröffentlichung
Nr. 328580/1996 ein weiteres Beispiel eines Sprachabschnitt-Erkennungssystems
offenbart. In dem darin offenbarten Beispiel werden die durch aufeinander
folgende Sprachabschnitte erhaltenen voraussichtlichen Erkennungsergebnisse
durch die Verwendung einer dynamischen Programmierung von einer
Seite einer Sprachverarbeitung unterworfen, so dass automatisch
eine optimierte Folge von Erkennungsergebnissen ausgewählt wird.
Selbst wenn ein bestimmtes Wort falsch ist, wird ein voraussichtliches
Erkennungsergebnis für
das falsche Wort z. B. durch eine Operation eines Anwenders gelöscht und
durch die Verwendung einer dynamischen Programmierung von der einen
Seite erneut einer Sprachverarbeitung unterworfen, um eine nächste optimierte
Folge von Erkennungsergebnissen auszuwählen.
-
Wenn
die in der oben erwähnten
Abhandlung Nr. 328580/1996 offenbarte Technik auf voraussichtliche Erkennungsergebnisse
angewendet wird, die durch Sprachabschnitte diskreter Wörter erhalten
werden, können
in Bezug auf einen bestimmten Sprachabschnitt nicht nur die besten
voraussichtlichen Erkennungsergebnisse, sondern auch die darauf
folgenden erhalten werden.
-
Allerdings
muss die oben erwähnte
Sprachverarbeitung, die eine dynamische Programmierung verwendet,
n-mal wiederholt werden, um die höheren n voraussichtlichen Erkennungsergebnisse
im Rang in Bezug auf einen bestimmten Sprachabschnitt anzuzeigen.
Somit sind unvermeidlich eine große Anzahl von Be rechnungen
erforderlich.
-
Kuhn
u. a.: "DP-based
wordgraph pruning",
1996 IEEE ICASSP, Atlanta, GA, USA, 7–10 M, S. 861–864, Bd.
2, New York, NY (USA), offenbart eine Technik zum Erzeugen von Wortgraphen
in einem kontinuierlichen Sprachabschnitt-Erkennungssystem. Die
Hauptidee ist, in der ersten Phase einen riesigen Wortgraphen zu
erzeugen, der in der zweiten Phase durch die Verwendung von Wissen
einer höheren
Ebene wie etwa n-gramm-Sprachmodellen reduziert wird. In der ersten
Phase wird der Wortgraph als ein Nebenprodukt einer angesteuerten
Vorwärtssuche
erzeugt. Das Lexikon wird als ein Baum realisiert. Für die Wortgrapherzeugung
wird ein asynchrones Verfahren verwendet. Falls der letzte Zustand
des Wortes erreicht ist, wird in einem bestimmten Gebiet ein neuer
Lexikonbaum initialisiert. Dieser Lexikonbaum wird durch den am
besten bewerteten Pfad initialisiert, der in diesem Zeitrahmen endet.
Die erzeugten Wortgraphen sollten groß genug sein, damit alle geäußerten Wörter als
Worthypothesen enthalten sind. In der ersten Phase werden die Informationen
eines Sprachmodells nur verwendet, um die m am besten bewerteten
Worthypothesen zu bestimmen. m ist eine vorgegebene Konstante, die
in der ersten Phase die Größe eines
Wortgraphen einstellt.
-
In
der zweiten Phase wird der so genannte "Jumbo-große Wortgraph" erheblich reduziert,
so dass die folgende linguistische Analyse den kleineren Wortgraphen
innerhalb einer sinnvollen Zeit übergeben
kann. Die zweite Phase beruht auf einer dynamischen Programmierprozedur.
Für jede
Kante gj in dem Wortgraphen G wird durch
einen Vorwärts-
und durch einen Rückwärtspfad
die Bewertung des besten Pfades berechnet, der durch diese Kante
geht.
-
Zusammenfassung der Erfindung:
-
Es
ist eine Aufgabe der vorliegenden Erfindung, ein Sprachabschnitt-Erkennungssystem
zu schaffen, das voraussichtliche Erkennungsergebnisse, die für einen
bestimmten Sprachabschnitt erhalten werden, durch einmalige Sprachverarbeitung
in optimierter Reihenfolge sortieren kann.
-
Weitere
Aufgaben der vorliegenden Erfindung werden klar, während die
Beschreibung fortschreitet.
-
Bei
der Beschreibung des Hauptpunkts der vorliegenden Erfindung ist
leicht verständlich,
dass ein Sprachabschnitt-Erkennungssystem in Bezug auf wenigstens
zwei eingehende Sprachabschnitte mehrere voraussichtliche Erkennungsergebnisse
sucht und unter den jeweiligen mehreren voraussichtlichen Erkennungsergebnissen
jedes voraussichtliche Erkennungsergebnis in Bezug auf die zwei
eingehenden Sprachabschnitte auswählt, so dass als Ganzes eine
optimierte Folge von Erkennungsergebnissen erhalten wird.
-
Gemäß einem
Aspekt der vorliegenden Erfindung wird ein Sprachabschnitt-Erkennungssystem
geschaffen, wie es in Anspruch 1 definiert ist. Die abhängigen Ansprüche definieren
Ausführungsformen
der Erfindung.
-
Um
eine optimierte Folge von Erkennungsergebnissen zu erhalten, kann
die Sprachverarbeitung an allen Sprachabschnitten in dem Gitter
ausgeführt
werden.
-
Das
Sprachabschnitt-Erkennungssystem kann eine Folge von Erkennungsergebnissen
bezüglich
des bestimmten Sprachabschnitts, in der voraussichtliche Erkennungsergebnisse
in optimierter Reihenfolge sortiert sind, und bezüglich der
anderen Sprachabschnitte, die dem bestimmten Sprachabschnitt folgen,
anzeigen, um keine Zeit nach dem bestimmten Sprachabschnitt zu verlieren,
so dass das Sprachabschnitt-Erkennungssystem die voraussichtlichen
Erkennungsergebnisse in dem Fall, in dem die Erkennungsergebnisse durch
die dem bestimmten Sprachabschnitt folgenden anderen Sprachabschnitte
erneuert werden, neu schreiben kann.
-
Kurzbeschreibung der Zeichnung:
-
1 ist
ein Ablaufplan, der Operationen des automatischen Auswählens der
höheren
n voraussichtlichen Erkennungsergebnisse im Rang zeigt, die in Bezug
auf einen bestimmten Sprachabschnitt (den i-ten Sprachabschnitt)
in dem herkömmlichen
Sprachabschnitt-Erkennungssystem erhalten werden;
-
2 ist
ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung zeigt;
-
3 ist
eine Ansicht, die ein Beispiel einer Gitterstruktur zeigt, die in
dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform
der vorliegenden Erfindung verwendet wird;
-
4 ist
eine Ansicht, die ein Beispiel einer Auswahl der höheren n
voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen
bestimmten Sprachabschnitt erläutert;
-
5 ist
eine Ansicht, die eine Tabelle der kumulativen Bewertung und der
akustischen Bewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten
Ausführungsform
der vorliegenden Erfindung zeigt;
-
6 ist
eine Ansicht, die eine Tabelle der Sprachbewertung in dem Sprachabschnitt-Erkennungssystem
gemäß der ersten
Ausführungsform
der vorliegenden Erfindung zeigt;
-
7 ist
ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung zeigt; und
-
8 ist
eine Ansicht, die ein Beispiel einer Gitterstruktur zeigt, die in
dem Sprachabschnitt-Erkennungssystem gemäß der zweiten Ausführungsform
der vorliegenden Erfindung verwendet wird.
-
Beschreibung der bevorzugten
Ausführungsformen:
-
Um
ein Verständnis
der vorliegenden Erfindung zu erleichtern, wird zunächst anhand
von 1 eine Beschreibung eines herkömmlichen Sprachabschnitt-Erkennungssystems
gegeben, das in der oben erwähnten
japanischen ungeprüften
Patentveröffentlichung
Nr. 328580/1996 offenbart ist.
-
1 ist
ein Ablaufplan, der Operationen des automatischen Auswählens der
höheren
n voraussichtlichen Erkennungsergebnisse im Rang zeigt, die in Bezug
auf einen bestimmten Sprachabschnitt (den i-ten Sprachabschnitt)
in dem herkömmlichen
Sprachabschnitt-Erkennungssystem erhalten werden.
-
Ein
eingehender Sprachabschnitt wird in mehrere voraussichtliche Sprachabschnitt-Erkennungsergebnisse
umgewandelt und als die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
in einem Erkennungsergebnis-Halteabschnitt gespeichert. In dem Erkennungsergebnis-Halteabschnitt
werden die höheren
n vor aussichtlichen Erkennungsergebnisse im Rang in Bezug auf den
i-ten Sprachabschnitt angezeigt, indem die folgenden Operationen
n-mal wiederholt werden. Das heißt, alle gespeicherten voraussichtlichen
Erkennungsergebnisse werden durch die Verwendung einer dynamischen
Programmierung von einer Seite zu der anderen Seite, z. B. von einer
linken Seite zu einer rechten Seite, einer Sprachverarbeitung unterworfen,
um einen optimierten Pfad zu suchen (Schritt 1101). Innerhalb
der voraussichtlichen Erkennungsergebnisse in Bezug auf den i-ten
Sprachabschnitt wird ein voraussichtliches Erkennungsergebnis, das
in dem optimierten Pfad enthalten ist, angezeigt und aus den voraussichtlichen
Erkennungsergebnissen gelöscht
(Schritt 1102). Um die höheren n voraussichtlichen Erkennungsergebnisse
im Rang in Bezug auf den i-ten Sprachabschnitt zu zeigen, werden
die in den Schritten 1101 und 1102 gezeigten Operationen
wiederholt. Dementsprechend können alle
voraussichtlichen Erkennungsergebnisse wie oben erwähnt sortiert
werden, sofern n die Anzahl der voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
ist.
-
Allerdings
muss die oben erwähnte
Sprachverarbeitung, die die dynamische Programmierung verwendet,
n-mal wiederholt werden, um die höheren n voraussichtlichen Erkennungsergebnisse
im Rang in Bezug auf einen bestimmten Sprachabschnitt anzuzeigen.
Somit sind unvermeidlich eine große Anzahl von Berechnungen
erforderlich.
-
Anhand
der 2 bis 6 fährt die Beschreibung nun mit
einem Sprachabschnitt-Erkennungssystem
gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung fort.
-
2 ist
ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung zeigt.
-
Wie
in 2 veranschaulicht ist, wird ein pro Wort erzeugter
eingehender Sprachabschnitt durch eine akustische Verarbeitungseinheit 101 analysiert.
Der durch die akustische Verarbeitungseinheit 101 analysierte eingehende
Sprachabschnitt wird durch eine Sprachabschnitt-Erkennungseinheit 102 mit
jedem Standardmuster des Wortes verglichen, das in einer Standardmuster-Speichereinheit 103 gespeichert
ist. Dadurch wird die akustische Wahrscheinlichkeit zwischen dem
eingehenden Sprachabschnitt und jedem der Standardmuster bestimmt.
Der eingehende Sprachabschnitt wird wie oben erwähnt analysiert und durch die
akustische Verar beitungseinheit 101 in eine Folge von Parametervektoren
geändert.
Die akustische Verarbeitungseinheit 101 ist aus einer Filterbank,
aus einer Fourier-Transformationseinrichtung, aus einem Analysator
linearer prädiktiver
Faktoren und dergleichen aufgebaut. Die in der Standardmuster-Speichereinheit 103 gespeicherten
Standardmuster sind als eine Folge von Parametervektoren ausgedrückt. Durch
die Sprachabschnitt-Erkennungseinheit 102 werden unter
allen in der Standardmuster-Speichereinheit 103 gespeicherten
Standardmustern mehrere Standardmuster mit einer großen akustischen
Wahrscheinlichkeit mit dem analysierten eingehenden Sprachabschnitt
als voraussichtliche Erkennungsergebnisse ausgewählt. Durch eine Erkennungsergebnis-Halteeinheit 104 wird
eine vorgegebene Menge der voraussichtlichen Erkennungsergebnisse
in der Reihenfolge von dem zuvor erzeugten Erkennungsergebnis gemerkt
und gespeichert. Wenn die Anzahl der Sprachabschnitte die vorgegebene
Menge übersteigt,
wird ein Teil der voraussichtlichen Erkennungsergebnisse von einem älteren davon
in der Erkennungsergebnis-Halteeinheit 104 gelöscht. Durch
eine Kontextspeichereinheit 107 wird eine kumulative Bewertung
gespeichert, die in Bezug auf einen vorhergehenden Sprachabschnitt
durch eine Sprachverarbeitung durch die Verwendung einer dynamischen
Programmierung in einer vorhergehenden Richtung in einer Sprachverarbeitungseinheit 106 und
durch voraussichtliche Erkennungsergebnisse in Bezug auf den vorhergehenden
Sprachabschnitt erhalten wird. Der durch die Kontextspeichereinheit 107 gespeicherte
Inhalt wird durch die Sprachverarbeitungseinheit 106 erneuert.
Durch eine Gitterkonstruktionseinheit 105 wird anhand der
von der Erkennungsergebnis-Halteeinheit 104 gelieferten
voraussichtlichen Sprachabschnitt-Erkennungsergebnisse und anhand
der bis dahin von der Kontextspeichereinheit 107 gelieferten
Ergebnisse der Sprachverarbeitung ein Gitter konstruiert. Bei dem
linken Endabschnitt besitzt das Gitter voraussichtliche Sprachabschnitt-Erkennungsergebnisse
in Bezug auf einen Sprachabschnitt, der von der Kontextspeichereinheit 107 unmittelbar
zuvor bis dahin geliefert worden ist. Außerdem besitzt das Gitter bei einem
auf der rechten Seite des linken Endabschnitts positionierten Abschnitt
voraussichtliche Sprachabschnitt-Erkennungsergebnisse, die von der
Erkennungsergebnis-Halteeinheit 104 geliefert werden. Die Sprachverarbeitungseinheit 106 wendet
auf das von der Gitterkonstruktionseinheit 105 gelieferte
Gitter ein Sprachmodell an, um die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
in Bezug auf einen bestimmten Sprachabschnitt in optimierter Reihenfolge
zu sortieren.
-
Anhand
der 3 bis 6 wird eine Beschreibung hinsichtlich
der Struktur des Gitters gegeben, das durch das in 2 veranschaulichte
Sprachabschnitt-Erkennungssystem geliefert wird.
-
3 ist
eine Ansicht, die ein Beispiel eines Gitters zeigt, das in dem Sprachabschnitt-Erkennungssystem
gemäß der ersten
Ausführungsform
der vorliegenden Erfindung verwendet wird. 4 ist eine
Ansicht zur Erläuterung
eines Beispiels einer Auswahl der höheren n voraussichtlichen Erkennungsergebnisse
im Rang in Bezug auf einen vorgegebenen Sprachabschnitt von k =
2. 5 ist eine Ansicht, die eine Tabelle einer kumulativen
Bewertung und einer akustischen Bewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten
Ausführungsform
der vorliegenden Erfindung zeigt. 6 ist eine
Ansicht, die eine Tabelle der Sprachbewertung in dem Sprachabschnitt-Erkennungssystem
gemäß der ersten
Ausführungsform
der vorliegenden Erfindung zeigt.
-
Anhand
der
4 bis
6 wird hier konkret eine Beschreibung
eines Beispiels gegeben, in dem die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
in Bezug auf einen bestimmten Sprachabschnitt durch die Sprachverarbeitungseinheit
106 in
optimierter Reihenfolge sortiert werden. In dem veranschaulichten
Beispiel sind die Sprachabschnitte
(Genzai/Okinawa/de/hirakarete/iru), während der
jüngste
Sprachabschnitt
(iru)
ist. In dem Beispiel wird das Wortbigramm als ein Sprachmodell verwendet.
In dem Gitter wird ein voraussichtliches Sprachabschnitt-Erkennungsergebnis,
das sich bei dem linken Endabschnitt befindet, als "w.1" ausgedrückt, während voraussichtliche
Sprachabschnitt-Erkennungsergebnisse, die in Bezug auf einen bestimmten
Sprachabschnitt zu sortieren sind, als "w.2" ausgedrückt werden
und ein voraussichtliches Sprachabschnitt-Erkennungsergebnis, das
sich bei dem rechten Endabschnitt befindet, durch "w.k + 2" ausgedrückt wird.
-
In 4 ist
ein Beispiel für
k = 2 veranschaulicht. In der Sprachverarbeitungseinheit 106 wird
in Bezug auf jedes "w.2" eine Lösung der
folgenden Gleichung (1) bestimmt.
-
-
wobei
G(w.1) eine kumulative Bewertung einer Spalte am linken Ende des
Gitters ist, I(w.1, w.2) eine Sprachbewertung ist, die durch das
Wortbigramm-Modell entschieden wird (eine Bewertung, die proportional zu
einer bedingten Wahrscheinlichkeit entschieden wird, dass neben
einem Wort "w.1" ein Wort "w.2" erzeugt wird), a(w.i)
eine akustische Wahrscheinlichkeit eines Wortes "w.i" ist
und w eine Konstante ist. Die Lösung
der obigen Gleichung (1) kann effizient durch Anwenden dynamischer
Programmierung von dem linken Ende in einer Vorwärtsrichtung (zukünftigen
Richtung) (d. h. in einer Richtung nach rechts in dem Blatt aus 4,
wie sie in 4 durch einen großen Pfeil 200 gezeigt
ist) bestimmt werden.
-
Andererseits
wird in Bezug auf jedes "w.2" durch Anwenden dynamischer
Programmierung von dem rechten Ende in einer Rückwärtsrichtung (Richtung in die
Vergangenheit) (d. h. Richtung nach links in dem Blatt aus 4,
wie in 4 durch einen großen Pfeil 300 gezeigt
ist) zu dem bestimmten Sprachabschnitt eine Lösung der folgenden Gleichung
(2) bestimmt.
-
-
In
dem bestimmten Sprachabschnitt werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
in der Reihenfolge von einem mit der größten Bewertung S.f(w.2) + S.b(w.2)
sortiert. Ferner erzeugt die Sprachverarbeitungseinheit 106 für die Erkennungsergebnis-Halteeinheit 104 jedes "w.2" und jedes S.f(w.2) als
eine neue kumulative Bewertung G(w.2).
-
Wie
in S veranschaulicht ist, werden jedem
voraussichtlichen Sprachabschnitt-Erkennungsergebnis in dem in 4 gezeigten
Gitter eine kumulative Bewertung und eine akustische Wahrscheinlichkeit
zugewiesen. Wie in 6 veranschaulicht ist, wird
ferner jedem Wortpaar eine Sprachbewertung zugewiesen. Außerdem ist
in den beiden obigen Gleichungen (1) und (2) jede Gewichtung w =
1.
-
Andererseits
kann sicher gestellt werden, dass die Verbindung zwischen jedem
Wortpaar in 6 verboten ist, wenn die Sprachbewertung
des Paars "0" ist. Dementsprechend
werden hinsichtlich der drei voraussichtlichen Erkennungsergebnisse
die S.f(w.2) jeweils wie folgt bestimmt.
-
-
Ähnlich werden
die S.b(w.2) hinsichtlich der drei voraussichtlichen Erkennungsergebnisse
jeweils wie folgt bestimmt.
-
-
Angesichts
des Obigen werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
in der Reihenfolge von einem mit der größten Bewertung S.f(w.2) + S.b(w.2)
sortiert. Im Ergebnis werden die sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
auf folgende Weise angeordnet.
-
-
Wie
in der obigen Weise gezeigt ist, können die voraussichtlichen
Sprachabschnitt-Erkennungsergebnisse in Bezug auf den bestimmten
Sprachabschnitt (den ersten Sprachabschnitt) allein durch einmaliges gleichzeitiges
Anwenden einer dynamischen Programmierung von beiden Richtungen,
d. h. sowohl von der oben erwähnten
Vorwärts-
als auch von der oben erwähnten
Rückwärtsrichtung,
auf optimierte Weise sortiert werden.
-
In
4 sind
die in Bezug auf den bestimmten Sprachabschnitt in optimierter Reihenfolge
[in der Reihenfolge
[in
der Reihenfolge (de), (reru), (miru)] sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
veranschaulicht. Gleichzeitig kann in dem Gitter auch eine optimierte Wortfolge
bestimmt werden (die optimierte Wortfolge ist in der obigen Weise
von einer Strichlinie umgeben gezeigt). Somit kann durch Anzeigen
einer solchen op timierten Wortfolge ein verbessertes Sprachabschnitt-Erkennungssystem
geschaffen werden, das nie zu einem erzeugten Sprachabschnitt verzögert. Durch
die Verwendung der Erkennungsergebnisse nach dem bestimmten Sprachabschnitt
unter den optimierten Wortfolgen kann das Ergebnis selbst in Bezug
auf diejenigen Sprachabschnitte neu geschrieben werden, deren Ergebnis bereits
angezeigt worden ist. Somit kann eine Genauigkeit der Erkennungsergebnisse
dementsprechend verbessert werden.
-
Anhand
der 7 und 8 fährt die Beschreibung mit einem
Sprachabschnitt-Erkennungssystem gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung fort.
-
7 ist
ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung zeigt. 8 ist eine
Ansicht, die ein Beispiel eines Gitters zeigt, das in dem Sprachabschnitt-Erkennungssystem
gemäß der zweiten
Ausführungsform
der vorliegenden Erfindung verwendet wird.
-
Wie
in 7 veranschaulicht ist, hat das Sprachabschnitt-Erkennungssystem
gemäß der zweiten Ausführungsform
abgesehen davon, dass das Sprachabschnitt-Erkennungssystem der zweiten Ausführungsform
keine Kontextspeichereinheit 107 in der ersten Ausführungsform
besitzt, grundsätzlich
eine ähnliche Struktur
wie das der ersten Ausführungsform. Ähnliche
Abschnitte sind mit den gleichen Bezugszeichen bezeichnet.
-
In
dem in 7 veranschaulichten Sprachabschnitt-Erkennungssystem
wird ein Gitter nur aus den in der Erkennungsergebnis-Halteeinheit 104 gespeicherten
voraussichtlichen Sprachabschnitt-Erkennungsergebnissen konstruiert.
-
Wie
in den 7 und 8 gezeigt ist, wird eine Sprachverarbeitung
durch die Verwendung einer dynamischen Programmierung in einer Vorwärtsrichtung,
d. h. vom linken Ende des Gitters zu dem bestimmten Sprachabschnitt
in Bezug auf die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse,
ausgeführt. Gleichzeitig
wird durch die Verwendung dynamischer Programmierung in einer Rückwärtsrichtung,
d. h. von dem rechten Ende des Gitters zu dem bestimmten Sprachabschnitt
in Bezug auf die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse,
ebenfalls eine weitere Sprachverarbeitung ausgeführt. Eine Summe kumulativer Bewertungen,
die durch die Sprachverarbeitung in der Vorwärtsrichtung erhalten werden,
wird mit einer weiteren Summe kumulativer Bewertungen verglichen,
die durch die weitere Sprachverarbeitung in der Rückwärtsrichtung
erhalten werden. Im Ergebnis des Vergleichs werden die voraussichtlichen
Sprachabschnitt-Erkennungsergebnisse sortiert. Dementsprechend können die
auf optimierte Weise sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse
erhalten werden.
-
In 8 ist
ein Beispiel mit "i
= 3" gezeigt. Wenn
das Wortbigramm als ein Sprachmodell verwendet wird, kann ähnlich dem
Wortunigramm eine Bewertung genutzt werden, die nur von dem linken
Ende des Gitters geliefert wird. In diesem Fall kann eine Kontextspeichereinheit
in dem Sprachabschnitt-Erkennungssystem weggelassen werden. Ferner
kann das Sprachabschnitt-Erkennungssystem frei von einem Einfluss
eines Fehlers sein, der gemacht wird, bevor sich das gespeicherte
voraussichtliche Sprachabschnitt-Erkennungsergebnis ergibt.
-
Wie
oben beschrieben wurde, wird gemäß der ersten
und der zweiten Ausführungsform
der vorliegenden Erfindung durch die Verwendung einer dynamischen
Programmierung von den beiden Enden der gespeicherten voraussichtlichen
Sprachabschnitt-Erkennungsergebnisse, d. h. sowohl in Vorwärts- als
auch in Rückwärtsrichtung,
gleichzeitig eine jeweilige Sprachverarbeitung zu einem bestimmten
Sprachabschnitt ausgeführt.
Ein Sprachabschnitt-Erkennungssystem wird fähig, voraussichtliche Erkennungsergebnisse,
die für
den bestimmten Sprachabschnitt erhalten werden, nur durch einmalige
Sprachverarbeitung in optimierter Reihenfolge zu sortieren.
-
Obgleich
die vorliegende Erfindung bisher nur in Verbindung mit zwei Ausführungsformen
davon beschrieben wurde, ist es nun für den Fachmann auf dem Gebiet
leicht möglich,
diese Erfindung auf verschiedene andere Weise auszudrücken. Zum
Beispiel wird in der ersten Ausführungsform
das Wortbigramm als ein Sprachmodul verwendet. Allerdings können alternativ
die anderen Sprachmodelle wie etwa ein n-gramm-Modell genutzt werden,
sofern die Sprachmodelle durch die Verwendung dynamischer Programmierung
angewendet werden können.
-
Darüber hinaus
wird das Sprachabschnitt-Erkennungssystem der vorliegenden Erfindung
in der ersten und in der zweiten Ausführungsform auf die Sprachabschnitterkennung
in japanischer Sprache angewendet. Allerdings kann das Prinzip der
vorliegenden Erfindung auf die Sprachabschnitterkennung in irgendwelchen anderen
Sprachen als der japanischen Sprache angewendet werden.
-
Darüber ist
das, was in der vorstehenden Beschreibung durch den Begriff "Sprachabschnitt" ("voice") verstanden wird,
keine "Sprache" in ihrem herkömmlichen
Sinn, sondern bezieht sich der Begriff Sprachabschnitt auf einen
Wortteil oder auf ein Wort oder auf einen Satzteil oder auf einen
Satz, die durch das Sprachabschnitt-Erkennungssystem erkannt werden
sollen.
-
Im
Folgenden werden Transkriptionen der Zeilen auf Seite 9 gegeben,
die chinesische und japanische Zeichen enthalten, in denen die chinesischen
und die japanischen Zeichen durch lateinische Zeichen ersetzt sind.
-