DE69834366T2 - Vorrichtung zum Sortieren potentieller Spracherkennungsergebnisse in optimierter Ordnung, die durch einen linguistischen Sprachprozessor erhalten werden - Google Patents

Vorrichtung zum Sortieren potentieller Spracherkennungsergebnisse in optimierter Ordnung, die durch einen linguistischen Sprachprozessor erhalten werden Download PDF

Info

Publication number
DE69834366T2
DE69834366T2 DE69834366T DE69834366T DE69834366T2 DE 69834366 T2 DE69834366 T2 DE 69834366T2 DE 69834366 T DE69834366 T DE 69834366T DE 69834366 T DE69834366 T DE 69834366T DE 69834366 T2 DE69834366 T2 DE 69834366T2
Authority
DE
Germany
Prior art keywords
speech
section
recognition
recognition results
prospective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69834366T
Other languages
English (en)
Other versions
DE69834366D1 (de
Inventor
NEC Corporation Kiyokazu Minato-ku Miki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE69834366D1 publication Critical patent/DE69834366D1/de
Publication of DE69834366T2 publication Critical patent/DE69834366T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Hintergrund der Erfindung:
  • Die vorliegende Erfindung bezieht sich auf ein Sprachabschnitt-Erkennungssystem und insbesondere auf ein Sprachabschnitt-Erkennungssystem, das aus mehreren voraussichtlichen Sprachabschnitt-Erkennungsergebnissen in Bezug auf mehr als zwei Sprachabschnitte als Ganzes eine optimierte Folge von Erkennungsergebnissen auswählt.
  • Herkömmlich wird ein Beispiel eines Sprachabschnitt-Erkennungssystems betrachtet, das aus voraussichtlichen Erkennungsergebnissen, die pro jeden Sprachabschnitt für jedes Wort erhalten werden, automatisch eine Folge von durch ein Sprachmodell optimierten Erkennungsergebnissen auswählt und anzeigt.
  • Andererseits ist in der japanischen ungeprüften Patentveröffentlichung Nr. 328580/1996 ein weiteres Beispiel eines Sprachabschnitt-Erkennungssystems offenbart. In dem darin offenbarten Beispiel werden die durch aufeinander folgende Sprachabschnitte erhaltenen voraussichtlichen Erkennungsergebnisse durch die Verwendung einer dynamischen Programmierung von einer Seite einer Sprachverarbeitung unterworfen, so dass automatisch eine optimierte Folge von Erkennungsergebnissen ausgewählt wird. Selbst wenn ein bestimmtes Wort falsch ist, wird ein voraussichtliches Erkennungsergebnis für das falsche Wort z. B. durch eine Operation eines Anwenders gelöscht und durch die Verwendung einer dynamischen Programmierung von der einen Seite erneut einer Sprachverarbeitung unterworfen, um eine nächste optimierte Folge von Erkennungsergebnissen auszuwählen.
  • Wenn die in der oben erwähnten Abhandlung Nr. 328580/1996 offenbarte Technik auf voraussichtliche Erkennungsergebnisse angewendet wird, die durch Sprachabschnitte diskreter Wörter erhalten werden, können in Bezug auf einen bestimmten Sprachabschnitt nicht nur die besten voraussichtlichen Erkennungsergebnisse, sondern auch die darauf folgenden erhalten werden.
  • Allerdings muss die oben erwähnte Sprachverarbeitung, die eine dynamische Programmierung verwendet, n-mal wiederholt werden, um die höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen bestimmten Sprachabschnitt anzuzeigen. Somit sind unvermeidlich eine große Anzahl von Be rechnungen erforderlich.
  • Kuhn u. a.: "DP-based wordgraph pruning", 1996 IEEE ICASSP, Atlanta, GA, USA, 7–10 M, S. 861–864, Bd. 2, New York, NY (USA), offenbart eine Technik zum Erzeugen von Wortgraphen in einem kontinuierlichen Sprachabschnitt-Erkennungssystem. Die Hauptidee ist, in der ersten Phase einen riesigen Wortgraphen zu erzeugen, der in der zweiten Phase durch die Verwendung von Wissen einer höheren Ebene wie etwa n-gramm-Sprachmodellen reduziert wird. In der ersten Phase wird der Wortgraph als ein Nebenprodukt einer angesteuerten Vorwärtssuche erzeugt. Das Lexikon wird als ein Baum realisiert. Für die Wortgrapherzeugung wird ein asynchrones Verfahren verwendet. Falls der letzte Zustand des Wortes erreicht ist, wird in einem bestimmten Gebiet ein neuer Lexikonbaum initialisiert. Dieser Lexikonbaum wird durch den am besten bewerteten Pfad initialisiert, der in diesem Zeitrahmen endet. Die erzeugten Wortgraphen sollten groß genug sein, damit alle geäußerten Wörter als Worthypothesen enthalten sind. In der ersten Phase werden die Informationen eines Sprachmodells nur verwendet, um die m am besten bewerteten Worthypothesen zu bestimmen. m ist eine vorgegebene Konstante, die in der ersten Phase die Größe eines Wortgraphen einstellt.
  • In der zweiten Phase wird der so genannte "Jumbo-große Wortgraph" erheblich reduziert, so dass die folgende linguistische Analyse den kleineren Wortgraphen innerhalb einer sinnvollen Zeit übergeben kann. Die zweite Phase beruht auf einer dynamischen Programmierprozedur. Für jede Kante gj in dem Wortgraphen G wird durch einen Vorwärts- und durch einen Rückwärtspfad die Bewertung des besten Pfades berechnet, der durch diese Kante geht.
  • Zusammenfassung der Erfindung:
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Sprachabschnitt-Erkennungssystem zu schaffen, das voraussichtliche Erkennungsergebnisse, die für einen bestimmten Sprachabschnitt erhalten werden, durch einmalige Sprachverarbeitung in optimierter Reihenfolge sortieren kann.
  • Weitere Aufgaben der vorliegenden Erfindung werden klar, während die Beschreibung fortschreitet.
  • Bei der Beschreibung des Hauptpunkts der vorliegenden Erfindung ist leicht verständlich, dass ein Sprachabschnitt-Erkennungssystem in Bezug auf wenigstens zwei eingehende Sprachabschnitte mehrere voraussichtliche Erkennungsergebnisse sucht und unter den jeweiligen mehreren voraussichtlichen Erkennungsergebnissen jedes voraussichtliche Erkennungsergebnis in Bezug auf die zwei eingehenden Sprachabschnitte auswählt, so dass als Ganzes eine optimierte Folge von Erkennungsergebnissen erhalten wird.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Sprachabschnitt-Erkennungssystem geschaffen, wie es in Anspruch 1 definiert ist. Die abhängigen Ansprüche definieren Ausführungsformen der Erfindung.
  • Um eine optimierte Folge von Erkennungsergebnissen zu erhalten, kann die Sprachverarbeitung an allen Sprachabschnitten in dem Gitter ausgeführt werden.
  • Das Sprachabschnitt-Erkennungssystem kann eine Folge von Erkennungsergebnissen bezüglich des bestimmten Sprachabschnitts, in der voraussichtliche Erkennungsergebnisse in optimierter Reihenfolge sortiert sind, und bezüglich der anderen Sprachabschnitte, die dem bestimmten Sprachabschnitt folgen, anzeigen, um keine Zeit nach dem bestimmten Sprachabschnitt zu verlieren, so dass das Sprachabschnitt-Erkennungssystem die voraussichtlichen Erkennungsergebnisse in dem Fall, in dem die Erkennungsergebnisse durch die dem bestimmten Sprachabschnitt folgenden anderen Sprachabschnitte erneuert werden, neu schreiben kann.
  • Kurzbeschreibung der Zeichnung:
  • 1 ist ein Ablaufplan, der Operationen des automatischen Auswählens der höheren n voraussichtlichen Erkennungsergebnisse im Rang zeigt, die in Bezug auf einen bestimmten Sprachabschnitt (den i-ten Sprachabschnitt) in dem herkömmlichen Sprachabschnitt-Erkennungssystem erhalten werden;
  • 2 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 3 ist eine Ansicht, die ein Beispiel einer Gitterstruktur zeigt, die in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung verwendet wird;
  • 4 ist eine Ansicht, die ein Beispiel einer Auswahl der höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen bestimmten Sprachabschnitt erläutert;
  • 5 ist eine Ansicht, die eine Tabelle der kumulativen Bewertung und der akustischen Bewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 6 ist eine Ansicht, die eine Tabelle der Sprachbewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 7 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt; und
  • 8 ist eine Ansicht, die ein Beispiel einer Gitterstruktur zeigt, die in dem Sprachabschnitt-Erkennungssystem gemäß der zweiten Ausführungsform der vorliegenden Erfindung verwendet wird.
  • Beschreibung der bevorzugten Ausführungsformen:
  • Um ein Verständnis der vorliegenden Erfindung zu erleichtern, wird zunächst anhand von 1 eine Beschreibung eines herkömmlichen Sprachabschnitt-Erkennungssystems gegeben, das in der oben erwähnten japanischen ungeprüften Patentveröffentlichung Nr. 328580/1996 offenbart ist.
  • 1 ist ein Ablaufplan, der Operationen des automatischen Auswählens der höheren n voraussichtlichen Erkennungsergebnisse im Rang zeigt, die in Bezug auf einen bestimmten Sprachabschnitt (den i-ten Sprachabschnitt) in dem herkömmlichen Sprachabschnitt-Erkennungssystem erhalten werden.
  • Ein eingehender Sprachabschnitt wird in mehrere voraussichtliche Sprachabschnitt-Erkennungsergebnisse umgewandelt und als die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in einem Erkennungsergebnis-Halteabschnitt gespeichert. In dem Erkennungsergebnis-Halteabschnitt werden die höheren n vor aussichtlichen Erkennungsergebnisse im Rang in Bezug auf den i-ten Sprachabschnitt angezeigt, indem die folgenden Operationen n-mal wiederholt werden. Das heißt, alle gespeicherten voraussichtlichen Erkennungsergebnisse werden durch die Verwendung einer dynamischen Programmierung von einer Seite zu der anderen Seite, z. B. von einer linken Seite zu einer rechten Seite, einer Sprachverarbeitung unterworfen, um einen optimierten Pfad zu suchen (Schritt 1101). Innerhalb der voraussichtlichen Erkennungsergebnisse in Bezug auf den i-ten Sprachabschnitt wird ein voraussichtliches Erkennungsergebnis, das in dem optimierten Pfad enthalten ist, angezeigt und aus den voraussichtlichen Erkennungsergebnissen gelöscht (Schritt 1102). Um die höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf den i-ten Sprachabschnitt zu zeigen, werden die in den Schritten 1101 und 1102 gezeigten Operationen wiederholt. Dementsprechend können alle voraussichtlichen Erkennungsergebnisse wie oben erwähnt sortiert werden, sofern n die Anzahl der voraussichtlichen Sprachabschnitt-Erkennungsergebnisse ist.
  • Allerdings muss die oben erwähnte Sprachverarbeitung, die die dynamische Programmierung verwendet, n-mal wiederholt werden, um die höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen bestimmten Sprachabschnitt anzuzeigen. Somit sind unvermeidlich eine große Anzahl von Berechnungen erforderlich.
  • Anhand der 2 bis 6 fährt die Beschreibung nun mit einem Sprachabschnitt-Erkennungssystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung fort.
  • 2 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt.
  • Wie in 2 veranschaulicht ist, wird ein pro Wort erzeugter eingehender Sprachabschnitt durch eine akustische Verarbeitungseinheit 101 analysiert. Der durch die akustische Verarbeitungseinheit 101 analysierte eingehende Sprachabschnitt wird durch eine Sprachabschnitt-Erkennungseinheit 102 mit jedem Standardmuster des Wortes verglichen, das in einer Standardmuster-Speichereinheit 103 gespeichert ist. Dadurch wird die akustische Wahrscheinlichkeit zwischen dem eingehenden Sprachabschnitt und jedem der Standardmuster bestimmt. Der eingehende Sprachabschnitt wird wie oben erwähnt analysiert und durch die akustische Verar beitungseinheit 101 in eine Folge von Parametervektoren geändert. Die akustische Verarbeitungseinheit 101 ist aus einer Filterbank, aus einer Fourier-Transformationseinrichtung, aus einem Analysator linearer prädiktiver Faktoren und dergleichen aufgebaut. Die in der Standardmuster-Speichereinheit 103 gespeicherten Standardmuster sind als eine Folge von Parametervektoren ausgedrückt. Durch die Sprachabschnitt-Erkennungseinheit 102 werden unter allen in der Standardmuster-Speichereinheit 103 gespeicherten Standardmustern mehrere Standardmuster mit einer großen akustischen Wahrscheinlichkeit mit dem analysierten eingehenden Sprachabschnitt als voraussichtliche Erkennungsergebnisse ausgewählt. Durch eine Erkennungsergebnis-Halteeinheit 104 wird eine vorgegebene Menge der voraussichtlichen Erkennungsergebnisse in der Reihenfolge von dem zuvor erzeugten Erkennungsergebnis gemerkt und gespeichert. Wenn die Anzahl der Sprachabschnitte die vorgegebene Menge übersteigt, wird ein Teil der voraussichtlichen Erkennungsergebnisse von einem älteren davon in der Erkennungsergebnis-Halteeinheit 104 gelöscht. Durch eine Kontextspeichereinheit 107 wird eine kumulative Bewertung gespeichert, die in Bezug auf einen vorhergehenden Sprachabschnitt durch eine Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung in einer vorhergehenden Richtung in einer Sprachverarbeitungseinheit 106 und durch voraussichtliche Erkennungsergebnisse in Bezug auf den vorhergehenden Sprachabschnitt erhalten wird. Der durch die Kontextspeichereinheit 107 gespeicherte Inhalt wird durch die Sprachverarbeitungseinheit 106 erneuert. Durch eine Gitterkonstruktionseinheit 105 wird anhand der von der Erkennungsergebnis-Halteeinheit 104 gelieferten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse und anhand der bis dahin von der Kontextspeichereinheit 107 gelieferten Ergebnisse der Sprachverarbeitung ein Gitter konstruiert. Bei dem linken Endabschnitt besitzt das Gitter voraussichtliche Sprachabschnitt-Erkennungsergebnisse in Bezug auf einen Sprachabschnitt, der von der Kontextspeichereinheit 107 unmittelbar zuvor bis dahin geliefert worden ist. Außerdem besitzt das Gitter bei einem auf der rechten Seite des linken Endabschnitts positionierten Abschnitt voraussichtliche Sprachabschnitt-Erkennungsergebnisse, die von der Erkennungsergebnis-Halteeinheit 104 geliefert werden. Die Sprachverarbeitungseinheit 106 wendet auf das von der Gitterkonstruktionseinheit 105 gelieferte Gitter ein Sprachmodell an, um die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in Bezug auf einen bestimmten Sprachabschnitt in optimierter Reihenfolge zu sortieren.
  • Anhand der 3 bis 6 wird eine Beschreibung hinsichtlich der Struktur des Gitters gegeben, das durch das in 2 veranschaulichte Sprachabschnitt-Erkennungssystem geliefert wird.
  • 3 ist eine Ansicht, die ein Beispiel eines Gitters zeigt, das in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung verwendet wird. 4 ist eine Ansicht zur Erläuterung eines Beispiels einer Auswahl der höheren n voraussichtlichen Erkennungsergebnisse im Rang in Bezug auf einen vorgegebenen Sprachabschnitt von k = 2. 5 ist eine Ansicht, die eine Tabelle einer kumulativen Bewertung und einer akustischen Bewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt. 6 ist eine Ansicht, die eine Tabelle der Sprachbewertung in dem Sprachabschnitt-Erkennungssystem gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt.
  • Anhand der 4 bis 6 wird hier konkret eine Beschreibung eines Beispiels gegeben, in dem die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in Bezug auf einen bestimmten Sprachabschnitt durch die Sprachverarbeitungseinheit 106 in optimierter Reihenfolge sortiert werden. In dem veranschaulichten Beispiel sind die Sprachabschnitte
    Figure 00070001
    (Genzai/Okinawa/de/hirakarete/iru), während der jüngste Sprachabschnitt
    Figure 00070002
    (iru) ist. In dem Beispiel wird das Wortbigramm als ein Sprachmodell verwendet. In dem Gitter wird ein voraussichtliches Sprachabschnitt-Erkennungsergebnis, das sich bei dem linken Endabschnitt befindet, als "w.1" ausgedrückt, während voraussichtliche Sprachabschnitt-Erkennungsergebnisse, die in Bezug auf einen bestimmten Sprachabschnitt zu sortieren sind, als "w.2" ausgedrückt werden und ein voraussichtliches Sprachabschnitt-Erkennungsergebnis, das sich bei dem rechten Endabschnitt befindet, durch "w.k + 2" ausgedrückt wird.
  • In 4 ist ein Beispiel für k = 2 veranschaulicht. In der Sprachverarbeitungseinheit 106 wird in Bezug auf jedes "w.2" eine Lösung der folgenden Gleichung (1) bestimmt.
  • Figure 00070003
  • wobei G(w.1) eine kumulative Bewertung einer Spalte am linken Ende des Gitters ist, I(w.1, w.2) eine Sprachbewertung ist, die durch das Wortbigramm-Modell entschieden wird (eine Bewertung, die proportional zu einer bedingten Wahrscheinlichkeit entschieden wird, dass neben einem Wort "w.1" ein Wort "w.2" erzeugt wird), a(w.i) eine akustische Wahrscheinlichkeit eines Wortes "w.i" ist und w eine Konstante ist. Die Lösung der obigen Gleichung (1) kann effizient durch Anwenden dynamischer Programmierung von dem linken Ende in einer Vorwärtsrichtung (zukünftigen Richtung) (d. h. in einer Richtung nach rechts in dem Blatt aus 4, wie sie in 4 durch einen großen Pfeil 200 gezeigt ist) bestimmt werden.
  • Andererseits wird in Bezug auf jedes "w.2" durch Anwenden dynamischer Programmierung von dem rechten Ende in einer Rückwärtsrichtung (Richtung in die Vergangenheit) (d. h. Richtung nach links in dem Blatt aus 4, wie in 4 durch einen großen Pfeil 300 gezeigt ist) zu dem bestimmten Sprachabschnitt eine Lösung der folgenden Gleichung (2) bestimmt.
  • Figure 00080001
  • In dem bestimmten Sprachabschnitt werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in der Reihenfolge von einem mit der größten Bewertung S.f(w.2) + S.b(w.2) sortiert. Ferner erzeugt die Sprachverarbeitungseinheit 106 für die Erkennungsergebnis-Halteeinheit 104 jedes "w.2" und jedes S.f(w.2) als eine neue kumulative Bewertung G(w.2).
  • Wie in S veranschaulicht ist, werden jedem voraussichtlichen Sprachabschnitt-Erkennungsergebnis in dem in 4 gezeigten Gitter eine kumulative Bewertung und eine akustische Wahrscheinlichkeit zugewiesen. Wie in 6 veranschaulicht ist, wird ferner jedem Wortpaar eine Sprachbewertung zugewiesen. Außerdem ist in den beiden obigen Gleichungen (1) und (2) jede Gewichtung w = 1.
  • Andererseits kann sicher gestellt werden, dass die Verbindung zwischen jedem Wortpaar in 6 verboten ist, wenn die Sprachbewertung des Paars "0" ist. Dementsprechend werden hinsichtlich der drei voraussichtlichen Erkennungsergebnisse die S.f(w.2) jeweils wie folgt bestimmt.
  • Figure 00090001
  • Ähnlich werden die S.b(w.2) hinsichtlich der drei voraussichtlichen Erkennungsergebnisse jeweils wie folgt bestimmt.
  • Figure 00090002
  • Angesichts des Obigen werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in der Reihenfolge von einem mit der größten Bewertung S.f(w.2) + S.b(w.2) sortiert. Im Ergebnis werden die sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse auf folgende Weise angeordnet.
  • Figure 00090003
  • Wie in der obigen Weise gezeigt ist, können die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse in Bezug auf den bestimmten Sprachabschnitt (den ersten Sprachabschnitt) allein durch einmaliges gleichzeitiges Anwenden einer dynamischen Programmierung von beiden Richtungen, d. h. sowohl von der oben erwähnten Vorwärts- als auch von der oben erwähnten Rückwärtsrichtung, auf optimierte Weise sortiert werden.
  • In 4 sind die in Bezug auf den bestimmten Sprachabschnitt in optimierter Reihenfolge [in der Reihenfolge
    Figure 00090004
    [in der Reihenfolge (de), (reru), (miru)] sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse veranschaulicht. Gleichzeitig kann in dem Gitter auch eine optimierte Wortfolge bestimmt werden (die optimierte Wortfolge ist in der obigen Weise von einer Strichlinie umgeben gezeigt). Somit kann durch Anzeigen einer solchen op timierten Wortfolge ein verbessertes Sprachabschnitt-Erkennungssystem geschaffen werden, das nie zu einem erzeugten Sprachabschnitt verzögert. Durch die Verwendung der Erkennungsergebnisse nach dem bestimmten Sprachabschnitt unter den optimierten Wortfolgen kann das Ergebnis selbst in Bezug auf diejenigen Sprachabschnitte neu geschrieben werden, deren Ergebnis bereits angezeigt worden ist. Somit kann eine Genauigkeit der Erkennungsergebnisse dementsprechend verbessert werden.
  • Anhand der 7 und 8 fährt die Beschreibung mit einem Sprachabschnitt-Erkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung fort.
  • 7 ist ein Blockschaltplan, der ein Sprachabschnitt-Erkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt. 8 ist eine Ansicht, die ein Beispiel eines Gitters zeigt, das in dem Sprachabschnitt-Erkennungssystem gemäß der zweiten Ausführungsform der vorliegenden Erfindung verwendet wird.
  • Wie in 7 veranschaulicht ist, hat das Sprachabschnitt-Erkennungssystem gemäß der zweiten Ausführungsform abgesehen davon, dass das Sprachabschnitt-Erkennungssystem der zweiten Ausführungsform keine Kontextspeichereinheit 107 in der ersten Ausführungsform besitzt, grundsätzlich eine ähnliche Struktur wie das der ersten Ausführungsform. Ähnliche Abschnitte sind mit den gleichen Bezugszeichen bezeichnet.
  • In dem in 7 veranschaulichten Sprachabschnitt-Erkennungssystem wird ein Gitter nur aus den in der Erkennungsergebnis-Halteeinheit 104 gespeicherten voraussichtlichen Sprachabschnitt-Erkennungsergebnissen konstruiert.
  • Wie in den 7 und 8 gezeigt ist, wird eine Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung in einer Vorwärtsrichtung, d. h. vom linken Ende des Gitters zu dem bestimmten Sprachabschnitt in Bezug auf die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse, ausgeführt. Gleichzeitig wird durch die Verwendung dynamischer Programmierung in einer Rückwärtsrichtung, d. h. von dem rechten Ende des Gitters zu dem bestimmten Sprachabschnitt in Bezug auf die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse, ebenfalls eine weitere Sprachverarbeitung ausgeführt. Eine Summe kumulativer Bewertungen, die durch die Sprachverarbeitung in der Vorwärtsrichtung erhalten werden, wird mit einer weiteren Summe kumulativer Bewertungen verglichen, die durch die weitere Sprachverarbeitung in der Rückwärtsrichtung erhalten werden. Im Ergebnis des Vergleichs werden die voraussichtlichen Sprachabschnitt-Erkennungsergebnisse sortiert. Dementsprechend können die auf optimierte Weise sortierten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse erhalten werden.
  • In 8 ist ein Beispiel mit "i = 3" gezeigt. Wenn das Wortbigramm als ein Sprachmodell verwendet wird, kann ähnlich dem Wortunigramm eine Bewertung genutzt werden, die nur von dem linken Ende des Gitters geliefert wird. In diesem Fall kann eine Kontextspeichereinheit in dem Sprachabschnitt-Erkennungssystem weggelassen werden. Ferner kann das Sprachabschnitt-Erkennungssystem frei von einem Einfluss eines Fehlers sein, der gemacht wird, bevor sich das gespeicherte voraussichtliche Sprachabschnitt-Erkennungsergebnis ergibt.
  • Wie oben beschrieben wurde, wird gemäß der ersten und der zweiten Ausführungsform der vorliegenden Erfindung durch die Verwendung einer dynamischen Programmierung von den beiden Enden der gespeicherten voraussichtlichen Sprachabschnitt-Erkennungsergebnisse, d. h. sowohl in Vorwärts- als auch in Rückwärtsrichtung, gleichzeitig eine jeweilige Sprachverarbeitung zu einem bestimmten Sprachabschnitt ausgeführt. Ein Sprachabschnitt-Erkennungssystem wird fähig, voraussichtliche Erkennungsergebnisse, die für den bestimmten Sprachabschnitt erhalten werden, nur durch einmalige Sprachverarbeitung in optimierter Reihenfolge zu sortieren.
  • Obgleich die vorliegende Erfindung bisher nur in Verbindung mit zwei Ausführungsformen davon beschrieben wurde, ist es nun für den Fachmann auf dem Gebiet leicht möglich, diese Erfindung auf verschiedene andere Weise auszudrücken. Zum Beispiel wird in der ersten Ausführungsform das Wortbigramm als ein Sprachmodul verwendet. Allerdings können alternativ die anderen Sprachmodelle wie etwa ein n-gramm-Modell genutzt werden, sofern die Sprachmodelle durch die Verwendung dynamischer Programmierung angewendet werden können.
  • Darüber hinaus wird das Sprachabschnitt-Erkennungssystem der vorliegenden Erfindung in der ersten und in der zweiten Ausführungsform auf die Sprachabschnitterkennung in japanischer Sprache angewendet. Allerdings kann das Prinzip der vorliegenden Erfindung auf die Sprachabschnitterkennung in irgendwelchen anderen Sprachen als der japanischen Sprache angewendet werden.
  • Darüber ist das, was in der vorstehenden Beschreibung durch den Begriff "Sprachabschnitt" ("voice") verstanden wird, keine "Sprache" in ihrem herkömmlichen Sinn, sondern bezieht sich der Begriff Sprachabschnitt auf einen Wortteil oder auf ein Wort oder auf einen Satzteil oder auf einen Satz, die durch das Sprachabschnitt-Erkennungssystem erkannt werden sollen.
  • Im Folgenden werden Transkriptionen der Zeilen auf Seite 9 gegeben, die chinesische und japanische Zeichen enthalten, in denen die chinesischen und die japanischen Zeichen durch lateinische Zeichen ersetzt sind.
  • Figure 00120001

Claims (4)

  1. Sprachabschnitt-Erkennungssystem, das mehrere voraussichtliche Erkennungsergebnisse in Bezug auf wenigstens zwei eingehende Sprachabschnitte sucht und unter den jeweiligen mehreren voraussichtlichen Erkennungsergebnissen jedes voraussichtliche Erkennungsergebnis in Bezug auf die wenigstens zwei eingehenden Sprachabschnitte auswählt, so dass als Ganzes eine optimierte Folge von Erkennungsergebnissen erhalten wird, dadurch gekennzeichnet, dass das Sprachabschnitterkennungssystem umfasst: eine primäre Sprachverarbeitungseinrichtung zum Ausführen einer primären Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung (200) in Vorwärtsrichtung an einem primären voraussichtlichen Erkennungsergebnis in Bezug auf die wenigstens zwei eingehenden Sprachabschnitte eines vorhergehenden Sprachabschnitts, der einem bestimmten Sprachabschnitt vorhergeht; eine sekundäre Sprachverarbeitungseinrichtung zum Ausführen einer sekundären Sprachverarbeitung durch die Verwendung einer dynamischen Programmierung (300) in Rückwärtsrichtung an einem sekundären voraussichtlichen Erkennungsergebnis in Bezug auf die wenigstens zwei eingehenden Sprachabschnitte eines folgenden Sprachabschnitts, der dem bestimmten Sprachabschnitt folgt; eine Bewertungseinrichtung, die an jedem der primären voraussichtlichen Erkennungsergebnisse des vorhergehenden Sprachabschnitts eine kumulative Bewertung eines optimierten Pfades, der die bestimmten voraussichtlichen Erkennungsergebnisse des bestimmten Sprachabschnitts in Bezug auf jedes Ergebnis der primären Sprachverarbeitung und der sekundären Sprachverarbeitung berechnet; und eine Sortiereinrichtung zum Sortieren der bestimmten voraussichtlichen Erkennungsergebnisse des bestimmten Sprachabschnitts der Reihe nach ausgehend von einem der bestimmten voraussichtlichen Erkennungsergebnisse, das den größten Wert der kumulativen Bewertung besitzt.
  2. Sprachabschnitterkennungssystem nach Anspruch 1, dadurch gekennzeichnet, dass das Sprachabschnitt-Erkennungssystem ferner umfasst: eine akustische Verarbeitungseinheit (101) zum Analysieren eines eingehenden Sprachabschnitts, um einen analysierten eingehenden Sprachabschnitt zu erzeugen; eine Standardmuster-Speichereinheit (103), die Standard-Schallmuster besitzt, die bereits analysiert worden sind; eine Sprachabschnit-Erkennungseinheit (102), die die akustische Wahrscheinlichkeit dafür bestimmt, dass Ähnlichkeiten zwischen dem analysierten eingehenden Sprachabschnitt und jedem der akustischen Standardmuster auftreten, und die wenigstens ein voraussichtliches Erkennungsergebnis für jeden Sprachabschnitt zusammen mit der akustischen Wahrscheinlichkeit erzeugt; eine Erkennungsergebnis-Halteeinheit (104), die das wenigstens eine voraussichtliche Erkennungsergebnis, das anhand der Sprachabschnitt-Erkennungseinheit (102) erzeugt wird, speichert, um einen vorgegebenen Betrag des wenigstens einen voraussichtlichen Erkennungsergebnisses auszugeben; eine Sprachverarbeitungseinheit (106), die die primäre Sprachverarbeitungseinrichtung, die sekundäre Sprachverarbeitungseinrichtung, die Bewertungseinrichtung und die Sortiereinrichtung umfasst: eine Kontextspeichereinheit (107), die ein Ergebnis der primären Sprachverarbeitungseinrichtung speichert, das von der Sprachverarbeitungseinheit (106) geliefert wird; eine Gitterkonstruktionseinheit (105) zum Konstruieren eines Gitters, das aus dem vorgegebenen Betrag der voraussichtlichen Erkennungsergebnisse und aus dem von der Kontextspeichereinheit (107) ausgegebenen Ergebnis aufgebaut ist; und wobei die primäre Sprachverarbeitung von einem linken Ende des Gitters zu einem bestimmten Sprachabschnitt ausgeführt wird, während die sekundäre Sprachverarbeitung von einem rechten Ende des Gitters zu dem bestimmten Sprachabschnitt ausgeführt wird.
  3. Sprachabschnitt-Erkennungssystem nach Anspruch 2, dadurch gekennzeichnet, dass die Sprachverarbeitung an allen Sprachabschnitten in dem Gitter ausgeführt wird, um eine optimierte Folge von Erkennungsergebnissen zu erhalten.
  4. Sprachabschnitt-Erkennungssystem nach Anspruch 3, dadurch gekennzeichnet, dass das Sprachabschnitt-Erkennungssystem eine Folge von Erkennungsergebnissen bezüglich des bestimmten Sprachabschnitts, in der voraussichtliche Erkennungsergebnisse in optimierter Reihenfolge sortiert sind, und bezüglich der anderen Sprachabschnitte, die dem bestimmten Sprachabschnitt folgen, anzeigt, um keine Zeit nach dem bestimmten Sprachabschnitt zu verlieren, und dass das Sprachabschnitt-Erkennungssystem die voraussichtlichen Erkennungsergebnisse in dem Fall, in dem die Erkennungsergebnisse durch die dem bestimmten Sprachabschnitt folgenden anderen Sprachabschnitte erneuert werden, neu schreibt.
DE69834366T 1997-08-08 1998-08-10 Vorrichtung zum Sortieren potentieller Spracherkennungsergebnisse in optimierter Ordnung, die durch einen linguistischen Sprachprozessor erhalten werden Expired - Lifetime DE69834366T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP9227584A JP3050180B2 (ja) 1997-08-08 1997-08-08 音声認識装置
JP22758497 1997-08-08

Publications (2)

Publication Number Publication Date
DE69834366D1 DE69834366D1 (de) 2006-06-08
DE69834366T2 true DE69834366T2 (de) 2007-04-19

Family

ID=16863215

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69834366T Expired - Lifetime DE69834366T2 (de) 1997-08-08 1998-08-10 Vorrichtung zum Sortieren potentieller Spracherkennungsergebnisse in optimierter Ordnung, die durch einen linguistischen Sprachprozessor erhalten werden

Country Status (4)

Country Link
US (1) US6088672A (de)
EP (1) EP0896320B1 (de)
JP (1) JP3050180B2 (de)
DE (1) DE69834366T2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267529A1 (en) * 2003-06-24 2004-12-30 Aurilab, Llc N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram
US8478578B2 (en) * 2008-01-09 2013-07-02 Fluential, Llc Mobile speech-to-speech interpretation system
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
JP3003276B2 (ja) * 1991-06-19 2000-01-24 松下電器産業株式会社 信号解析装置
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
JP3311460B2 (ja) * 1994-01-28 2002-08-05 富士通株式会社 音声認識装置
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
DE4412930A1 (de) * 1994-04-15 1995-10-19 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern
JP3280825B2 (ja) * 1995-04-26 2002-05-13 富士通株式会社 音声特徴分析装置

Also Published As

Publication number Publication date
US6088672A (en) 2000-07-11
EP0896320B1 (de) 2006-05-03
DE69834366D1 (de) 2006-06-08
JPH1152980A (ja) 1999-02-26
EP0896320A2 (de) 1999-02-10
EP0896320A3 (de) 1999-09-01
JP3050180B2 (ja) 2000-06-12

Similar Documents

Publication Publication Date Title
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60204374T2 (de) Spracherkennungsvorrichtung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69823644T2 (de) Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
EP1085499B1 (de) Erkennung einer in buchstabierter Form vorliegenden Sprachäusserungseingabe
DE60109999T2 (de) Spracherkennung mittels lexikalischer Bäumen
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
WO1998011537A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE3711348A1 (de) Verfahren zum erkennen kontinuierlich gesprochener woerter
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE2825082A1 (de) Verfahren zur spracherkennung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE19842405A1 (de) Spracherkennungsverfahren mit Konfidenzmaßbewertung
DE10008502C2 (de) Anapher-Analysevorrichtung mit Vorgängerkandidatenzurückweisungseinrichtung unter Verwendung eines Kandidatenzurückweisungsentscheidungsbaums
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE69824063T2 (de) Normalisierung von Sprachsignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition