DE112013006770B4

DE112013006770B4 - Spracherkennungsvorrichtung und Spracherkennungsverfahren

Info

Publication number: DE112013006770B4
Application number: DE112013006770.6T
Authority: DE
Inventors: Toshiyuki Hanazawa
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2020-06-18
Anticipated expiration: 2033-03-07
Also published as: CN105009206A; WO2014136222A1; JP5868544B2; JPWO2014136222A1; CN105009206B; US9431010B2; DE112013006770T5; US20160005400A1

Abstract

Spracherkennungsvorrichtung (1), die ein internes Erkennungsergebnis (10) anhand ihrer Erkennungsverarbeitung von Eingangssprachdaten (4) und ein externes Erkennungsergebnis (11) anhand der Erkennungsverarbeitung der Eingangssprachdaten (4) durch eine oder mehrere externe Erkennungseinheiten (19), die außerhalb existieren, erwirbt, um hierdurch ein endgültiges Erkennungsergebnis (18) zu bestimmen, wobei die Spracherkennungsvorrichtung (1) aufweist:ein akustisches Modell (9), in welchem Merkmalsquantitäten von Äußerungen modelliert sind;ein Sprachmodell (8), in welchem Notationen und Lesarten von mehr als einem Erkennungsobjektwort der Spracherkennungsvorrichtung (1) gespeichert sind;ein Lesarten-Wörterbuch (13), in welchem Paare von Notationen und Lesarten der Erkennungsobjektwörter und anderer Wörter als der Erkennungsobjektwörter gespeichert sind;eine Analysevorrichtung (5), die die Eingangssprachdaten (4) analysiert, um einen Merkmalsvektor (6) zu berechnen;eine interne Erkennungseinheit (7), die unter Verwendung des akustischen Modells (9) einen Mustervergleich zwischen dem von der Analysevorrichtung (5) berechneten Merkmalsvektor (6) und jedem von in dem Sprachmodell (8) gespeicherten Wörtern durchführt, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, gefolgt von dem Ausgeben, als das interne Erkennungsergebnis (10), der Notationen, der Lesarten und der akustischen Wahrscheinlichkeiten des obersten oder mehrerer hochrangiger Wörter hinsichtlich der akustischen Wahrscheinlichkeiten;einen Lesartenhinzufügungs-Prozessor (12), der das externe Erkennungsergebnis (11) anhand der Erkennungsverarbeitung der Eingangssprachdaten (4) durch die externe Erkennungseinheit (19) erwirbt, eine Lesart für das externe Erkennungsergebnis (11) durch Verwendung des Lesarten-Wörterbuchs (13) hinzufügt und ein mit der hinzugefügten Lesart versehenes Ergebnis (14), das aus dem externen Erkennungsergebnis (11) und der Lesart für dieses zusammengesetzt ist, ausgibt;einen Wiedervergleichsprozessor (15), der unter Verwendung des akustischen Modells (9) einen Mustervergleich zwischen dem von der Analysevorrichtung (5) berechneten Merkmalsvektor (6) und dem mit der hinzugefügten Lesart versehenen Ergebnis (14), das von dem Lesarten-Hinzufügungsprozessor (12) ausgegeben wurde, durchführt, um hierdurch eine akustische Wahrscheinlichkeit für das externe Erkennungsergebnis (11) zu berechnen; undeinen Ergebnisbestimmungsprozessor (17), der die akustischen Wahrscheinlichkeiten des internen Erkennungsergebnisses (10) mit der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses (11) vergleicht, um hierdurch das endgültige Erkennungsergebnis (18) zu bestimmen.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren zum Erwerben von Erkennungsergebnissen jeweils von einer externen Spracherkennungseinheit und einer internen Spracherkennungseinheit, um hierdurch ein endgültiges Erkennungsergebnis zu bestimmen.
STAND DER TECHNIK
Wenn eine Spracherkennung unter Verwendung eines Instruments wie einer Fahrzeug-Navigationsvorrichtung, eines Smartphones und dergleichen durchzuführen ist, hat ein derartiges Instrument nicht notwendigerweise ausreichende Hardwareressourcen. Aus diesem Grund gibt es ein Client-Server-Spracherkennungssystem, in welchem, anstatt die gesamte Spracherkennung einer Äußerung intern durchzuführen, das Instrument seine Sprachdaten zu einem externen Server sendet, gefolgt von dem Empfang eines Ergebnisses der von dem Server durchgeführten Spracherkennung. Es ist zu beachten, dass der „Client“ hier ein Instrument bedeutet, das ein Benutzer zur Verfügung hat, wie eine Fahrzeug-Navigationsvorrichtung, ein Smartphone und dergleichen. Folglich wird es selbst bei dem Client möglich, eine auf einem großen Wortschatz basierende Spracherkennung durchzuführen. Jedoch sind ein für den Client spezifisches Erkennungswort, ein Eigenname, der nur in einem Adressbuch des Benutzers gefunden wird, und dergleichen nicht notwendigerweise für den Server erkennbar.
Als eine Maßnahme hiergegen ist im Patentdokument 1 eine Technik offenbart, die nicht nur bloß eine Spracherkennung durch den Server durchführt, gefolgt von dem Empfang des Ergebnisses durch den Client, sondern auch, abhängig von einer Äußerung, eine Spracherkennung sowohl durch den Client als auch den Server durchführt, gefolgt von unterschiedlichem Anzeigen beider Erkennungsergebnisse oder von Auswählen eines der Ergebnisse. Insbesondere ist im Patentdokument 1 beschrieben, dass, wenn eines der Erkennungsergebnisse durch den Client oder den Server auszuwählen ist, das mit einer höheren akustischen Wahrscheinlichkeit ausgewählt wird.
Patentdokument 2 beschreibt ein System und ein Verfahren zur Spracherkennung, an denen ein Mobilgerät beteiligt ist. Eine Spracheingabe wird auf dem Mobilgerät empfangen und in einen Satz phonetischer Symbole umgewandelt. Daten, die sich auf die phonetischen Symbole beziehen, werden von dem Mobilgerät über ein Kommunikationsnetzwerk zu einem entfernten Verarbeitungsgerät übertragen, wo sie verwendet werden, um mindestens ein übereinstimmendes Datenelement aus einem Satz von Datenelementen zu identifizieren. Daten, die sich auf das mindestens eine übereinstimmende Datenelement beziehen, werden von der entfernten Verarbeitungsvorrichtung zu der mobilen Vorrichtung übertragen und darauf präsentiert.
ZITATLISTE
PATENTDOKUMENT

Patentdokument 1: japanische Patentanmeldungs-Offenlegungsschrift Nr. JP 2010 - 85 536 A
Patentdokument 2: US 2011 / 0 307 254 A1

KURZFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
In dem Fall des herkömmlichen Client-Server-Spracherkennungsverfahrens ist es zu der Zeit des Auswählens eines der Erkennungsergebnisse durch den Client oder den Server erforderlich, zwischen ihren Erkennungsergebnissen, ihren Wahrscheinlichkeiten usw. zu vergleichen, die Werte sind, die Gewissheiten über beide Erkennungsergebnisse anzeigen; jedoch gibt es Fälle, in denen derartige Informationen von der Serverseite nicht erhalten werden können. Weiterhin besteht, wenn sie erhalten werden, keine Gewissheit, dass sie auf derselben Grundlage wie bei der Spracherkennung auf der Clientseite berechnet wurden. Daher besteht ein Problem dahingehend, dass, wenn eines der Erkennungsergebnisse von dem Client oder dem Server auszuwählen ist, in einigen Fällen ein exakter Vergleich zwischen diesen nicht durchgeführt werden kann, so dass eine ausreichende Genauigkeit bei der Spracherkennung nicht erzielt wird.
Diese Erfindung wurde gemacht, um das vorbeschriebene Problem zu lösen, und es ist eine Aufgabe von dieser, eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren anzugeben, durch die das Erkennungsergebnis durch den Client und das Erkennungsergebnis durch den Server unter denselben Bedingungen miteinander verglichen werden, um hierdurch eine endgültige Erkennungsgenauigkeit zu erhöhen.
MITTEL ZUM LÖSEN DER PROBLEME
Eine Spracherkennungsvorrichtung gemäß der Erfindung weist auf: ein akustisches Modell, in welchem Merkmalsquantitäten von Äußerungen modelliert sind; ein Sprachenmodell, in welchem Notationen und Lesarten von mehr als einem Erkennungsobjektwort der Spracherkennungsvorrichtung gespeichert sind; ein Lesarten-Wörterbuch, in welchem Paare von Notationen und Lesarten der Erkennungsobjektwörter und anderer Wörter als der Erkennungsobjektwörter gespeichert sind; eine Analysevorrichtung, die Eingangssprachdaten analysiert, um einen Merkmalsvektor zu berechnen; eine interne Erkennungseinheit, die unter Verwendung des akustischen Modells einen Mustervergleich zwischen dem von der Analysevorrichtung berechneten Merkmalsvektor und jedem der in dem Sprachenmodell gespeicherten Wörter durchführt, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, gefolgt von dem Ausgeben, als eines internen Erkennungsergebnisses, der Notationen, der Lesarten und der akustischen Wahrscheinlichkeiten des hinsichtlich der akustischen Wahrscheinlichkeit obersten oder mehrerer hochrangiger Wörter; einen Lesarthinzufügungs-Prozessor, der ein externes Erkennungsergebnis anhand der Erkennungsverarbeitung der eingegebenen Sprachdaten durch eine externe Erkennungseinheit erwirbt, eine Lesart für das externe Erkennungsergebnis durch Verwendung des Lesarten-Wörterbuchs hinzufügt und ein mit der Lesart versehenes Ergebnis, das aus dem externen Erkennungsergebnis und der Lesart für dieses zusammengesetzt ist, ausgibt; einen Wiedervergleichsprozessor, der unter Verwendung des akustischen Modells einen Mustervergleich zwischen dem von der Analysevorrichtung berechneten Merkmalsvektor und dem mit der Lesart versehenen Ergebnis, das von dem Lesarthinzufügungs-Prozessor ausgegeben wurde, durchführt, um hierdurch eine akustische Wahrscheinlichkeit für das externe Erkennungsergebnis zu berechnen; und einen Ergebnisbestimmungsprozessor, der die akustischen Wahrscheinlichkeiten des internen Erkennungsergebnisses mit der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses vergleicht, um hierdurch ein endgültiges Erkennungsergebnis zu bestimmen.
Ein Spracherkennungsverfahren der Erfindung weist auf: einen Sendeschritt des Sendens von Eingangssprachdaten zu einer externen Erkennungseinheit; einen Analyseschritt des Analysierens der Eingangssprachdaten zum Berechnen eines Merkmalsvektors; einen internen Erkennungsschritt des Durchführens, indem ein akustisches Modell, in welchem Merkmalsquantitäten von Äußerungen modelliert sind, verwendet wird, eines Mustervergleichs zwischen dem in dem Analyseschritt berechneten Merkmalsvektor und jedem von in einem Sprachmodell, in welchem Notationen und Lesarten von mehr als einem Erkennungsobjektwort der Spracherkennungsvorrichtung gespeichert sind, gespeicherten Wörtern, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, gefolgt von dem Ausgeben, als eines internen Erkennungsergebnisses, der Notationen, der Lesarten und der akustischen Wahrscheinlichkeiten des in Bezug auf die akustischen Wahrscheinlichkeiten obersten oder mehrerer hochrangiger Wörter; einen Lesartenhinzufügungsschritt des Erwerbens eines externen Erkennungsergebnisses anhand einer Erkennungsverarbeitung der Eingangssprachdaten durch die externe Erkennungseinheit, des Hinzufügens einer Lesart für das externe Erkennungsergebnis durch Verwendung eines Lesarten-Wörterbuchs, in welchem Paare von Notationen und Lesarten der Erkennungsobjektwörter und anderer Wörter als der Erkennungsobjektwörter gespeichert sind, und des Ausgebens eines mit einer Lesart versehenen Ergebnisses, das aus dem externen Erkennungsergebnis und der Lesart hierfür zusammengesetzt ist; einen Wiedervergleichsschritt des Durchführens, unter Verwendung des akustischen Modells eines Mustervergleichs zwischen dem in dem Analyseschritt berechneten Merkmalsvektor und dem in dem Lesarthinzufügungsschritt ausgegebenen, mit der Lesart versehenen Ergebnis, um hierdurch die akustische Wahrscheinlichkeit für das externe Erkennungsergebnis zu berechnen; und einen Ergebnisbestimmungsschritt des Vergleichens der akustischen Wahrscheinlichkeit des internen Erkennungsergebnisses mit der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses, um hierdurch ein endgültiges Erkennungsergebnis zu bestimmen.
WIRKUNG DER ERFINDUNG
Durch die Erfindung ist es möglich, eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren anzugeben, durch die die akustische Wahrscheinlichkeit des internen Erkennungsergebnisses und die akustische Wahrscheinlichkeit des externen Erkennungsergebnisses unter Verwendung desselben akustischen Modells berechnet und miteinander verglichen werden, so dass die endgültige Erkennungsgenauigkeit erhöht wird.
Figurenliste

1 ist ein Blockschaltbild, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 1 der Erfindung zeigt.
2 ist ein Diagramm zum Illustrieren eines Beispiels für Einzelheiten eines in der Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 1 enthaltenen Sprachenmodells.
3 ist ein Diagramm, das ein Beispiel für Einzelheiten eines in der Spracherkennungsvorrichtung nach dem Ausführungsbeispiel enthaltenen Lesarten-Wörterbuchs illustriert.
4 ist ein Flussdiagramm, das Operationen der Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 1 zeigt.
5 ist ein Diagramm, das als ein modifiziertes Beispiel ein Beispiel für Einzelheiten eines Lesarten-Wörterbuchs in Englisch der Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 1 illustriert.
6 ist ein Blockschaltbild, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 2 der Erfindung zeigt.
7 ist ein Flussdiagramm, das Operationen der Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 2 zeigt.
8 ist ein Diagramm, das ein Beispiel für Einzelheiten eines Lesarten-Wörterbuchs, das in der Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 3 enthalten ist, illustriert.
9 ist ein Blockschaltbild, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel der Erfindung zeigt.
10 ist ein Diagramm, das ein Beispiel für Einzelheiten eines Ergebnisbestimmungs-Sprachmodells, das in der Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 4 enthalten ist, illustriert.

ARTEN DER DURCHFÜHRUNG DER ERFINDUNG
Nachfolgend werden, um die Erfindung genauer zu illustrieren, Ausführungsbeispiele zum Durchführen der Erfindung gemäß den begleitenden Zeichnungen beschrieben.
Ausführungsbeispiel 1
Wie in 1 gezeigt ist, enthält eine Spracherkennungsvorrichtung 1 gemäß dem Ausführungsbeispiel 1 einen Sender 3, eine Analysevorrichtung 5, eine interne Erkennungseinheit 7, ein Sprachenmodell 8, ein akustisches Modell 9, einen Lesartenhinzufügungs-Prozessor 12, ein Lesarten-Wörterbuch 13, einen Wiedervergleichsprozessor 15 und ein Wiedervergleichsergebnis 16. Die Spracherkennungsvorrichtung 1 entspricht einem Client zur Bildung eines Client-Server-Spracherkennungssystems, die in einem bestehenden Instrument befestigt oder installiert sein kann, beispielsweise einem Smartphone oder dergleichen tragbaren Instrument, das von einem Benutzer getragen wird, einer Navigationsvorrichtung, die in einem Fahrzeug oder gleichartigen bewegten Objekt befestigt oder in dieses gebracht ist, oder dergleichen; oder stattdessen als eine separate Einheit verwendet werden kann.
Es wird angenommen, dass eine externe Erkennungseinheit 19 ein Spracherkennungsserver ist, der mit der Spracherkennungsvorrichtung 1 durch ein Netzwerk verbunden ist. Sie kann direkt durch Leitung oder leitungslos ohne Verbindung durch ein Netzwerk verbunden sein.
In der Spracherkennungsvorrichtung 1 speichert das akustische Modell 9 akustische Modelle, die durch Modellierung von Merkmalsvektoren von Äußerungen erhalten wurden. Bei dem Ausführungsbeispiel 1 wird angenommen, dass die akustischen Modelle durch Modellierung von Phonemen erhalten wurden, und in dem akustischen Modell 9 sind die akustischen Modelle für alle Phoneme gespeichert. Mit den akustischen Modellen für alle Phoneme ist es möglich, einen Merkmalsvektor einer Äußerung über jedes Wort zu modellieren, indem Zugriff zu einem akustischen Modell seiner Phoneme genommen wird.
Es ist festzustellen, dass der durch das akustische Modell 9 zu modellierende Merkmalsvektor (nämlich ein Merkmalsvektor 6 in 1) beispielsweise ein MFCC (Mel Frequency Cepstral Coefficient) sein soll. Weiterhin kann beispielsweise angenommen werden, dass das akustische Modell ein HMM (verstecktes Markov-Modell) ist.
Das Sprachenmodell 8 speichert Notationen und Lesarten von Erkennungsobjektwörtern der internen Erkennungseinheit 7. Es ist zu beachten, dass „Lesart“ hier eine Symbolfolge bedeuten soll, die mit dem akustischen Modell 9 assoziiert werden kann. Beispielsweise sind die Lesarten in dem Sprachenmodell 8, wenn das akustische Modell 9 dasjenige ist, in welchem Phoneme modelliert sind, Phonemsequenzen oder dergleichen. In dem Ausführungsbeispiel 1 wird angenommen, dass die Erkennungsobjekte der Spracherkennungsvorrichtung 1 Namen für Einrichtungen in der Kanagawa-Präfektur sind. Ein Beispiel für Einzelheiten des Sprachmodells in diesem Fall ist in 2 gezeigt. In 2 werden Phonemsequenzen als die Lesarten verwendet.
Das Lesarten-Wörterbuch 13 speichert Paare von Notationen und Lesarten einer großen Anzahl von Wörtern, die auch Wörter enthalten, die nicht Gegenstand der Erkennung durch die interne Erkennungseinheit 7 sind. Es ist zu beachten, dass angenommen wird, dass „Lesart“, ähnlich dem Sprachenmodell 8, eine Symbolsequenz ist, die mit dem akustischen Modell 9 assoziiert werden kann. Bei dem Ausführungsbeispiel 1 sind diese Lesarten in dem Lesarten-Wörterbuch 13 Phonemsequenzen. Ein Beispiel für Einzelheiten des Lesarten-Wörterbuchs 13 ist in 3 gezeigt.
Das Sprachenmodell 8, das akustische Modell 9 und das Lesarten-Wörterbuch 13 können in einem gemeinsamen Speicherelement, einer gemeinsamen Speichervorrichtung oder dergleichen gespeichert sein, oder sie können in unabhängigen Speicherelementen, Speichervorrichtungen oder dergleichen gespeichert sein.
Weiterhin ist es zulässig, die Spracherkennungsvorrichtung 1 so zu konfigurieren, dass sie aufweist: einen Speicher, der ein Programm speichert, und eine CPU zum Implementieren des Programms derart, dass, wenn die CPU das Programm implementiert, die Funktionen (Einzelheiten werden später beschrieben), die die von dem Sender 3, der Analysevorrichtung 5, der internen Erkennungseinheit 7, dem Lesartenhinzufügungs-Prozessor 12, dem Wiedervergleichsprozessor 15 und dem Ergebnisbestimmungsprozessor 17 durchgeführt werden, durch Software erzielt werden. Stattdessen kann ein Teil der Funktionen durch Hardware erzielt werden.
Als Nächstes werden Operationen zu der Zeit der Spracherkennung mit Bezug auf das Flussdiagramm in 4 beschrieben.
Im Schritt ST1 wird, wenn ein Benutzer spricht, eine Eingangsäußerung über diese Äußerung in den Sender 3 eingegeben. Der Sender 3 führt eine A/D-Umwandlung der Eingangsäußerung 2 in Sprachdaten 4 durch und gibt die Daten zu der Analysevorrichtung 5 aus. Zusätzlich sendet der Sender 3 dieselben Sprachdaten 4 zu der externen Erkennungsvorrichtung 19.
Im Schritt ST2 wandelt die Analysevorrichtung 5 die Sprachdaten 4 in einen Merkmalsvektor 6 um und gibt ihn zu der internen Erkennungseinheit 7 und dem Wiedervergleichsprozessor 15 aus. Wie vorstehend erwähnt ist, wird angenommen, dass der Merkmalsvektor 6 beispielsweise ein MFCC ist.
Im Schritt ST3 führt die interne Erkennungseinheit 7 unter Verwendung des Sprachmodells 8 und des akustischen Modells 9 gemäß beispielsweise einem Viterbi-Algorithmus einen Mustervergleich (Musteranpassung) zwischen dem Merkmalsvektor 6 und jedem der Wörter, die in das Sprachmodell 8 geschrieben sind, durch, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, gefolgt von dem Auswählen des Wortes, dessen akustische Wahrscheinlichkeit am höchsten ist, und Ausgeben von diesem zu dem Ergebnisbestimmungsprozessor 17 als ein internes Erkennungsergebnis 10.
Es ist hier zu beachten, dass ein Fall beschrieben wird, in welchem nur das oberste hochrangige Wort hinsichtlich der akustischen Wahrscheinlichkeit in dem internen Erkennungsergebnis 10 enthalten ist; jedoch ist dies nicht beschränkend, und es ist zulässig, eine derartige Konfiguration zu verwenden, dass beispielsweise das oberste oder mehrere hochrangige Wörter hinsichtlich der akustischen Wahrscheinlichkeit in dem internen Erkennungsergebnis 10 enthalten sind.
Das interne Erkennungsergebnis 10 ist aus einer Notation, einer Lesart und einer akustischen Wahrscheinlichkeit des Wortes [Kanji] zusammengesetzt. Wenn beispielsweise die Eingangsäußerung 2 „Maihama International Stadium (maihamakokusaikyoogizyoo)“ ist, wird, obgleich nicht dasselbe Wort in dem Sprachmodell 8, ein Wort, dessen akustische Wahrscheinlichkeit unter den Wörtern in dem Sprachmodell 8 am höchsten ist, ausgegeben. In diesem Beispiel wird angenommen, dass die akustische Wahrscheinlichkeit von „Yokohama International Stadium (yokohamakokusaikyoogizyoo)“ am höchsten ist. Demgemäß gibt die interne Erkennungseinheit 7 die Notation „Yokohama International Stadium“, die Lesart „yokohamakokusaikyoogizyoo“ und die akustische Wahrscheinlichkeit dieses Wortes als das interne Erkennungsergebnis 10 aus.
Im Schritt ST4 wartet der Lesarthinzufügungs-Prozessor 12 auf ein externes Erkennungsergebnis 11, das von der externen Erkennungseinheit 19 zurückgesendet wurde. Es ist zu beachten, dass im Ausführungsbeispiel 1 angenommen wird, dass das externe Erkennungsergebnis 11 zumindest eine Notation des Wortes enthält, das ein Erkennungsergebnis der Sprachdaten 4 ist, aber nicht eine Lesart dieses Wortes enthält.
Der Lesarthinzufügungs-Prozessor 12 bezieht sich, wenn das externe Erkennungsergebnis 11 empfangen wird (Schritt ST4: „JA“), auf das Lesarten-Wörterbuch 13, um hierdurch eine Lesart einer Notation aus diesem herauszuziehen, die mit der Notation des in dem externen Erkennungsergebnis 11 enthaltenen Wortes übereinstimmt, und gibt die Lesart zu dem Wiedervergleichsprozessor 15 als ein mit der Lesart versehenes Ergebnis 14 aus (Schritt ST5). Wenn beispielsweise das externe Erkennungsergebnis 11 „Maihama International Stadium“ ist, bezieht sich der Lesarthinzufügungs-Prozessor 12 auf das Lesarten-Wörterbuch 13, um hierdurch die übereinstimmende Notation „Maihama International Stadium“ und ihre Lesart „maihamakokusaikyoogizyoo“ herauszuziehen, und gibt diese als das mit Lesart versehene Ergebnis 14 aus.
Im Schritt ST6 verwendet der Wiedervergleichsprozessor 15 als seine Eingänge den Merkmalsvektor 6 und das mit Lesart versehene Ergebnis 14 und führt unter Verwendung desselben akustischen Modells wie des im Mustervergleich in der internen Erkennungseinheit 7 verwendeten, nämlich unter Verwendung des akustischen Modells 9, einen Mustervergleich zwischen der Lesart des Merkmalsvektors 6 und der Lesart in dem mit der Lesart versehenen Ergebnis 14 durch, um hierdurch eine akustische Wahrscheinlichkeit für das mit der Lesart versehene Ergebnis 14 zu berechnen. Es wird angenommen, dass das Mustervergleichsverfahren durch den Wiedervergleichsprozessor 15 dasselbe ist wie das in der internen Erkennungseinheit 7 verwendete Mustervergleichsverfahren. Im Ausführungsbeispiel wird der Viterbi-Algorithmus verwendet.
Da der Wiedervergleichsprozessor 15 in dieser Weise dasselbe akustische Modell und dasselbe Mustervergleichsverfahren wie die interne Erkennungseinheit 7 verwendet, werden die akustische Wahrscheinlichkeit des internen Erkennungsergebnisses 10, das von der internen Erkennungseinheit 7 berechnet wurde, und die des externen Erkennungsergebnisses 11, das von der externen Erkennungseinheit 19 berechnet wurde, miteinander vergleichbar. Der Wiedervergleichsprozessor 15 gibt das Wiedervergleichsergebnis 16, das aus dem mit der Lesart versehenen Ergebnis 14 und der berechneten akustischen Wahrscheinlichkeit zusammengesetzt ist, zu dem Ergebnisbestimmungsprozessor 17 aus.
Im Schritt ST7 verwendet der Ergebnisbestimmungsprozessor 17 als seine Eingänge das interne Erkennungsergebnis 10 und das Wiedervergleichsergebnis 16, sortiert die Erkennungsergebnisse in abfallender Reihenfolge der akustischen Wahrscheinlichkeit und gibt diese als ein endgültiges Erkennungsergebnis 18 aus. In dem vorbeschriebenen Beispiel wird, da
die Eingangsäußerung 2 „Maihama International Stadium“ ist, das interne Erkennungsergebnis 10 der internen Erkennungseinheit 7 „Yokohama International Stadium“ ist und das externe Erkennungsergebnis 11 der externen Erkennungseinheit 19 „Maihama International Stadium“ ist, wenn der Mustervergleich unter Verwendung desselben akustischen Modells 9 durchgeführt wird, um hierdurch die jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, erwartet, dass „Maihama International Stadium“ der externen Erkennungseinheit 19 eine höhere akustische Wahrscheinlichkeit erhält als das andere. Dies trägt zu einer Erhöhung der Genauigkeit der Spracherkennung bei.
Folglich ist gemäß dem Ausführungsbeispiel 1 die Spracherkennungsvorrichtung 1 so konfiguriert, dass die enthält: das akustische Modell 9, in welchem Merkmalsquantitäten von Äußerungen modelliert sind; das Sprachmodell 8, in welchem Notationen und Lesarten von mehr als einem Erkennungsobjektwort der Spracherkennungsvorrichtung 1 gespeichert sind; das Lesarten-Wörterbuch 13, in welchem Paare von Notationen und Lesarten einer großen Anzahl von Wörtern, enthaltend nicht nur die Erkennungsobjektwörter, sondern auch andere Wörter als die Erkennungsobjektwörter, gespeichert sind; die Analysevorrichtung 5, die die Sprachdaten 4 der Eingangsäußerung 2 analysiert, um den Merkmalsvektor 6 zu berechnen; die interne Erkennungseinheit 7, die unter Verwendung des akustischen Modells 9 einen Mustervergleich zwischen dem von der Analysevorrichtung 5 berechneten Merkmalsvektor 6 und jedem der in dem Sprachmodell 8 gespeicherten Wörter durchführt, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, gefolgt von dem Ausgeben, als das interne Erkennungsergebnis 10, der Notationen, der Lesarten und der akustischen Wahrscheinlichkeiten des obersten oder mehrerer hochrangiger Wörter hinsichtlich der akustischen Wahrscheinlichkeiten; den Lesarthinzufügungs-Prozessor 12, der das externe Erkennungsergebnis 11 durch Erkennungsverarbeitung der Sprachdaten 4 durch die externe Erkennungseinheit 19 erwirbt, eine Lesart für das externe Erkennungsergebnis 11 durch Verwendung des Lesarten-Wörterbuchs 13 hinzufügt und das mit der Lesart versehene Ergebnis 14, das aus dem externen Erkennungsergebnis 11 und der Lesart für dieses zusammengesetzt ist, ausgibt; den Wiedervergleichsprozessor 15, der unter Verwendung des akustischen Modells 9 einen Mustervergleich zwischen dem von der Analysevorrichtung 5 berechneten Merkmalsvektor 6 und dem mit der Lesart versehenen Ergebnis 14, das von dem Lesarthinzufügungs-Prozessor 12 ausgegeben wurde, durchführt, um hierdurch eine akustische Wahrscheinlichkeit für das externe Erkennungsergebnis 11 zu berechnen; und den Ergebnisbestimmungsprozessor 17, der die akustischen Wahrscheinlichkeiten des internen Erkennungsergebnisses 10 mit der akustischen Wahrscheinlichkeit des Wiedervergleichs-Erkennungsergebnisses 16 vergleicht, um hierdurch das endgültige Erkennungsergebnis zu bestimmen. Somit kann die akustische Wahrscheinlichkeit für das externe Erkennungsergebnis 11 durch Verwendung desselben akustischen Modells und desselben Mustervergleichsverfahrens wie die der internen Erkennungseinheit 7 berechnet werden, so dass ein exakter Vergleich zwischen der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses 11 und der akustischen Wahrscheinlichkeit des internen Erkennungsergebnisses 10 vorgenommen werden kann, wodurch es möglich ist, die endgültige Erkennungsgenauigkeit zu erhöhen. Demgemäß ist es selbst in dem Fall, in welchem beispielsweise die Spracherkennungsvorrichtung 1 ungenügende Hardwareressourcen hat und die Anzahl von Wörtern in dem Sprachmodell 8 klein ist, möglich, das Erkennungsergebnis durch die externe Erkennungseinheit 19 mit einem Sprachmodell großen Umfangs zu verwenden, wodurch die Wirkung erhalten wird, dass das Erkennungsvermögen der Spracherkennungsvorrichtung 1 verbessert wird.
Es ist zu beachten, dass die Spracherkennungsvorrichtung 1 nach dem Ausführungsbeispiel 1 auch auf eine andere Sprache als Japanisch anwendbar ist. Wenn beispielsweise die Spracherkennungsvorrichtung 1 auf das Englische anzuwenden ist, ist es ausreichend, das Sprachmodell 8, das akustische Modell 9 und das Lesarten-Wörterbuch 13 in die jeweils entsprechenden für Englisch zu ändern. In diesem Fall ist es ausreichend, Notationen und Lesarten einer großen Anzahl von englischen Wörtern in dem Lesarten-Wörterbuch zu registrieren. Es ist zu beachten, dass die Lesarten in dem Lesarten-Wörterbuch 13 als Anzeigen, die mit dem akustischen Modell 9 assoziiert werden können, vorgesehen sind. Wenn beispielsweise das akustische Modell 9 englische Phoneme aufweist, sind die Lesarten in dem Lesarten-Wörterbuch 13 als Phonemanzeigen oder Symbole, die in die Phonemanzeigen umwandelbar sind, vorgesehen. In 5 ist ein Beispiel für ein englisches Lesarten-Wörterbuch 13 gezeigt. In die erste Spalte in 5 sind die Notationen geschrieben, und in der zweiten Spalte sind die Phonemanzeigen als die Lesarten dieser Notationen.
In dem Lesarten-Wörterbuch 13 sind die Lesarten einer großen Anzahl von Wörtern so gespeichert, dass keine Anwesenheit des Wortes, das mit einem Wort in dem externen Erkennungsergebnis 11 verglichen wird, vermieden wird. In einem Fall, in welchem das verglichene Wort nichtsdestoweniger nicht in dem Lesart-Wörterbuch 13 vorhanden ist, ist es ausreichend, vorher zu bestimmen, welches der Erkennungsergebnisse durch die interne Erkennungseinheit 7 und die externe Erkennungseinheit 19 auszuwählen ist, so dass der Ergebnisbestimmungsprozessor 17 das so bestimmte Erkennungsergebnis als das endgültige Ergebnis liefert.
Ausführungsbeispiel 2
6 ist ein Blockschaltbild, das eine Konfiguration einer Spracherkennungsvorrichtung 1 gemäß dem Ausführungsbeispiel 2 zeigt. In 6 sind dieselben Bezugszahlen denselben oder äquivalenten Teilen wie denjenigen wie in 1 zugeteilt, so dass ihre Beschreibung hier weggelassen wird. Die Spracherkennungsvorrichtung 1 nach dem Ausführungsbeispiel 2 ist gekennzeichnet durch die Hinzufügung eines zweiten akustischen Modells 20.
Ähnlich dem akustischen Modell 9 bei dem Ausführungsbeispiel 1 speichert das zweite akustische Modell 20 akustische Modelle, die durch Modellierung von Merkmalsvektoren von Äußerungen erhalten wurden. Es ist festzustellen, dass angenommen wird, dass das zweite akustische Modell 20 ein akustisches Modell ist, das genauer ist und eine höhere Erkennungsgenauigkeit hat als das akustische Modell 9. Beispielsweise wird in einem Fall, in welchem Phoneme in diesem akustischen Modell zu modellieren sind, angenommen, dass Triphon-Phoneme unter Berücksichtigung von nicht nur einem Zielphonem für die Modellierung, sondern auch von Phonemen vor und nach dem Zielphonem modelliert werden. In dem Fall des Triphons sind das zweite Phonem /s/ in „Morning/asa“ und das zweite Phonem /s/ in „Stone/isi“, da sie unterschiedlich in den Phonemen davor und danach sind, in verschiedene akustische Modelle modelliert. Es ist bekannt, dass dies die Erkennungsgenauigkeit erhöht. Jedoch nehmen Variationen von akustischen Modellen zu, so dass die Berechnungsmenge bei dem Mustervergleich zunimmt.
Als Nächstes werden Operationen zu der Zeit der Spracherkennung mit Bezug auf das Flussdiagramm in 7 beschrieben.
Wenn ein Benutzer spricht, führt der Sender 3 eine A/D-Umwandlung der Eingangsäußerung 2 in Sprachdaten 4 durch und gibt die Daten zu der Analysevorrichtung 5 und der externen Erkennungseinheit 19 aus (Schritt ST1). Die Analysevorrichtung 5 und die interne Erkennungseinheit 7 führen dieselben Operationen wie diejenigen bei dem Ausführungsbeispiel 1 durch (Schritte ST2 und ST3), um hierdurch das interne Erkennungsergebnis 10 auszugeben. Es ist festzustellen, dass im Schritt ST3 des Ausführungsbeispiels 1 das interne Erkennungsergebnis 10 von der internen Erkennungseinheit 7 zu dem Ergebnisbestimmungsprozessor 17 ausgegeben wird; jedoch wird es im Schritt ST3 des Ausführungsbeispiels 2 von der internen Erkennungseinheit 7 zu dem Wiedervergleichsprozessor 15 ausgegeben.
Im Schritt ST11 verwendet der Wiedervergleichsprozessor 15 als seine Eingaben den Merkmalsvektor 6 und das interne Erkennungsergebnis 10 und führt unter Verwendung des zweiten akustischen Modells 20 einen Mustervergleich zwischen der Lesart des Merkmalsvektors und der Lesart in dem internen Erkennungsergebnis 10 durch, um hierdurch eine akustische Wahrscheinlichkeit für das interne Erkennungsergebnis 10 zu berechnen. Obgleich das Mustervergleichsverfahren zu dieser Zeit nicht notwendigerweise dasselbe wie das durch die interne Erkennungseinheit 7 verwendete Verfahren ist, wird im Ausführungsbeispiel 2 der Viterbi-Algorithmus verwendet. Der Wiedervergleichsprozessor 15 gibt das Wiedervergleichsergebnis 16a, das aus dem internen Erkennungsergebnis 10 und der berechneten akustischen Wahrscheinlichkeit zusammengesetzt ist, zu dem Ergebnisbestimmungsprozessor 17 aus.
Es ist zu beachten, dass, wie vorstehend erwähnt ist, da das zweite akustische Modell 20 mehr Variationen der Modelle hat als solche in dem akustischen Modell 9, die für den Mustervergleich erforderliche Berechnungsmenge vergrößert ist; jedoch sind die Erkennungsobjekte des Wiedervergleichsprozessors 15 auf die Wörter beschränkt, die in dem internen Erkennungsergebnis 10 enthalten sind, so dass eine Zunahme der Verarbeitungslast kleingehalten werden kann.
Der Lesarthinzufügungs-Prozessor 12 führt dieselben Operationen wie diejenigen des Ausführungsbeispiels 1 durch (Schritte ST4 und ST5), um hierdurch das mit der Lesart versehene Ergebnis 14 als das externe Erkennungsergebnis 11 zu erhalten und es zu dem Wiedervergleichsprozessor 15 auszugeben.
Im Schritt ST12 erhält, wenn das mit der Lesart versehene Ergebnis 14 eingegeben wird, der Wiedervergleichsprozessor 15 durch ähnliche Operationen wie denjenigen des Ausführungsbeispiels 1 das Wiedervergleichsergebnis 16, das aus dem mit der Lesart versehenen Ergebnis 14 und seiner akustischen Wahrscheinlichkeit zusammengesetzt ist, und gibt es zu dem Ergebnisbestimmungsprozessor 17 aus. Es ist zu beachten, dass das zweite akustische Modell 20 für den Mustervergleich verwendet wird.
Im Schritt ST13 verwendet der Ergebnisbestimmungsprozessor 17 als seine Eingänge das Wiedervergleichsergebnis 16a mit Bezug auf das interne Erkennungsergebnis 10 und das Wiedervergleichsergebnis 16 mit Bezug auf das externe Erkennungsergebnis 11, sortiert die Erkennungsergebnisse in abnehmender Reihenfolge der akustischen Wahrscheinlichkeit und gibt sie als das endgültige Erkennungsergebnis 18 aus.
Folglich ist gemäß dem Ausführungsbeispiel 2 die Spracherkennungsvorrichtung 1 so konfiguriert, dass sie das zweite akustische Modell 20, das von dem akustischen Modell 9 verschieden ist, enthält, wobei unter Verwendung des zweiten akustischen Modells 20 der Wiedervergleichsprozessor 15 einen Mustervergleich zwischen dem von der Analysevorrichtung 5 berechneten Merkmalsvektor 6 und dem von der internen Erkennungseinheit 7 ausgegebenen internen Erkennungsergebnis 10 durchführt, um hierdurch eine akustische Wahrscheinlichkeit (Wiedervergleichsergebnis 16a) für das interne Erkennungsergebnis 10 zu berechnen, und führt einen Mustervergleich zwischen dem Merkmalsvektor 6 und dem mit der hinzugefügten Lesart versehenen Ergebnis 14, das von dem Lesarthinzufügungs-Prozessor 12 ausgegeben wurde, durch, um hierdurch eine akustische Wahrscheinlichkeit (Wiedervergleichsergebnis 16) für das externe Erkennungsergebnis 11 zu berechnen; und wobei der Ergebnisbestimmungsprozessor 17 das endgültige Erkennungsergebnis durch Vergleichen der akustischen Wahrscheinlichkeit des internen Erkennungsergebnisses 10 und der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses 11, die durch den Wiedervergleichsprozessor 15 berechnet wurden, miteinander bestimmt. Demgemäß wird der Wiedervergleich unter Verwendung des zweiten akustischen Modells 20 durchgeführt, das präziser ist und eine höhere Erkennungsgenauigkeit hat als das akustische Modell 9, so dass der Vergleich zwischen der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses 11 und der akustischen Wahrscheinlichkeit des internen Erkennungsergebnisses 10 genauer wird, wodurch eine Wirkung des Verbesserns der Erkennungsgenauigkeit erhalten wird.
Es ist zu beachten, dass der Grund der Nichtverwendung des zweiten akustischen Modells 20 in der internen Erkennungseinheit 7 in dem Umstand liegt, dass, wenn das zweite akustische Modell 20 in dem Mustervergleich durch die interne Erkennungseinheit 7 verwendet wird, da die Variationen von Modellen mehr zunehmen als diejenigen in dem akustischen Modell 9, die Berechnungsmenge zu der Zeit des Mustervergleichs erhöht ist. Wenn verschiedene Arten von Modellen jeweils in dem akustischen Modell 9 und dem zweiten akustischen Modell 20, wie beim Ausführungsbeispiel 2, verwendet werden, wird eine Wirkung derart erhalten, dass die Erkennungsgenauigkeit erhöht wird, während eine Zunahme der Berechnungsmenge kleingehalten wird.
Ausführungsbeispiel 3
Eine Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 3 hat eine Konfiguration, die, was die Figuren angeht, ähnlich der der in 1 oder 6 gezeigten Spracherkennungsvorrichtung 1 ist. Somit wird die folgende Beschreibung unter Verwendung von 1 in einer abweichenden Weise gegeben. Bei der Spracherkennungsvorrichtung 1 gemäß dem Ausführungsbeispiel 3 sind die Einzelheiten des Lesarten-Wörterbuchs 13 und der Operationen des Lesarthinzufügungs-Prozessors 12 und des Wiedervergleichsprozessors 15 wie weiter unten beschrieben modifiziert.
8 ist ein Diagramm, das ein Beispiel für Einzelheiten eines Lesarten-Wörterbuchs 13 der Spracherkennungsvorrichtung gemäß dem Ausführungsbeispiel 3 zeigt. In der Spracherkennungsvorrichtung 1 gemäß dem Ausführungsbeispiel 3 speichert das Lesarten-Wörterbuch 13 auch, anders als das Wörterbuch der in 3 gezeigten Wörter und Namen für Einrichtungen, ein Wörterbuch für Wörter in der Einheit von etwa einem Zeichen, wie in 8 gezeigt ist. Da die Wortelemente in der kleinen Einheit von etwa einem Zeichen verwendet werden, ist es möglich, eine Lesart zu jeder von verschiedenen Notationen in dem externen Erkennungsergebnis 11 hinzuzufügen.
Als Nächstes werden Operationen zu der Zeit der Spracherkennung beschrieben.
Wenn ein Benutzer spricht, führt der Sender 3 eine A/D-Umwandlung der Eingangsäußerung 2 in Sprachdaten 4 durch und gibt die Daten zu der Analysevorrichtung 5 und der externen Erkennungseinheit 19 aus. Die Analysevorrichtung 5 und die interne Erkennungseinheit 7 führen dieselben Operationen wie diejenigen des Ausführungsbeispiels 1 durch, um hierdurch das interne Erkennungsergebnis 10 auszugeben. In dem Fall, in welchem beispielsweise die Eingangsäußerung 2 „Suzuka Slope (suzukasaka)“ ist, wird, obgleich „Suzuka Slope“ in dem Sprachmodell 8 nicht vorhanden ist, ein Mustervergleich zwischen dieser Äußerung und jedem der in das Sprachmodell 8 geschriebenen Wörter durchgeführt, so dass das Wort, dessen akustische Wahrscheinlichkeit am höchsten ist, ausgegeben wird. In dem Ausführungsbeispiel 3 wird angenommen, dass die akustische Wahrscheinlichkeit von „Suzuki Liquor Store (suzukisaketen)“ am höchsten ist. Demgemäß gibt die interne Erkennungseinheit 7 die Notation, die Lesart und die akustische Wahrscheinlichkeit dieses Wortes als das interne Erkennungsergebnis 10 aus.
Der Lesarthinzufügungs-Prozessor 12 wartet auf ein externes Erkennungsergebnis 11, das von der externen Erkennungseinheit 19 zurückgesendet wurde, und wenn er das externe Erkennungsergebnis 11 empfangen hat, bezieht er sich auf das in 8 gezeigte Lesarten-Wörterbuch 13, um hierdurch eine Lesart einer Notation, die der Notation des Wortes (zum Beispiel „Suzuka Slope“), das in dem externen Erkennungsergebnis 11 enthalten ist, zugeordnet ist, herauszuziehen. Wenn in dem Lesarten-Wörterbuch 13 mehrere Lesarten entsprechend der Notation in dem externen Erkennungsergebnis 11 vorhanden sind, gibt der Lesartenhinzufügungs-Prozessor die mehreren Lesarten aus. Wenn weiterhin keine Lesart entsprechend der Notation vorhanden ist, zieht der Lesartenhinzufügungs-Prozessor Notationen aus dem Lesarten-Wörterbuch 13 heraus, die in der Lage sind, wenn sie miteinander gekoppelt werden, die Notation des externen Erkennungsergebnisses 11 zu bilden. Dieser Extraktionsvorgang kann beispielsweise durchgeführt werden, indem die Notation des externen Erkennungsergebnisses 11 einem kontinuierlichen DP(dynamische Programmierung)-Vergleich auf der Basis einer minimalen Teilungsnummer unterzogen wird, unter Verwendung sämtlicher Notationen in dem Lesarten-Wörterbuch 13 als Erkennungsobjekte.
In dem Beispiel des Ausführungsbeispiels 3 gibt es in dem Lesarten-Wörterbuch 13 keine Notation, die „Suzuka Slope“ des externen Erkennungsergebnisses 11 entspricht, so dass der Lesartenhinzufügungs-Prozessor 12 die Notationen „Bell“, „Deer“ und „Slope“ (jeweils ein einzelnes Kanji-Zeichen, die „Suzuka Slope“ bilden“) herauszieht, die in dem Lesarten-Wörterbuch 13 existieren. Wenn es mehrere Lesarten für die so herausgezogene Notation gibt, werden alle Lesartenkombinationen herausgezogen. In diesem Fall gibt es jeweils zwei Lesarten „suzu“ und „rei“ für die Notation „Bell“, und „sika“ und „ka“ für die Notation „Deer“, und eine Lesart „saka“ für die Notation „Slope“, so dass vier Lesarten „suzushikasaka“, „reishikasaka“, „suzukasaka“ und „reikasaka“ als Schreibenweisen für „Suzuka Slope“ des externen Erkennungsergebnisses 11 herausgezogen werden. Dann gibt der Lesartenhinzufügungs-Prozessor 12 als das mit der hinzugefügten Lesart versehene Ergebnis 14 die herausgezogenen vier Lesarten mit der Notation „Suzuka Slope“ aus.
Der Wiedervergleichsprozessor 15 verwendet als seine Eingänge den Merkmalsvektor 6 und das mit der hinzugefügten Lesart versehene Ergebnis 14 und führt unter Verwendung desselben akustischen Modells 9, wie es bei dem Mustervergleich durch die Erkennungseinheit 7 verwendet wurde, einen Mustervergleich zwischen der Lesart des Merkmalsvektors 6 und jeder der mehreren Lesarten in dem mit der hinzugefügten Lesart versehenen Ergebnis 14 durch, um hierdurch anhand der Lesart, deren akustische Wahrscheinlichkeit in dem mit der hinzugefügten Lesart versehenen Ergebnis 14 am höchsten ist, diese akustische Wahrscheinlichkeit als die akustische Wahrscheinlichkeit für das mit der hinzugefügten Lesart versehene Ergebnis 14 zu berechnen. Der Wiedervergleichsprozessor 15 gibt das Wiedervergleichsergebnis 16, das aus dem mit der hinzugefügten Lesart versehenen Ergebnis 14 und der berechneten akustischen Wahrscheinlichkeit zusammengesetzt ist, aus.
Auf diese Weise ist es möglich, wenn es mehrere Lesarten als Kandidaten für die Notation des Wortes in dem externen Erkennungsergebnis 11 gibt, die Lesart zu bestimmen und ihre akustische Wahrscheinlichkeit zu berechnen, indem ein Mustervergleich zwischen dem Merkmalsvektor 6 und den mehreren Lesarten in dem Wiedervergleichsprozessor 15 durchgeführt wird. In dem vorstehend beschriebenen Beispiel ist die Lesart „suzukasaka“, deren akustische Wahrscheinlichkeit am höchsten ist, in dem Wiedervergleichsergebnis 16 enthalten.
Der Ergebnisbestimmungsprozessor 17 verwendet als seine Eingänge das interne Erkennungsergebnis 10 und das Wiedervergleichsergebnis 16, führt dieselbe Operation wie im Ausführungsbeispiel 1 durch, um hierdurch die Erkennungsergebnisse in abfallender Reihenfolge der akustischen Wahrscheinlichkeit zu sortieren, und gibt sie als das endgültige Erkennungsergebnis 18 aus. In dem vorstehend beschriebenen Beispiel ist, da die Eingangsäußerung 2 „Suzuka Slope“ ist, das interne Erkennungsergebnis 10 durch die interne Erkennungseinheit 7 „Suzuki Liquor Store“, und das externe Erkennungsergebnis 11 durch die externe Erkennungseinheit 19 ist „Suzuka Slope“ (suzukasaka), wenn der Mustervergleich unter Verwendung desselben akustischen Modells 9 durchgeführt wird, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, wird erwartet, dass „Suzuka Slope“ (suzukasaka) durch die externe Erkennungseinheit 19 eine höhere akustische Wahrscheinlichkeit als die anderen hat. Dies trägt zu einer Verbesserung der Genauigkeit der Spracherkennung bei.
Folglich ist gemäß dem Ausführungsbeispiel 3 die Konfiguration mit Bezug auf das mit der hinzugefügten Lesart versehene Ergebnis 14 derart, dass, wenn mehrere Lesarten als Kandidaten für das externe Erkennungsergebnis 11 in dem Lesarten-Wörterbuch 13 vorhanden sind, ein derartiges mit der hinzugefügten Lesart versehenes Ergebnis 14, in welchem die mehreren Lesarten hinzugefügt sind, ausgegeben wird, und der Wiedervergleichsprozessor 15 führt einen Mustervergleich für jede in dem mit der hinzugefügten Lesart versehenen Ergebnis 14 enthaltene Lesart durch, um hierdurch jeweilige akustische Wahrscheinlichkeiten zu berechnen, wählt eine Lesart aus, deren akustische Wahrscheinlichkeit am höchsten ist, und gibt sie zu dem Ergebnisbestimmungsprozessor 17 aus. Somit wird es, selbst wenn es nicht möglich ist, die Lesart nur anhand der Notation in dem externen Erkennungsergebnis 11 eindeutig zu bestimmen, möglich, die Lesart zu bestimmen und ihre akustische Wahrscheinlichkeit zu berechnen, indem eine Mustererkennung mit dem Merkmalsvektor bei dem Wiedervergleichsprozessor 15 durchgeführt wird, wodurch die Wirkung erhalten wird, dass die Genauigkeit der Spracherkennung verbessert wird.
Weiterhin sind bei dem Lesarten-Wörterbuch 13 nach dem Ausführungsbeispiel 3 die Notationen und Lesarten auf der Basis einer kleineren Einheit als auf einer Wortbasis gegeben, was dazu führt, dass eine große Verschiedenheit von Wörtern durch ihre Kombinationen gebildet werden kann, wodurch der Nutzen einer höheren Wahrscheinlichkeit, dass eine übereinstimmende Notation gefunden wird, erhalten wird. Demgegenüber wird für das Lesarten-Wörterbuch 13 nach dem Ausführungsbeispiel 1, da Notationen und Lesarten auf einer Wortbasis gegeben sind, der Nutzen erhalten, dass die Genauigkeit der Lesartenhinzufügung hoch ist.
Es ist zu beachten, dass bei dem Ausführungsbeispiel 3 der Fall beschrieben wurde, in welchem mit Bezug auf die Spracherkennungsvorrichtung 1 nach dem Ausführungsbeispiel 1 die Operationen des Lesartenhinzufügungs-Prozessors 12 und des Wiedervergleichsprozessors 15 modifiziert sind; jedoch können mit Bezug auch auf die Spracherkennungsvorrichtung nach dem Ausführungsbeispiel 2 die Operationen ihres Lesartenhinzufügungs-Prozessors 12 und des Wiedervergleichsprozessors 15 in gleicher Weise modifiziert werden, und dies ergibt dieselbe Wirkung für einen Fall, in welchem es nicht möglich ist, die Lesart nur anhand der Notation in dem externen Erkennungsergebnis 11 eindeutig zu bestimmen.
Ausführungsbeispiel 4
9 ist ein Blockschaltbild, das eine Konfiguration einer Spracherkennungsvorrichtung 1 gemäß dem Ausführungsbeispiel 4 zeigt.
In 9 sind dieselben Bezugszahlen denselben oder äquivalenten Teilen wie denjenigen in 1 und 6 gegeben, so dass ihre Beschreibung hier weggelassen wird. In der Spracherkennungsvorrichtung 1 nach dem Ausführungsbeispiel 4 ist ein Ergebnisbestimmungs-Sprachmodell 21 hinzugefügt, und die Operation des Ergebnisbestimmungsprozessors 17 ist wie nachfolgend beschrieben modifiziert.
Als das in 9 gezeigte Ergebnisbestimmungs-Sprachmodell 21 kann jedes Modell verwendet werden, solange es eine Wahrscheinlichkeit für ein Wort oder eine Folge von mehreren Wörtern gibt. Bei dem Ausführungsbeispiel 4 wird ein Fall beschrieben, in welchem ein Monogramm-Sprachmodell für Wörter als das Ergebnisbestimmungs-Sprachmodell 21 verwendet wird. Ein Beispiel für Einzelheiten des Ergebnisbestimmungs-Sprachmodells 21 ist in 10 gezeigt. In der ersten Spalte sind Notationen für Wörter gezeigt, und in der zweiten Spalte sind Sprachwahrscheinlichkeiten für diese. Das Ergebnisbestimmungs-Sprachmodell 21 wurde vorher unter Verwendung einer Datenbank für eine große Anzahl von Wörtern errichtet. Beispielsweise wurden, wenn angenommen wird, dass ein Monogramm-Sprachmodell, wie in diesem Beispiel, verwendet wird, Wahrscheinlichkeiten des Auftretens der jeweiligen Wörter anhand der Datenbank für die große Anzahl von Wörtern berechnet, und logarithmische Werte der Wahrscheinlichkeiten des Auftretens wurden als ihre Wahrscheinlichkeiten in dem Ergebnisbestimmungs-Sprachmodell 21 registriert.
Als Nächstes werden Operationen zu der Zeit der Spracherkennung beschrieben.
Wenn ein Benutzer spricht und seine Äußerung eingegeben wird, führen der Sender 3, die Analysevorrichtung 5, die interne Erkennungseinheit 7, der Lesartenhinzufügungs-Prozessor 12 und der Wiedervergleichsprozessor 15 dieselben Operationen wie diejenigen bei dem Ausführungsbeispiel 1 durch, um hierdurch das interne Erkennungsergebnis 10 von der internen Erkennungseinheit 7 und das Wiedervergleichsergebnis 16 von dem Wiedervergleichsprozessor 15 zu dem Ergebnisbestimmungsprozessor 17 auszugeben.
Der Ergebnisbestimmungsprozessor 17 bezieht sich auf das Ergebnisbestimmungs-Sprachmodell 21, um hierdurch eine Sprachwahrscheinlichkeit S1 für jeweils das interne Erkennungsergebnis 10 und das Wiedervergleichsergebnis 16 zu berechnen. Wenn beispielsweise die Notation in dem internen Erkennungsergebnis 10 „Suzuka Liquor Store“ ist, ist ihre Sprachwahrscheinlichkeit S1 = -0,32 mit Bezug auf das Ergebnisbestimmungs-Sprachmodell 21 in 10. In gleicher Weise ist, wenn die Notation in dem Wiedervergleichsergebnis 16 „Suzuka Slope“ ist, ihre Sprachwahrscheinlichkeit S1 = -0,30. Dann berechnet der Ergebnisbestimmungsprozessor 17 eine Gesamtwahrscheinlichkeit S entsprechend der folgenden Formel (1) für jeweils das interne Erkennungsergebnis 10 und Wiedervergleichsergebnis 16. In der Formel (1) ist Sa eine akustische Wahrscheinlichkeit, und w ist eine vorher experimentell bestimmte Konstante, die beispielsweise als w = 10 gegeben ist.
$S = Sa + w \times S 1$
Der Ergebnisbestimmungsprozessor 17 sortiert die Erkennungsergebnisse in dem internen Erkennungsergebnis 10 und dem Wiedervergleichsergebnis 16 in abnehmender Reihenfolge der Gesamtwahrscheinlichkeit S und gibt diese als das endgültige Erkennungsergebnis 18 aus.
Folglich ist bei dem Ausführungsbeispiel 4 die Spracherkennungsvorrichtung 1 so konfiguriert, dass sie das Ergebnisbestimmungs-Sprachmodell 21 enthält, in welchem Paare von Wörtern und Sprachwahrscheinlichkeiten von diesen gespeichert sind, wobei der Ergebnisbestimmungsprozessor 17 unter Verwendung des Ergebnisbestimmungs-Sprachmodells 21 die Sprachwahrscheinlichkeit des internen Erkennungsergebnisses 10 und die Sprachwahrscheinlichkeit des Wiedervergleichsergebnisses 16 (nämlich das externe Erkennungsergebnis 11) berechnet und die akustische Wahrscheinlichkeit und die Sprachwahrscheinlichkeit des internen Erkennungsergebnisses 10 mit der akustischen Wahrscheinlichkeit und der Sprachwahrscheinlichkeit des Wiedervergleichsergebnisses 16 vergleicht, um hierdurch das endgültige Erkennungsergebnis zu bestimmen. Somit wird die Sprachwahrscheinlichkeit S1 für jeweils das interne Erkennungsergebnis 10 und das Wiedervergleichsergebnis 16 durch Verwendung desselben Ergebnisbestimmungs-Sprachmodells 21 berechnet, so dass ein Vergleich unter Berücksichtigung der Sprachwahrscheinlichkeit S1 zwischen diesen durchgeführt werden kann, wodurch die Wirkung erhalten wird, dass die Erkennungsgenauigkeit verbessert wird.
Es ist zu beachten, dass bei dem Ausführungsbeispiel 4 für das Ergebnisbestimmungs-Sprachmodell 21 ein Beispiel beschrieben wurde, das ein Monogramm des Wortes verwendet; jedoch ist dies nicht beschränkend, und beliebige statische N-Gramm-Sprachmodelle, einschließlich Bigramm-, Trigramm- und dergleichen, können verwendet werden.
Es ist zu beachten, dass bei dem Ausführungsbeispiel 4 der Fall beschrieben wurde, in welchem mit Bezug auf die Spracherkennungsvorrichtung 1 nach dem Ausführungsbeispiel 1 das Ergebnisbestimmungs-Sprachmodell 21 hinzugefügt ist und die Operation des Ergebnisbestimmungsprozessors 17 modifiziert ist; jedoch kann auch mit Bezug auf die Spracherkennungsvorrichtung 1 des Ausführungsbeispiels 2 oder 3 in gleicher Weise das Ergebnisbestimmungs-Sprachmodell 21 hinzugefügt sein, und die Arbeitsweise des Ergebnisbestimmungsprozessors 17 kann modifiziert sein.
Weiterhin wird bei den Ausführungsbeispielen 1 bis 4 das von einer einzelnen externen Erkennungseinheit 19 empfangene externe Erkennungsergebnis 11 verwendet; jedoch können mehrere von mehreren externen Erkennungseinheiten 19 empfangene externe Erkennungsergebnisse 11 verwendet werden. Weiterhin ist der Ergebnisbestimmungsprozessor 17 so konfiguriert, dass er die in abnehmender Reihenfolge der akustischen Wahrscheinlichkeit oder dergleichen sortierten Erkennungsergebnisse als das endgültige Erkennungsergebnis 18 ausgibt; jedoch ist dies nicht beschränkend, und er kann so konfiguriert sein, dass nur eine vorbestimmte Anzahl von Ergebnissen in abnehmender Reihenfolge der akustischen Wahrscheinlichkeit als das endgültige Erkennungsergebnis 18 oder dergleichen ausgegeben werden kann.
Anders als vorstehend kann eine unbegrenzte Kombination der jeweiligen Ausführungsbeispiele, der Modifikation jedes Elements in den Ausführungsbeispielen und des Weglassens jedes Elements in den Ausführungsbeispielen bei der vorliegenden Erfindung vorgenommen werden, ohne den Bereich der Erfindung zu verlassen.
GEWERBLICHE ANWENDBARKEIT
Wie vorstehend beschrieben ist, ist die Spracherkennungsvorrichtung gemäß der Erfindung konfiguriert, unter Verwendung desselben akustischen Modells die akustische Wahrscheinlichkeit des internen Erkennungsergebnisses und die akustische Wahrscheinlichkeit des externen Erkennungsergebnisses zu berechnen, um sie hierdurch miteinander zu vergleichen. Somit ist sie geeignet zur Verwendung für eine clientseitige Fahrzeug-Navigationsvorrichtung, ein Smartphone und dergleichen, die Client-Server-Spracherkennungssysteme bilden.
Bezugszeichenliste
1: Spracherkennungsvorrichtung, 2: Eingangsäußerung, 3: Sender, 4: Sprachdaten, 5: Analysevorrichtung, 6: Merkmalsvektor, 7: interne Erkennungseinheit, 8: Sprachmodell, 9: akustisches Modell, 10: internes Erkennungsergebnis, 11: externes Erkennungsergebnis, 12: Lesartenhinzufügungs-Prozessor, 13: Lesarten-Wörterbuch, 14: mit hinzugefügter Lesart versehenes Ergebnis, 15: Wiedervergleichsprozessor, 16, 16a: Wiedervergleichsergebnisse, 17: Ergebnisbestimmungsprozessor, 18: endgültiges Erkennungsergebnis, 19: externe Erkennungseinheit, 20: zweites akustisches Modell, 21: Ergebnisbestimmungs-Sprachmodell.

Claims

Spracherkennungsvorrichtung (1), die ein internes Erkennungsergebnis (10) anhand ihrer Erkennungsverarbeitung von Eingangssprachdaten (4) und ein externes Erkennungsergebnis (11) anhand der Erkennungsverarbeitung der Eingangssprachdaten (4) durch eine oder mehrere externe Erkennungseinheiten (19), die außerhalb existieren, erwirbt, um hierdurch ein endgültiges Erkennungsergebnis (18) zu bestimmen, wobei die Spracherkennungsvorrichtung (1) aufweist: ein akustisches Modell (9), in welchem Merkmalsquantitäten von Äußerungen modelliert sind; ein Sprachmodell (8), in welchem Notationen und Lesarten von mehr als einem Erkennungsobjektwort der Spracherkennungsvorrichtung (1) gespeichert sind; ein Lesarten-Wörterbuch (13), in welchem Paare von Notationen und Lesarten der Erkennungsobjektwörter und anderer Wörter als der Erkennungsobjektwörter gespeichert sind; eine Analysevorrichtung (5), die die Eingangssprachdaten (4) analysiert, um einen Merkmalsvektor (6) zu berechnen; eine interne Erkennungseinheit (7), die unter Verwendung des akustischen Modells (9) einen Mustervergleich zwischen dem von der Analysevorrichtung (5) berechneten Merkmalsvektor (6) und jedem von in dem Sprachmodell (8) gespeicherten Wörtern durchführt, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, gefolgt von dem Ausgeben, als das interne Erkennungsergebnis (10), der Notationen, der Lesarten und der akustischen Wahrscheinlichkeiten des obersten oder mehrerer hochrangiger Wörter hinsichtlich der akustischen Wahrscheinlichkeiten; einen Lesartenhinzufügungs-Prozessor (12), der das externe Erkennungsergebnis (11) anhand der Erkennungsverarbeitung der Eingangssprachdaten (4) durch die externe Erkennungseinheit (19) erwirbt, eine Lesart für das externe Erkennungsergebnis (11) durch Verwendung des Lesarten-Wörterbuchs (13) hinzufügt und ein mit der hinzugefügten Lesart versehenes Ergebnis (14), das aus dem externen Erkennungsergebnis (11) und der Lesart für dieses zusammengesetzt ist, ausgibt; einen Wiedervergleichsprozessor (15), der unter Verwendung des akustischen Modells (9) einen Mustervergleich zwischen dem von der Analysevorrichtung (5) berechneten Merkmalsvektor (6) und dem mit der hinzugefügten Lesart versehenen Ergebnis (14), das von dem Lesarten-Hinzufügungsprozessor (12) ausgegeben wurde, durchführt, um hierdurch eine akustische Wahrscheinlichkeit für das externe Erkennungsergebnis (11) zu berechnen; und einen Ergebnisbestimmungsprozessor (17), der die akustischen Wahrscheinlichkeiten des internen Erkennungsergebnisses (10) mit der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses (11) vergleicht, um hierdurch das endgültige Erkennungsergebnis (18) zu bestimmen.
Spracherkennungsvorrichtung (1) nach Anspruch 1, weiterhin aufweisend ein zweites akustisches Modell (20), das von dem akustischen Modell (9) verschieden ist, wobei der Wiedervergleichsprozessor (15) unter Verwendung des zweiten akustischen Modells (20) einen Mustervergleich zwischen dem von der Analysevorrichtung (5) berechneten Merkmalsvektor (6) und dem von der internen Erkennungseinheit (7) ausgegebenen internen Erkennungsergebnis (10) durchführt, um hierdurch die akustischen Wahrscheinlichkeiten des internen Erkennungsergebnisses (10) zu berechnen, und einen Mustervergleich zwischen dem Merkmalsvektor (6) und dem von dem Lesartenhinzufügungs-Prozessor (12) ausgegebenen, mit der hinzugefügten Lesart versehenen Ergebnis (14) durchführt, um hierdurch die akustische Wahrscheinlichkeit für das externe Erkennungsergebnis (11) zu berechnen; und wobei der Ergebnisbestimmungsprozessor (17) das endgültige Erkennungsergebnis (18) durch Vergleichen miteinander, der akustischen Wahrscheinlichkeiten des internen Erkennungsergebnisses (10) und der akustischen Wahrscheinlichkeiten des externen Erkennungsergebnisses (11), die von dem Wiedervergleichsprozessor (15) berechnet wurden, bestimmt.
Spracherkennungsvorrichtung (1) nach Anspruch 1, bei der der Lesartenhinzufügungs-Prozessor (12), wenn mehrere Lesarten als Kandidaten für das externe Erkennungsergebnis (11) vorhanden sind, das mit der hinzugefügten Lesart versehene Ergebnis (14), in welchem die mehreren Lesarten hinzugefügt sind, ausgibt und wobei der Wiedervergleichsprozessor (15) einen Mustervergleich für jede der Lesarten, die in dem mit der hinzugefügten Lesart versehenen Ergebnis (14) enthalten sind, durchführt, um hierdurch jeweilige akustische Wahrscheinlichkeiten zu berechnen, aus diesen eine Lesart auswählt, deren akustische Wahrscheinlichkeit am höchsten ist, und sie zu dem Ergebnisbestimmungsprozessor (17) ausgibt.
Spracherkennungsvorrichtung (1) nach Anspruch 1, weiterhin aufweisend ein Ergebnisbestimmungs-Sprachmodell (21), in welchem Paare von Wörtern und Sprachwahrscheinlichkeiten von diesem gespeichert sind, wobei der Ergebnisbestimmungsprozessor (17) unter Verwendung des Ergebnisbestimmungs-Sprachmodells (21) eine Sprachwahrscheinlichkeit für das interne Erkennungsergebnis (10) und eine Sprachwahrscheinlichkeit für das externe Erkennungsergebnis (11) berechnet und die akustische Wahrscheinlichkeit und die Sprachwahrscheinlichkeit für das interne Erkennungsergebnis (10) mit der akustischen Wahrscheinlichkeit und der Sprachwahrscheinlichkeit für das externe Erkennungsergebnis (11) vergleicht, um hierdurch das endgültige Erkennungsergebnis (18) zu bestimmen.
Spracherkennungsvorrichtung (1) nach Anspruch 4, bei der das Ergebnisbestimmungs-Sprachmodell (21) ein statisches N-Gramm-Sprachmodell ist.
Spracherkennungsverfahren des Erwerbens eines internen Erkennungsergebnisses (10) anhand einer Erkennungsverarbeitung von Eingangssprachdaten (4), die in einer Spracherkennungsvorrichtung (1) durchgeführt wird, und eines externen Erkennungsergebnisses (11), das anhand der Erkennungsverarbeitung der Eingangssprachdaten (4) durch eine oder mehrere externe Erkennungseinheiten (19), die außerhalb existieren, erhalten wurden, um hierdurch ein endgültiges Erkennungsergebnis (18) zu bestimmen, wobei das Spracherkennungsverfahren aufweist: einen Sendeschritt des Sendens der Eingangssprachdaten (4) zu der externen Erkennungseinheit (19); einen Analysierschritt des Analysierens der Eingangssprachdaten (4), um einen Merkmalsvektor (6) zu berechnen; einen internen Erkennungsschritt des Durchführens, unter Verwendung eines akustischen Modells (9), in welchem Merkmalsquantitäten von Äußerungen modelliert sind, eines Mustervergleichs zwischen dem Merkmalsvektor (6), der in dem Analysierschritt berechnet wurde, und jedem von Wörtern, die in einem Sprachmodell (8) gespeichert sind, in welchem Notationen und Lesarten von mehr als einem Erkennungsobjektwort der Spracherkennungsvorrichtung (1) gespeichert sind, um hierdurch ihre jeweiligen akustischen Wahrscheinlichkeiten zu berechnen, gefolgt von dem Ausgeben, als das interne Erkennungsergebnis (10), der Notationen, der Lesarten und der akustischen Wahrscheinlichkeiten des höchsten oder mehrerer hochrangiger Wörter in Bezug auf die akustischen Wahrscheinlichkeiten; einen Lesartenhinzufügungsschritt des Erwerbens des externen Erkennungsergebnisses (11) anhand einer Erkennungsverarbeitung der Eingangssprachdaten (4) durch die externe Erkennungseinheit (19), des Hinzufügens einer Lesart für das externe Erkennungsergebnis (11) durch Verwendung eines Lesarten-Wörterbuchs (13), in welchem Paare von Notationen und Lesarten der Erkennungsobjektwörter und anderer Wörter als der Erkennungsobjektwörter gespeichert sind, und des Ausgebens eines mit einer hinzugefügten Lesart versehenen Ergebnisses (14), das aus dem externen Erkennungsergebnis (11) und der Lesart für dieses zusammengesetzt ist; einen Wiedervergleichsschritt des Durchführens, unter Verwendung des akustischen Modells (9), eines Mustervergleichs zwischen dem in dem Analysierschritt berechneten Merkmalsvektor (6) und dem in dem Lesartenhinzufügungsschritt ausgegebenen, mit der hinzugefügten Lesart versehenen Ergebnis (14), um hierdurch die akustische Wahrscheinlichkeit für das externe Erkennungsergebnis (11) zu berechnen; und einen Ergebnisbestimmungsschritt des Vergleichens der akustischen Wahrscheinlichkeit des internen Erkennungsergebnisses (10) mit der akustischen Wahrscheinlichkeit des externen Erkennungsergebnisses (11), um hierdurch das endgültige Erkennungsergebnis (18) zu bestimmen.