DE112014006795B4

DE112014006795B4 - Spracherkennungssystem und Spracherkennungsverfahren

Info

Publication number: DE112014006795B4
Application number: DE112014006795.4T
Authority: DE
Inventors: Naoya Sugitani; Yohei Okato; Michihiro Yamazaki
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-07-08
Filing date: 2014-07-08
Publication date: 2018-09-20
Anticipated expiration: 2034-07-09
Also published as: WO2016006038A1; CN106663421A; JPWO2016006038A1; DE112014006795T5; CN106663421B; JP5996152B2; US10115394B2; US20170140752A1

Abstract

Spracherkennungssystem (1), das eine Erkennung von Sprache durchführt, die aus einer Ausgabeeinheit (15) auszugeben ist und beinhaltet:
eine erste, eine zweite und eine dritte Spracherkennungseinheit (11, 12, 13), die eine eingegebene Sprache erkennen und Kandidatenzeichenketten einschließende Erkennungsergebnisse entsprechend der eingegebenen Sprache ermitteln; und
eine Steuereinheit (14), welche, wenn basierend auf den durch die erste und die zweite Spracherkennungseinheit ermittelten Erkennungsergebnissen entschieden wird, die dritte Spracherkennungseinheit zu veranlassen, die eingegebene Sprache zu erkennen, die dritte Spracherkennungseinheit veranlasst, die eingegebene Sprache unter Verwendung eines Wörterbuchs zu erkennen, welches die Kandidatenzeichenketten enthält, die durch die erste oder/und zweite Spracherkennungseinheit ermittelt wurden, und die Ausgabeeinheit (15) veranlasst, das durch die Erkennung ermittelte Erkennungsergebnis auszugeben.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem und ein Spracherkennungsverfahren, die Erkennung von aus einer Ausgabeeinheit auszugebender Sprache durchführen.
Hintergrund
Eine Spracherkennungstechnik, die für konventionelle Spracherkennungsvorrichtungen verwendet wird, ist gemäß einer Erkennungsrate, einem Rechenumfang und Hardware-Ressourcen spezialisiert. Beispielsweise verwendet eine Fahrzeug-Spracherkennungsvorrichtung Spracherkennung (lokale Erkennung), die für Fahrzeuge spezialisiert ist, und weist Vorteile von hohem Rauschwiderstandsfähigkeit und Responsivität auf. Weiter verwendet beispielsweise eine Spracherkennungsvorrichtung eines Servers, der von einer Außenseite über ein Netzwerk empfangene Sprachdaten erkennt, Spracherkennung (Servererkennung), die auf Dienste spezialisiert ist. Die Spracherkennungsvorrichtung weist Vorteile auf, dass es möglich ist, ein Wörterbuch zu verwenden, das mehrere oder neue Vokabularien enthält und Stimmen mit einem hohen Rechenumfang erkennt.
In dieser Hinsicht ist in den letzten Jahren aus Gründen der Diversifikation von Anwendungen eine Konfiguration, bei der lokale Erkennung und Servererkennung kombiniert sind, um beide Vorteile bereitzustellen, untersucht worden. Jedoch unterscheiden sich gemäß einer Konfiguration, die eine Mehrzahl von Spracherkennungseinheiten verwendet, Erkennungsverfahren entsprechender Spracherkennungsmaschinen (engines) und unterscheiden sich Wörterbücher zur Erkennung (Erkennungs-Wörterbücher) entsprechender Spracherkennungs-Engines. Daher gibt es das Problem, dass es nicht möglich ist, einfach entsprechende Erkennungsergebnisse zu vergleichen.
Spezifischer bestimmt jede der Mehrzahl von Spracherkennungseinheiten eine Kandidatenzeichenkette entsprechend einer eingegebenen Sprache (Äußerung) (einer Zeichenkette wie etwa ein Vokabular, das sehr wahrscheinlich zur eingegebenen Sprache passt) als ein Spracherkennungsergebnis. Jede Spracherkennungseinheit berechnet einen Rangwert, der die Genauigkeit jeder Kandidatenzeichenkette angibt (eine Wahrscheinlichkeit, dass jede Kandidatenzeichenkette zur eingegebenen Stimme passt). Wenn jedoch Rangwerte für einige Kandidatenzeichenketten zwischen einer Mehrzahl von Spracherkennungseinheiten differieren, gibt es das Problem, dass es nicht möglich ist, die Rangwerte zwischen einer Mehrzahl von Spracherkennungseinheiten einfach zu vergleichen.
Hier sind verschiedene Techniken für dieses Problem vorgeschlagen worden. Beispielsweise schlägt Patentdokument 1 eine Technik des statistischen Verarbeitens von Rangwerten, die zwischen einer Mehrzahl von Spracherkennungseinheiten unterschiedlich sind, Normalisieren der Rangwerte auf Rangwerte, die zwischen einer Mehrzahl von Spracherkennungseinheiten verglichen werden können, und Ausgeben einer Kandidatenzeichenkette des höchsten Rangwerts als ein Gesamt-Erkennungsergebnis vor.
Weiter schlägt beispielsweise Patentdokument 2 eine Technik vor, eine erste Spracherkennungseinheit zu veranlassen, eine eingegebene Sprache unter Verwendung einer Mehrzahl von Erkennungs-Wörterbüchern zu erkennen, Kandidatenzeichenketten höherer Rangwerte, die Spracherkennungsergebnisse sind, in einem sekundären Entscheidungs-Wörterbuch zu speichern und eine zweite Spracherkennungseinheit zu veranlassen, eine eingegebene Sprache unter Verwendung des sekundären Entscheidungswörterbuchs zu erkennen.
Dokumente des Stands der Technik
Patentdokumente

Patentdokument 1: Japanische Patentoffenlegungsschrift Nr. JP 2005 - 3 997 A
Patentdokument 2: Japanische Patentoffenlegungsschrift Nr. JP 2008 - 197 356 A

US 2008/0243515 A1 ist auf ein System und Verfahren zum Bereitstellen einer Inline Architektur für eine automatisiertes Call Center gerichtet. Hierbei wird eine Vielzahl von Grammatikreferenzen und Aufforderungen in einer Skriptmaschine vorgehalten. Audiodaten eines über eine Telefonschnittstelle empfangenen Anrufs werden unter Verwendung von Aufforderungen aus der Skriptmaschine gesammelt und es wird eine verteilte Spracherkennung auf einem Server durchgeführt. Sprachergebnisse werden durch Anwenden von Grammatikreferenzen auf die Audiodaten bestimmt. Aus den Sprachergebnissen wird dann eine neue Grammatik gebildet und die Erkennungsergebnisse werden durch Anwenden der neuen Grammatik auf die Audiodaten identifiziert.
US 2003 / 0 120 486 A1 beschreibt ein weiteres Spracherkennungssystem und -verfahren, bei dem ein Eingangsstrom einem Spracherkenner zugeführt wird und ein Konfidenzmaß für Erkennungshypothesen gebildet wird, das mit einem Akzeptabilitätsschwellenwert verglichen wird. Sollte ein Konfidenzmaß einer Erkennungshypothese unter dem Schwellenwert liegen, wird die entsprechende Spracheingabe an einen Spracherkenner weitergeleitet, wo ergänzend oder statt der erzeugten Erkennungshypothese die aus dem ersten Spracherkenner ausgegebene verwendet wird. Der erste Spracherkenner ist vorzugsweise auf einen bestimmten Anwender trainiert, während der zweite Erkenner mit einer bestimmten Sprachanwendung assoziert ist, die aktuell vom Anwender verwendet wird.
Zusammenfassung der Erfindung
Durch die Erfindung zu lösende Probleme
Wie oben beschrieben, werden gemäß der in Patentdokument 1 offenbarten Technik Rangwerte, die sich zwischen einer Mehrzahl von Spracherkennungseinheiten unterscheiden, statistisch prozessiert und auf Rangwerte normalisiert, die zwischen einer Mehrzahl von Spracherkennungseinheiten verglichen werden können. Jedoch, wenn es beispielsweise mehrere Kandidatenzeichenketten gibt, für welche die zwischen einer Mehrzahl von Spracherkennungseinheiten unterschiedlichen Rangwerte berechnet worden sind, gibt es das Problem, dass die Rangwerte nicht ausreichend normalisiert werden können, um einen adäquaten Vergleich zu ermöglichen, und somit ist es nicht möglich, hoch valides Erkennungsergebnis zu erhalten.
Weiter weist die in Patentdokument 2 offenbarte Technik das Problem auf, dass, selbst wenn ein ausreichend genaues Ergebnis in einer ersten Stufe von Spracherkennung ermittelt wird, eine zweite Stufe von Spracherkennung auch durchgeführt wird, was eine unnötige Verarbeitung verursacht.
Die vorliegende Erfindung ist im Hinblick auf die obigen Probleme gemacht worden und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Technik bereitzustellen, die ein hoch valides Erkennungsergebnis bereitstellen kann, während eine unnötige Verarbeitung vermieden wird.
Mittel zum Lösen der Probleme
Ein Spracherkennungssystem gemäß dem unabhängigen Anspruchs 1.
Weiter ist ein Spracherkennungsverfahren gemäß der vorliegenden Erfindung ein Spracherkennungsverfahren gemäß dem unabhängigen Anspruch 11.
Wirkungen der Erfindung
Gemäß der vorliegenden Erfindung ist es möglich, ein hoch valides Erkennungsergebnis zu ermitteln, während unnötige Verarbeitung verhindert wird.
Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden aus der nachfolgenden detaillierten Beschreibung und den beigefügten Zeichnungen ersichtlicher werden.
Figurenliste

1 ist ein Blockdiagramm, welches Hauptkomponenten einer Spracherkennungsvorrichtung gemäß einer ersten Ausführungsform illustriert.
2 ist eine Ansicht, die ein Beispiel eines Eingabe-Spracherkennungsergebnisses gemäß der ersten Ausführungsform illustriert.
3 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung gemäß der ersten Ausführungsform illustriert.
4A bis 4F sind Ansichten zum Erläutern eines Beispiels eines Index gemäß der ersten Ausführungsform.
5 ist ein Flussdiagramm, das eine Operation der Spracherkennungsvorrichtung gemäß der ersten Ausführungsform illustriert.
6A und 6B sind Ansichten zum Erläutern eines Beispiels eines Index gemäß dem modifizierten Beispiel 1.
7A und 7B sind Ansichten zum Erläutern eines Beispiels eines Index gemäß einem modifizierten Beispiel 2.
8 ist ein Blockdiagramm, welches eine Konfiguration einer Spracherkennungsvorrichtung gemäß einer zweiten Ausführungsform illustriert.
9 ist ein Blockdiagramm, welches Hauptkomponenten eines Spracherkennungssystems gemäß einem anderen modifizierten Beispiel illustriert.
10 ist ein Blockdiagramm, das Hauptkomponenten eines Spracherkennungssystems gemäß einem anderen modifizierten Beispiel illustriert.

Beschreibung von Ausführungsformen
Erste Ausführungsform
Ein Fall, bei dem ein Spracherkennungssystem gemäß der vorliegenden Erfindung auf eine Spracherkennungsvorrichtung allein angewendet wird, wird unten hauptsächlich als ein Beispiel beschrieben.
1 ist ein Blockdiagramm, welches Hauptkomponenten einer Spracherkennungsvorrichtung 1 gemäß der ersten Ausführungsform der vorliegenden Erfindung illustriert. Die Spracherkennungsvorrichtung 1 in 1 beinhaltet eine erste Spracherkennungseinheit 11, eine zweite Spracherkennungseinheit 12, eine dritte Spracherkennungseinheit 13, eine Steuereinheit 14 und eine Erkennungsergebnis-Ausgabeeinheit 15.
Die Spracherkennungsvorrichtung 1 in Fig. 1 führt Erkennung von aus der Erkennungsergebnis-Ausgabeeinheit 15, die eine Ausgabeeinheit ist, auszugebender Erkennung von Sprache durch. Die Erkennungsergebnis-Ausgabeeinheit 15 kann beispielsweise ein Ausgabeendgerät sein, das an eine andere Vorrichtung ein durch Spracherkennung ermitteltes Erkennungsergebnis ausgibt, oder kann eine Anzeigevorrichtung sein, die ein Erkennungsergebnis anzeigt, oder kann eine Stimm-Ausgabevorrichtung sein, die eine Stimme mit einem Erkennungsergebnis ausgibt. Obwohl die Erkennungsergebnis-Ausgabeeinheit 15 in der Spracherkennungsvorrichtung 1 gemäß der Konfiguration in 1 bereitgestellt ist, kann, wenn die Erkennungsergebnis-Ausgabeeinheit 15 eine Anzeigevorrichtung oder eine Stimmausgabevorrichtung ist, die Erkennungsergebnis-Ausgabeeinheit 15 an einer anderen Vorrichtung vorgesehen sein, ohne in der Spracherkennungsvorrichtung 1 vorgesehen zu sein.
Die ersten bis dritten Spracherkennungseinheiten 11 bis 13 beinhalten alle eine Speichervorrichtung, wie etwa einen Halbleiterspeicher, der beispielsweise ein Wörterbuch, das eine Mehrzahl von Vokabularien, Wörtern und Dokumenten beinhaltet, und ein Programm speichert, und eine durch einen Prozessor wie etwa eine Zentraleinheit (nachfolgend als „CPU“ bezeichnet), welche das Programm ausführt, realisierte Funktion. Die ersten Spracherkennungseinheiten 11 bis 13, die wie beschrieben konfiguriert sind, erkennen alle eine eingegebene Stimme, um ein Erkennungsergebnis zu ermitteln (erzeugen), das eine Kandidatenzeichenkette enthält, die zur eingegebenen Stimme korrespondiert (eine Zeichenkette wie etwa ein Vokabular, ein Wort oder ein Dokument, das sehr wahrscheinlich zur eingegebenen Sprache passt).
2 ist eine Ansicht, die ein Beispiel von Erkennungsergebnissen illustriert, die durch erste bis dritte Spracherkennungseinheiten 11 bis 13 ermittelt werden. In der ersten Ausführungsform beinhalten die Erkennungsergebnisse der ersten bis dritten Spracherkennungseinheiten 11 bis 13 nicht nur Kandidatenzeichenketten, sondern auch Rangwerte, welche die Genauigkeit jeder Kandidatenzeichenkette angeben (eine Wahrscheinlichkeit, dass jede der Kandidatenzeichenketten zu eingegebener Sprache passt). Nachfolgend wird angenommen, dass beispielsweise ein höherer Rangwert höhere Genauigkeit einer Kandidatenzeichenkette bereitstellt.
Die Steuereinheit 14 wird beispielsweise durch den Prozessor, wie etwa die ein in der Speichervorrichtung gespeichertes Programm ausführende CPU, realisiert. Wenn basierend auf den durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Erkennungsergebnissen entschieden wird, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen, veranlasst die Steuereinheit 14 die dritte Spracherkennungseinheit 13, die eingegebene Sprache unter Verwendung eines Wörterbuches zu erkennen, welches die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Kandidatenzeichenketten enthält, und veranlasst die Erkennungsergebnis-Ausgabeeinheit 15, das sich ergebende Erkennungsergebnis auszugeben.
Ob die dritte Spracherkennungseinheit 13 zu veranlassen ist, eine Sprache zu erkennen oder nicht, kann durch die Spracherkennungsvorrichtung 1 entschieden werden oder kann durch eine externe Vorrichtung der Spracherkennungsvorrichtung 1 entschieden werden, indem die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 erhaltenen Erkennungsergebnisse an diese externe Vorrichtung übergeben werden.
Gemäß der Spracherkennungsvorrichtung 1 gemäß der oben beschriebenen ersten Ausführungsform erkennt die dritte Spracherkennungseinheit 13 eine eingegebene Sprache unter Verwendung eines Wörterbuchs, Kandidatenzeichenketten enthält, welche durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelt sind. Folglich, selbst wenn beispielsweise Rangwerte der durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Kandidatenzeichenketten in einem solchen Ausmaß variieren, dass die Rangwerte nicht verglichen werden können, kann die dritte Spracherkennungseinheit 13 einen Rangwert berechnen, dessen Kriterium für die Kandidatenzeichenketten standardisiert ist. Das heißt, dass es möglich ist, die Rangwerte der ersten und zweiten Spracherkennungseinheiten 11 und 12 im Wesentlichen zu normalisieren und folglich ein hoch valides Erkennungsergebnis zu ermitteln.
Weiter, wenn basierend auf den durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Erkennungsergebnissen entschieden wird, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen, veranlasst die Steuereinheit 14 die dritte Spracherkennungseinheit 13, eine eingegebene Sprache zu erkennen. Folglich, selbst wenn die Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 nicht komplett zueinander passen, aber sich ähnlich sind, das heißt, wenn es schwierig ist, klar zu entscheiden, welches der Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 angemessen ist, ist es möglich, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen. Folglich ist es möglich, die dritte Spracherkennungseinheit 13 daran zu hindern, mehr Spracherkennung durchzuführen als notwendig, und folglich unnötige Verarbeitung zu verhindern.
Als Nächstes werden nicht nur die Hauptkomponenten der Spracherkennungsvorrichtung 1, sondern auch zusätzliche Komponenten beschrieben. In dieser Hinsicht sind die folgenden Inhalte ein Beispiel der obigen Inhalte und die vorliegende Erfindung ist nicht auf die nachfolgenden Inhalte beschränkt.
3 ist ein Blockdiagramm, welches die Hauptkomponenten und die Zusatzkomponenten der Spracherkennungsvorrichtung 1 gemäß der ersten Ausführungsform illustriert.
Die Spracherkennungsvorrichtung 1 ist mit einer Spracheingabeeinheit 51 verbunden. Die Spracheingabeeinheit 51 ist beispielsweise als ein Mikrofon konfiguriert und empfängt eine von einem Anwender geäußerte Sprachäußerung. Die Spracheingabeeinheit 51 gibt die empfangene Sprache als eine eingegebene Sprache an die ersten und zweiten Spracherkennungseinheiten 11 und 12 und eine Sprachspeichereinheit 21 aus.
Die Sprachspeichereinheit 21 speichert zeitweilig die eingegebene Sprache, die aus der Spracheingabeeinheit 51 empfangen wird. Beispielsweise speichert die Sprachspeichereinheit 21 die aus der Spracheingabeeinheit 51 empfangene eingegebene Sprache, bis die eingegebene Sprache als nächstes aus der Spracheingabeeinheit 51 empfangen wird.
Die erste Spracherkennungseinheit 11 beinhaltet eine erste Wörterbuch-Speichereinheit 11a und eine erste Spracherkennungs-Engine 11b. Ähnlich beinhaltet die zweite Spracherkennungseinheit 12 eine zweite Wörterbuch-Speichereinheit 12a und eine zweite Spracherkennungs-Engine 12b und beinhaltet die dritte Spracherkennungseinheit 13 eine zeitweilige Wörterbuch-Speichereinheit 13a und eine dritte Spracherkennungs-Engine 13b.
Die ersten und zweiten Wörterbuch-Speichereinheiten 11a und 12a und die zeitweilige Wörterbuch-Speichereinheit 13a sind alle als eine Speichervorrichtung wie etwa ein Halbleiterspeicher konfiguriert. Die ersten bis dritten Spracherkennungs-Engines 11b, 12b und 13b werden beispielsweise durch den Prozessor realisiert, der ein Programm ausführt, das einen Spracherkennungs-Algorithmus (z.B. Hidden-Markov-Modell) beinhaltet.
Als Nächstes wird die erste Wörterbuch-Speichereinheit 11a und die erste Spracherkennungs-Engine 11b der ersten Spracherkennungseinheit 11 im Detail beschrieben.
In der ersten Wörterbuch-Speichereinheit 11a wird das Wörterbuch, das eine Mehrzahl von Vokabularien, Wörtern oder ein Dokument enthält, gespeichert. Die erste Spracherkennungs-Engine 11b erkennt eine aus der Spracheingabeeinheit 51 empfangene, eingegebene Sprache unter Verwendung des Wörterbuchs der ersten Wörterbuch-Speichereinheit 11a. Spezifischer bestimmt die erste Spracherkennungs-Engine 11b eine Kandidatenzeichenkette ( 2) entsprechend der eingegebenen Sprache aus Vokabularien, Wörtern oder Dokumenten, die im Wörterbuch der ersten Wörterbuch-Speichereinheit 11a enthalten sind, und berechnet einen Rangwert der Kandidatenzeichenkette (2). Weiter gibt die erste Spracherkennungs-Engine 11b ein Erkennungsergebnis, welches die Kandidatenzeichenkette und den Rangwert enthält, an die Steuereinheit 14 (Erkennungsergebnis-Evaluierungseinheit 14a) aus.
Die zweite Wörterbuch-Speichereinheit 12a und die zweite Spracherkennungs-Engine 12b der zweiten Spracherkennungseinheit 12 verwenden auch dieselben Konfigurationen wie jene der ersten Wörterbuch-Speichereinheit 11a und der ersten Spracherkennungs-Engine 11b. In dieser Hinsicht ist die zweite Spracherkennungseinheit 12 konfiguriert, nicht dieselbe Erkennung durchzuführen wie diejenige der ersten Spracherkennungseinheit 11. Dies liegt daran, dass dasselbe Erkennungsergebnis derselben eingegebenen Sprache nur erhalten werden kann, falls die zweite Spracherkennungseinheit 12 die vollständig gleiche Spracherkennung wie diejenige der ersten Spracherkennungseinheit 11 durchführt.
Eine Konfiguration, bei der die ersten und zweiten Spracherkennungseinheiten 11 und 12 unterschiedliche Arten von Spracherkennung durchführen, wird angenommen, beispielsweise eine Konfiguration zu sein, bei der sowohl die Wörterbücher als auch die Algorithmen (Erkennungsverfahren) zwischen den ersten und zweiten Spracherkennungseinheiten 11 und 12 unterschiedlich sind, oder eine Konfiguration, wo entweder die Wörterbücher oder die Algorithmen (Erkennungsmethoden) sich zwischen den ersten und zweiten Spracherkennungseinheiten 11 und 12 unterscheiden.
Die zeitweilige Wörterbuch-Speichereinheit 13a und die dritte Spracherkennungs-Engine 13b der dritten Spracherkennungseinheit 13 wird im Detail unten beschrieben.
Die Steuereinheit 14 beinhaltet die Erkennungsergebnis-Evaluierungseinheit 14a und eine Wörterbuch-Registrierungseinheit 14b.
Die Erkennungsergebnis-Evaluierungseinheit 14a berechnet einen Index, der eine Evaluierung der Erkennungsergebnisse (der Kandidatenzeichenketten und der Rangwerte) angibt, welche durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelt werden, und entscheidet basierend auf dem Index, ob die dritte Spracherkennungseinheit 13 zu veranlassen ist, die eingegebene Sprache zu erkennen, oder nicht.
4A bis 4F sind Ansichten zum Erläutern von Beispielen von Indizes entsprechend der ersten Ausführungsform. In der ersten Ausführungsform berechnet die Erkennungsergebnis-Evaluierungseinheit 14a als den obigen Index eine Reihenfolgendistanz, die einen Differenzgrad in einer Reihenfolge von Kandidatenzeichenketten angibt, die ausgerichtet sind, in der Reihenfolge der durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Rangwerte.
Die Berechnung der Reihenfolgendistanz wird unten beschrieben. 4A illustriert einen Zustand des Beispiels des Erkennungsergebnisses, welches durch die erste Spracherkennungseinheit 11 ermittelt wird, wobei Kandidatenzeichenketten in der Reihenfolge von Rangwerten ausgerichtet sind. 4B illustriert einen Zustand des Beispiels eines Erkennungsergebnisses, das durch die zweite Spracherkennungseinheit 12 ermittelt wird, wo Kandidatenzeichenketten in der Reihenfolge von Rangwerten ausgerichtet sind.
4C illustriert Kandidatenzeichenketten A bis C, E und F, die in der Reihenfolge von Rängen ausgerichtet sind und Kandidatenzeichenketten gemein sind, welche durch die zweite Spracherkennungseinheit 12 ermittelt werden (4B), aus Kandidatenzeichenketten, welche durch die erste Spracherkennungseinheit 11 ermittelt werden (4A).
4F illustriert die Kandidatenzeichenketten A bis C, E und F, die in der Reihenfolge von Rängen ausgerichtet sind und den durch die erste Spracherkennungseinheit 11 (4A) von den durch die zweite Spracherkennungseinheit 12 (4B) ermittelten Kandidatenzeichenketten ermittelt werden.
4D und 4E illustrieren den Fortschritt, in welchem eine Reihenfolge von Kandidatenzeichenketten, wie sie auf die erste Spracherkennungseinheit 11 in 4C bezogen sind, rearrangiert wird, um zu einer Reihenfolge von Kandidatenzeichenketten zu passen, die sich auf die zweite Spracherkennungseinheit 12 in 4F beziehen. Spezifischer, während der ersten Re-Arrangierung zum Übergehen von der Reihenfolge von 4C zur Reihenfolge in 4D wird eine Reihenfolge der Kandidatenzeichenkette C und der Kandidatenzeichenkette A umgeschaltet. Während der zweiten Re-Arrangierung für den Übergang von der Reihenfolge in 4D zur Reihenfolge in 4E wird eine Reihenfolge der Kandidatenzeichenkette C und der Kandidatenzeichenkette B gewechselt. Während der dritten Re-Arrangierung für den Übergang von der Reihenfolge in 4E zur Reihenfolge in 4F wird eine Reihenfolge der Kandidatenzeichenkette F und der Kandidatenzeichenkette E gewechselt.
Die obige Reihenfolgedistanz entspricht der Anzahl von Malen von Reihenfolgen-Re-Arrangierung und ist in dem Beispiel in Fig. 4C bis 4F „3“.
In einem Fall, bei dem die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Erkennungsergebnisse nicht vollständig zueinander passen und die Reihenfolgendistanz nicht größer als ein vorbestimmter Schwellenwert ist (wenn es schwierig ist, klar zu entscheiden, welche angemessen ist), bestimmt die Erkennungsergebnis-Evaluierungseinheit 14a in 3, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen. In einem anderen Fall als dem obigen Fall entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine eingegebene Sprache zu erkennen.
Wenn beispielsweise der für die Entscheidung verwendete Schwellenwert auf „4“ eingestellt wird, und wenn die Erkennungsergebnisse in 4A und 4B ermittelt werden, passen die Erkennungsergebnisse in 4A und 4B nicht vollständig im Hinblick auf die Reihenfolge und ist die Reihenfolgendistanz („3“) nicht größer als der Schwellenwert („4“). Daher entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 zu veranlassen, eine Sprache zu erkennen.
Zusätzlich wird der für die Entscheidung verwendete Schwellenwert basierend auf beispielsweise Einstellwerten (der Anzahl von ermittelbaren Kandidatenzeichenketten, das heißt der Anzahl von Kandidatenzeichenketten, die in einer Liste angezeigt werden) der ersten und zweiten Spracherkennungs-Engines 11b und 12b und tatsächlichen Messwerten eingestellt.
Wenn entschieden wird, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine eingegebene Sprache zu erkennen, veranlasst die Erkennungsergebnis-Evaluierungseinheit 14a die Erkennungsergebnis-Ausgabeeinheit 15, das durch entweder die erste oder die zweite Spracherkennungseinheit 11 und 12 ermittelte Erkennungsergebnis auszugeben. Das heißt, wenn basierend auf den durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelte Erkennungsergebnisse entschieden wird, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine eingegebene Sprache zu erkennen, veranlasst die Erkennungsergebnis-Evaluierungseinheit 14a (Steuereinheit 14) die Erkennungsergebnis-Ausgabeeinheit 15, das durch entweder die erste oder zweite Spracherkennungseinheit 11 und 12 ermittelte Erkennungsergebnis auszugeben.
Zusätzlich wird, welches der Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 durch die Erkennungsergebnis-Ausgabeeinheit 15 auszugeben ist, vorab in einer Stufe eingestellt, wie etwa Standardeinstellungen, indem Zuverlässigkeit (der Grad an Zuverlässigkeit) berücksichtigt wird, basierend auf beispielsweise einem Anwendungsfall und Charakteristika einer Spracherkennungs-Engine. Daher, wenn die Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 in einem solchen Grad unterschiedlich sind, dass die Erkennungsergebnisse nicht ähnlich sind, ist es nicht schwierig, klar zu entscheiden, welches der Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 geeignet ist, und es wird ein Erkennungsergebnis entweder der ersten oder der zweiten Spracherkennungseinheit 11 und 12, welches die höhere vorbestimmte Zuverlässigkeit aufweist, ausgegeben.
Wenn entschieden wird, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen, gibt die Erkennungsergebnis-Evaluierungseinheit 14a die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Kandidatenzeichenketten an die Wörterbuch-Registrierungseinheit 14b aus.
Die Wörterbuch-Registrierungseinheit 14b integriert die Kandidatenzeichenketten der ersten und zweiten Spracherkennungseinheiten 11 und 12, die aus der Erkennungsergebnis-Evaluierungseinheit 14a eingegeben werden, und erzeugt ein Wörterbuch, welches für die dritte Spracherkennungseinheit 13 verwendet wird. Dieses Wörterbuch wird erzeugt, wenn die Kandidatenzeichenketten der ersten und zweiten Spracherkennungseinheiten 11 und 12 aus der Erkennungsergebnis-Evaluierungseinheit 14a eingegeben werden, das heißt wenn die Erkennungsergebnis-Evaluierungseinheit 14a entscheidet, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen.
Die Wörterbuch-Registrierungseinheit 14b erzeugt das obige Wörterbuch als beispielsweise eine Kandidatenzeichenkettenliste. Die Wörterbuch-Registrierungseinheit 14b speichert (registriert) das erzeugte Wörterbuch in der zeitweiligen Wörterbuch-Speichereinheit 13a.
Die dritte Spracherkennungseinheit 13 beinhaltet die zeitweilige Wörterbuch-Speichereinheit 13a und die dritte Spracherkennungs-Engine 13b, wie oben beschrieben.
In der zeitweiligen Wörterbuch-Speichereinheit 13a wird das durch die Wörterbuch-Registrierungseinheit 14b erzeugte Wörterbuch gespeichert. Die dritte Spracherkennungs-Engine 13b erkennt eine in der Sprachspeichereinheit 21 gespeicherte eingegebene Sprache unter Verwendung des Wörterbuches der zeitweiligen Wörterbuch-Speichereinheit 13a, um ein Erkennungsergebnis zu erhalten (erzeugen), welches die Kandidatenzeichenkette und den Rangwert entsprechend der eingegebenen Sprache enthält, und das Erkennungsergebnis an die Erkennungsergebnis-Ausgabeeinheit 15 auszugeben. In der ersten Ausführungsform, jedes Mal, wenn die dritte Spracherkennungseinheit 13 die eingegebene Sprache erkennt, wird die für die Erkennung verwendete Kandidatenzeichenkette aus der zeitweiligen Wörterbuch-Speichereinheit 13a gelöscht.
Wie oben beschrieben, ist die zweite Spracherkennungseinheit 12 konfiguriert, nicht dieselbe Spracherkennung wie diejenige der ersten Spracherkennungseinheit 11 durchzuführen. Ähnlich ist die dritte Spracherkennungseinheit 13 konfiguriert, nicht dieselbe Spracherkennung wie jene der ersten und zweiten Spracherkennungseinheiten 11 und 12 durchzuführen. In dieser Hinsicht beinhaltet in der ersten Ausführungsform das in der zeitweiligen Wörterbuch-Speichereinheit 13a gespeicherte Wörterbuch sowohl die durch die ersten als auch zweiten Spracherkennungseinheiten 11 und 12 ermittelten Kandidatenzeichenketten und eine Kandidatenzeichenkette des Wörterbuches der dritten Spracherkennungseinheit 13 ist in einigen Fällen nicht in einem der Wörterbücher der ersten und zweiten Spracherkennungseinheiten 11 und 12 enthalten. Dies korrespondiert damit, dass das Wörterbuch der dritte Spracherkennungseinheit 13 sich im Wesentlichen von den entsprechenden Wörterbüchern der ersten und zweiten Spracherkennungseinheiten 11 und 12 unterscheidet. Daher muss der Algorithmus der dritten Spracherkennungseinheit 13 nicht notwendigerweise sich von den Algorithmen der ersten und zweiten Spracherkennungseinheiten 11 und 12 unterscheiden.
Die Erkennungsergebnis-Ausgabeeinheit 15 gibt das durch eine der ersten bis dritten Spracherkennungseinheiten 11 bis 13 ermittelte Erkennungsergebnis aus. Die Erkennungsergebnis-Ausgabeeinheit 15 kann eine Mehrzahl von Kandidatenzeichenketten sortiert nach Rangwerten ähnlich zu den in 2 illustrierten Erkennungsergebnissen ausgeben oder kann nur eine Kandidatenzeichenkette des höchsten Rangwerts ausgeben.
Betrieb
5 ist ein Flussdiagramm, welches den Betrieb der Spracherkennungsvorrichtung 1 gemäß der ersten Ausführungsform illustriert.
Zuerst erkennen in Schritt S1 die ersten und zweiten Spracherkennungseinheiten 11 und 12 eine eingegebene Sprache.
In Schritt S2 berechnet die Erkennungsergebnis-Evaluierungseinheit 14a einen Index, der eine Evaluierung von Erkennungsergebnissen angibt, basierend auf den Erkennungsergebnissen der ersten und zweiten Spracherkennungseinheiten 11 und 12.
Im Schritt S3 entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, basierend auf dem berechneten Index, ob die dritte Spracherkennungseinheit 13 zu veranlassen ist, eine eingegebene Sprache zu erkennen oder nicht. In der ersten Ausführungsform ist der Index die Reihenfolgendistanz. Daher, in einem Fall, bei dem die Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 nicht komplett zueinander passen und die Reihenfolgedistanz nicht größer als der vorbestimmte Schwellenwert ist, wird entschieden, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen und der Ablauf bewegt sich zu Schritt S4. In einem anderen Fall als dem obigen Fall geht der Ablauf zu Schritt S8.
Im Schritt S4 erzeugt die Wörterbuch-Registrierungseinheit 14b ein Wörterbuch aus den durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Kandidatenzeichenketten.
Im Schritt S5 speichert die zeitweilige Wörterbuch-Speichereinheit 13a das im Schritt S4 erzeugte Wörterbuch.
In Schritt S6 erkennt die dritte Spracherkennungseinheit 13 (dritte Spracherkennungs-Engine 13b) die eingegebene Sprache unter Verwendung des in der zeitweiligen Wörterbuch-Speichereinheit 13a gespeicherten Wörterbuchs. Nachdem die dritte Spracherkennungseinheit 13 die Sprache erkennt, werden die für diese Spracherkennung verwendeten Kandidatenzeichenketten aus der zeitweiligen Wörterbuch-Speichereinheit 13a gelöscht.
Im Schritt S7 gibt die Erkennungsergebnis-Ausgabeeinheit 15 das durch die dritte Spracherkennungseinheit 13 ermittelte Erkennungsergebnis aus. Nachfolgend wird die in 5 illustrierte Operation beendet.
Wenn der Ablauf sich von Schritt S3 zu Schritt S8 bewegt, gibt die Erkennungsergebnis-Ausgabeeinheit 15 das durch eine der ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelte Erkennungsergebnis aus. Nachfolgend wird die in 5 illustrierte Operation beendet.
Wirkung
Gemäß der obigen Spracherkennungsvorrichtung 1 gemäß der ersten Ausführungsform, wenn basierend auf den durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Erkennungsergebnissen entschieden wird, die dritte Spracherkennungseinheit 13 zu veranlassen, die eingegebene Sprache zu erkennen, veranlasst die Steuereinheit 14 die dritte Spracherkennungseinheit 13, eine eingegebene Sprache unter Verwendung des Wörterbuchs, welches die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Kandidatenzeichenketten enthält, zu erkennen, und veranlasst die Erkennungsergebnis-Ausgabeeinheit 15, das sich ergebende Erkennungsergebnis auszugeben. Folglich ist es möglich, ein hoch valides Erkennungsergebnis zu erhalten, während eine unnötige Verarbeitung vermieden wird.
Weiter veranlasst in der ersten Ausführungsform, wenn basierend auf den Erkennungsergebnissen, welche durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelt ist, entschieden wird, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine eingegebene Sprache zu erkennen, die Steuereinheit 14 die Erkennungsergebnis-Ausgabeeinheit 15, das durch eine der ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelte Erkennungsergebnis auszugeben. Folglich, wenn die Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 in einem solchen Ausmaß unterschiedlich sind, dass die Erkennungsergebnisse nicht ähnlich sind, ist es nicht schwierig, klar zu entscheiden, welches der Erkennungsergebnisse geeignet ist, und ist es möglich, ein geeignetes der Erkennungsergebnisse auszugeben.
Weiter wird in der ersten Ausführungsform entschieden, ob die dritte Spracherkennungseinheit 13 zu veranlassen ist, eine eingegebene Sprache zu erkennen oder nicht, basierend auf einem Index (in diesem Fall Reihenfolgedistanz). Folglich ist es möglich, zu entscheiden, ob es schwierig ist oder nicht, klar zu entscheiden, welches der Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 geeignet ist.
Weiterhin werden in der ersten Ausführungsform jedes Mal, wenn die dritte Spracherkennungseinheit 13 eine eingegebene Sprache erkennt, zur Erkennung verwendete Kandidatenzeichenketten aus der zeitweiligen Wörterbuch-Speichereinheit 13a gelöscht. Folglich wird normalerweise die dritte Spracherkennungseinheit 13 aus der Erkennung einer eingegebenen Sprache unter Verwendung von Kandidatenzeichenketten mit niedriger Relevanz mit der eingegebenen Sprache freigegeben. Folglich ist es möglich, einen Effekt des Verhinderns unnötiger Verarbeitung zu verbessern.
Modifiziertes Beispiel 1
In der ersten Ausführungsform ist ein Index, der verwendet wird, um zu entscheiden, ob eine dritte Spracherkennungseinheit 13 zu veranlassen ist, eine eingegebene Sprache zu erkennen oder nicht, eine Reihenfolgedistanz. Jedoch ist der Index nicht darauf beschränkt. In diesem modifizierten Beispiel ist der obige Index maximale Rangwerte, welche durch erste und zweite Spracherkennungseinheiten 11 und 12 ermittelt werden. Nachfolgend wird der durch die erste Spracherkennungseinheit 11 ermittelte maximale Rangwert als ein „erster maximaler Rangwert“ bezeichnet und wird ein durch die zweite Spracherkennungseinheit 12 ermittelter maximaler Rangwert als ein „zweiter maximaler Rangwert“ bezeichnet.
Im modifizierten Beispiel 1, in einem Fall, bei dem Erkennungsergebnisse der ersten und zweiten Spracherkennungseinheiten 11 und 12 nicht vollständig zueinander passen und sowohl die ersten als auch zweiten maximalen Rangwerte, welche durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelt werden, kleiner als vorbestimmte erste und zweite Schwellenwerte sind oder größer als die ersten und zweiten Schwellenwerte sind, eine Erkennungsergebnis-Evaluierungseinheit 14a entscheidet, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen. Weiter, in einem anderen Fall als dem obigen Fall, entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine eingegebene Sprache zu erkennen. Zusätzlich wird der erste Schwellenwert basierend auf beispielsweise einem Einstellwert (einem oberen Grenzwert eines Rangwerts) basierend eingestellt und einem tatsächlichen Messwert einer ersten Spracherkennungs-Engine 11b. Der zweite Schwellenwert wird beispielsweise basierend auf einem Einstellwert (einem oberen Grenzwert eines Rangwerts) und einem tatsächlichen Messwert einer zweiten Spracherkennungs-Engine 12b eingestellt.
6A und 6B sind Ansichten zum Erläutern von Beispielen eines Index gemäß dem modifizierten Beispiel 1. 6A illustriert ein Beispiel eines Erkennungsergebnisses, welches durch die erste Spracherkennungseinheit 11 ermittelt wird. 6B illustriert ein Beispiel eines Erkennungsergebnisses, welches durch die zweite Spracherkennungseinheit 12 ermittelt wird.
Ein oberer Grenzwert des Rangwerts der ersten Spracherkennungseinheit 11 ist „1000“, und „500“, welches die Hälfte des oberen Grenzwerts ist, wird als erster Schwellenwert eingestellt. Der obere Grenzwert des Rangwerts der zweiten Spracherkennungseinheit 12 beträgt „10000“ und „5000“, welches die Hälfte des oberen Grenzwerts ist, wird als der zweite Schwellenwert eingestellt.
Im Beispiel in 6A ist der durch die erste Spracherkennungseinheit 11 ermittelte erste maximale Rangwert „300“ und ist kleiner als der erste Schwellenwert „500“. Weiter ist im Beispiel von 6B der durch die zweite Spracherkennungseinheit 12 ermittelte zweite maximale Rangwert „4000“ und ist kleiner als der zweite Schwellenwert „5000“. Somit, da die Erkennungsergebnisse in den 4A und 4B nicht vollständig zueinander passen und der erste und der zweite maximale Rangwert kleiner sind als die ersten und zweiten Schwellenwerte, wenn die Erkennungsergebnisse in den 6A und 6B ermittelt werden, entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 zu veranlassen, eine Sprache zu erkennen.
Ähnlich, wenn die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Erkennungsergebnisse nicht vollständig zueinander passen und die ersten und zweiten maximalen Rangwerte ebenfalls größer sind als die ersten und zweiten Schwellenwerte, entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 zu veranlassen, eine Sprache zu erkennen.
Derweil, wenn der maximale Rangwert größer ist der erste Schwellenwert und der zweite maximale Rangwert kleiner ist als der zweite Schwellenwert, oder wenn der erste maximale Rangwert kleiner als der erste Schwellenwert ist und der zweite maximale Rangwert größer als der zweite Schwellenwert ist, entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine Sprache zu erkennen.
Ähnlich zur ersten Ausführungsform, gemäß dem obigen modifizierten Beispiel 1, ist es möglich, basierend auf Indizes (den ersten und zweiten maximalen Rangwerten in diesem Fall) zu entscheiden, ob die dritte Spracherkennungseinheit 13 zu veranlassen ist, eine eingegebene Sprache zu erkennen oder nicht. Folglich, ähnlich zur ersten Ausführungsform, ist es möglich, zu entscheiden, ob es schwierig ist, klar zu entscheiden, welches Erkennungsergebnis der ersten und zweiten Spracherkennungseinheiten 11 und 12 geeignet ist oder nicht.
Zusätzlich, nur wenn beispielsweise der erste maximale Rangwert kleiner als der erste Schwellenwert ist, der zweite maximale Rangwert größer als der zweite Schwellenwert ist und eine dritte Spracherkennungs-Engine 13b eine andere ist als die zweite Spracherkennungs-Engine 12b, kann die Erkennungsergebnis-Evaluierungseinheit 14a entscheiden, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine Sprache zu erkennen. Ähnlich, nur wenn beispielsweise der erste maximale Rangwert größer als der erste Schwellenwert ist, der zweite maximale Rangwert kleiner ist als der zweite Schwellenwert und eine dritte Spracherkennungs-Engine 13b eine andere ist als die erste Spracherkennungs-Engine 11b, kann die Erkennungsergebnis-Evaluierungseinheit 14a entscheiden, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine Sprache zu erkennen. Damit ist es möglich, die arithmetische Operation wegzulassen, welche dasselbe Rangberechnungskriterium bereitstellt.
Modifiziertes Beispiel 2
Im modifizierten Beispiel 2 ist ein Index zum Entscheiden, ob eine dritte Spracherkennungseinheit 13 zu veranlassen ist, eine eingegebene Sprache zu erkennen, oder nicht, eine Ähnlichkeit, die einen Grad anzeigt, in dem Kandidatenzeichenketten zueinander passen, die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelt werden.
Weiter entscheidet im modifizierten Beispiel 2 eine Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 zu veranlassen, eine eingegebene Sprache zu erkennen, in einem Fall, bei dem durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelte Erkennungsergebnisse nicht vollständig zueinander passen und die Ähnlichkeit nicht kleiner als ein vorbestimmter Schwellenwert ist, und entscheidet, die dritte Spracherkennungseinheit 13 nicht zu veranlassen, eine eingegebene Sprache zu erkennen, in einem anderen Fall als dem obigen Fall. Zusätzlich wird der Schwellenwert basierend auf beispielsweise Einstellwerten (der Anzahl von ermittelbaren Kandidatenzeichenketten, das heißt der Anzahl von Elementen, die in einer Liste angezeigt werden können) von ersten und zweiten Spracherkennungs-Engines 11b und 12b und tatsächlichen Messwerten eingestellt.
7A und 7B sind Ansichten zum Erläutern eines Beispiels eines Index gemäß modifiziertem Beispiel 2. 7A illustriert ein Beispiel eines durch die erste Spracherkennungseinheit 11 ermittelten Erkennungsergebnisses. 7B illustriert ein Beispiel eines durch die zweite Spracherkennungseinheit 12 ermittelten Erkennungsergebnisses. Wie in Fig. 7A und 7B illustriert, ist ein Rangwert im modifizierten Beispiel nicht unabdingbar.
Zuerst berechnet die Erkennungsergebnis-Evaluierungseinheit 14a die Anzahl von durch die erste Spracherkennungseinheit 11 ermittelten Kandidatenzeichenketten (unten als „die erste Gesamtanzahl von Kandidaten“ bezeichnet), und die Anzahl von durch die zweite Spracherkennungseinheit 12 ermittelten Kandidatenzeichenketten (als „die zweite Gesamtanzahl von Kandidaten“ bezeichnet). Im Beispiel von 7A beträgt die erste Gesamtanzahl von Kandidaten „6“ und im Beispiel von 7B beträgt die zweite Gesamtanzahl von Kandidaten „5“.
Als Nächstes berechnet die Erkennungsergebnis-Evaluierungseinheit 14a die Anzahl von gemeinsamen Kandidatenzeichenketten aus den durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelten Kandidatenzeichenketten (unten als die „Anzahl von gemeinsamen Kandidaten“ bezeichnet). In den Beispielen von 7A und 7B ist die Anzahl von gemeinsamen Kandidaten die Gesamtanzahl von Kandidatenzeichenketten A bis D, „4“.
Die Erkennungsergebnis-Evaluierungseinheit 14a berechnet eine Ähnlichkeit durch Anwenden der Gesamtanzahl von Kandidaten, der ersten und der zweiten Gesamtanzahl von Kandidaten und der Anzahl von gemeinsamen Kandidaten auf die folgende Gleichung (1). In den Beispielen von 7A und 7B beträgt die Ähnlichkeit „0,53 = (4/6*4/5)“.
[Gleichung 1] $Ähnlichkeit = \frac{\begin{array}{l} Anzahl gemeinsamer Kandidaten \times \\ Anzahl von gemeinsamen Kandidaten \end{array}}{\begin{array}{l} Erste Gesamtanzahl von Kandidaten \times \\ zweite Gesamtanzahl von Kandidaten \end{array}}$
Wenn beispielsweise der Schwellenwert auf „0,25“ eingestellt wird und die Erkennungsergebnisse in 7A und 7B ermittelt werden, passen die Erkennungsergebnisse in den 7A und 7B nicht vollständig zueinander im Hinblick auf die Anzahl und ist die Ähnlichkeit („0,53“) nicht kleiner als der Schwellenwert („0,25“). Folglich entscheidet die Erkennungsergebnis-Evaluierungseinheit 14a, die dritte Spracherkennungseinheit 13 zu veranlasst, eine Sprache zu erkennen.
Ähnlich zur ersten Ausführungsform, gemäß dem obigen modifizierten Beispiel 2, ist es möglich, basierend auf dem Index (in diesem Fall der Ähnlichkeit) zu entscheiden, ob die dritte Spracherkennungseinheit 13 zu veranlassen ist, eine eingegebene Sprache zu erkennen, oder nicht. Folglich, ähnlich zur ersten Ausführungsform, ist es möglich, zu entscheiden, ob es schwierig ist oder nicht, klar zu entscheiden, welches Erkennungsergebnis der ersten und zweiten Spracherkennungseinheiten 11 und 12 geeignet ist.
Modifiziertes Beispiel 3
In der obigen Beschreibung ist ein oben beschriebener Index einer aus einer Reihenfolgedistanz, erster und zweiter maximalen Rangwerte und einer Ähnlichkeit. Jedoch ist der Index nicht darauf beschränkt. Der obige Index muss nur zumindest eine von Reihenfolgendistanz, ersten und zweiten maximalen Rangwerten und der Ähnlichkeit enthalten.
Beispielsweise können nachfolgende Gleichungen (2) bis (5), die durch optionales Kombinieren der Reihenfolgedistanz, der ersten und zweiten maximalen Rangwerte und der Ähnlichkeit ermittelt sind, auf den Index angewendet werden. Die nachfolgende Gleichung (2) und die nachfolgende Gleichung (3) weisen dieselben Eigenschaften wie die Ähnlichkeit auf, und daher wird dieselbe Entscheidung wie diejenige, die für die Ähnlichkeit gemacht wird, durchgeführt. Derweil weisen die nachfolgende Gleichung (4) und die nachfolgende Gleichung (5) dieselbe Eigenschaft wie die Reihenfolgedistanz auf und daher wird dieselbe Entscheidung wie die, die für die Reihenfolgedistanz gemacht wird, durchgeführt. Wie daraus klar ist, ist die Ähnlichkeit nicht auf die im modifizierten Beispiel 2 beschriebene beschränkt und ist die Reihenfolgedistanz nicht auf die in der ersten Ausführungsform beschriebene beschränkt.
[Gleichung 2] $\begin{array}{l} Index = \frac{\begin{array}{l} Anzahl von gemeinsamen Kandidaten \times \\ Anzahl von gemeinsamen Kandidaten \end{array}}{\begin{array}{l} Erste Gesamtanzahl von Kandidaten \times \\ zweite Gesamtanzahl von Kandidaten \times (1 + Reihenfolgedistanz) \end{array}} \\ = \frac{Ähnlichkeit}{1 + Reihenfolgedistanz} \end{array}$

[Gleichung 3] $Index = \frac{Anzahl von gemeinsamen Kandidaten}{1 + Reihenfolgedistanz}$

[Gleichung 4] $Index = \frac{Reihenfolgedistanz}{\begin{matrix} Maximum (erste Gesamtanzahl von Kandidaten, \\ zweite Gesamtanzahl von Kandidaten) \end{matrix}}$

[Gleichung 5] $Index = \frac{Reihenfolgedistanz \times Reihenfolgedistanz}{\begin{matrix} Erste Gesamtanzahl von Kandidaten \times \\ zweite Gesamtanzahl von Kandidaten \end{matrix}}$
Ähnlich zur ersten Ausführungsform ist es gemäß dem obigen modifizierten Beispiel 3 ebenfalls möglich, zu entscheiden, ob es schwierig ist, klar zu entscheiden, welches der Erkennungsergebnisse der ersten und zweien Spracherkennungseinheiten 11 und 12 geeignet ist, oder nicht.
Modifiziertes Beispiel 4
In der ersten Ausführungsform erzeugt die Wörterbuch-Registrierungseinheit 14b ein Wörterbuch, das in einer zeitweiligen Wörterbuch-Speichereinheit 13a zu speichern ist, aus den Kandidatenzeichenketten, die durch sowohl die ersten als auch zweiten Spracherkennungseinheiten 11 und 12 ermittelt werden. Jedoch ist die Wörterbuch-Registrierungseinheit 14b nicht darauf beschränkt. Als modifiziertes Beispiel 4 kann die Wörterbuch-Registrierungseinheit 14b ein Wörterbuch erzeugen, das in der zeitweiligen Wörterbuch-Speichereinheit 13a zu speichern ist, aus Kandidatenzeichenketten, welche durch entweder die erste oder die zweite Spracherkennungseinheit 11 und 12 ermittelt werden.
In dieser Hinsicht wird angenommen, dass das in der zeitweiligen Wörterbuch-Speichereinheit 13a zu speichernde Wörterbuch nur aus durch die erste Spracherkennungseinheit ermittelten Kandidatenzeichenketten erzeugt wird. Entsprechend dieser Konfiguration sind die Kandidatenzeichenketten des Wörterbuchs der dritten Spracherkennungseinheit 13 nur in einem Wörterbuch der ersten Spracherkennungseinheit 11 zu allen Zeiten enthalten. Dies korrespondiert damit, dass das Wörterbuch der dritten Spracherkennungseinheit 13 im Wesentlichen das gleiche wie das Wörterbuch der ersten Spracherkennungseinheit 11 ist. Daher wird gemäß dieser Konfiguration ein anderer Algorithmus als derjenige der ersten Spracherkennungseinheit 11 auf die dritte Spracherkennungseinheit 13 angewendet, um zu verhindern, dass die dritte Spracherkennungseinheit 13 die vollständig gleiche Spracherkennung durchführt wie diejenige der ersten Spracherkennungseinheit 11. Der andere Algorithmus als derjenige der ersten Spracherkennungseinheit 11, der hierin beschrieben ist, beinhaltet beispielsweise einen Algorithmus der zweiten Spracherkennungseinheit 12.
Ähnlich wird gemäß einer Konfiguration, in der das in der zeitweiligen Wörterbuch-Speichereinheit 13a zu speichernde Wörterbuch nur aus durch die zweite Spracherkennungseinheit 12 erhaltenen Kandidatenzeichenketten erzeugt wird, ein anderer Algorithmus als derjenige der zweiten Spracherkennungseinheit 12 auf die dritte Spracherkennungseinheit 13 angewendet, um zu verhindern, dass die dritte Spracherkennungseinheit 13 die vollständig gleiche Spracherkennung wie diejenige der zweiten Spracherkennungseinheit 12 durchführt. Der andere Algorithmus als derjenige der zweiten Spracherkennungseinheit 12, der hierin beschrieben ist, beinhaltet beispielsweise einen Algorithmus der ersten Spracherkennungseinheit 11.
Die oben beschriebenen modifizierten Beispiele 1 bis 4 können nicht nur auf die erste Ausführungsform angewendet werden, sondern auch auf die unten beschriebene zweite Ausführungsform.
Zweite Ausführungsform
8 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung 1 gemäß der zweiten Ausführungsform der vorliegenden Erfindung illustriert. Die gleichen oder ähnliche Komponenten der Spracherkennungsvorrichtung 1 gemäß der zweiten Ausführungsform wie jene, die oben beschrieben sind, werden durch dieselben Bezugszeichen bezeichnet und es werden hauptsächlich Unterschiede beschrieben.
Die Spracherkennungsvorrichtung 1 in 8 enthält eine dritte Wörterbuch-Speichereinheit 13c zusätzlich zu den Komponenten der Spracherkennungsvorrichtung 1 in 3.
Diese dritte Wörterbuch-Speichereinheit 13c ist in einer dritten Spracherkennungseinheit 13 enthalten und speichert ein für die dritte Spracherkennungseinheit 13 einmaliges Wörterbuch. Die dritte Spracherkennungseinheit 13 erkennt eine eingegebene Sprache unter Verwendung eines in einer zeitweiligen Wörterbuch-Speichereinheit 13a gespeicherten Wörterbuchs und des in der dritten Wörterbuch-Speichereinheit 13c gespeicherten Wörterbuchs. Das heißt, dass die dritte Spracherkennungseinheit 13 eine eingegebene Sprache auch unter Verwendung des für die dritte Spracherkennungseinheit 13 einmaligen Wörterbuchs erkennt, zusammen mit einem Wörterbuch, das durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelte Kandidatenzeichenketten enthält.
Wirkung
Die Spracherkennungsvorrichtung 1 gemäß der zweiten Ausführungsform kann das Wörterbuch der dritten Wörterbuch-Speichereinheit 13c veranlassen, Vokabularien zu enthalten, welche durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 kaum erkannt werden, wenn vorhergesagt wird, dass es solche Vokabularien gibt, und kann somit eine Wirkung der Bereitstellung eines hoch validen Erkennungsergebnisses verbessern.
Anderes modifiziertes Beispiel
9 ist ein Blockdiagramm, das die Hauptkomponenten einer Spracherkennungsvorrichtung 1 gemäß diesem modifizierten Beispiel illustriert. Wie in 9 illustriert, kann eine erste Spracherkennungseinheit 11 in einem ersten Server 61 vorgesehen sein und kann eine erste Kommunikationseinheit 71, die ein durch die erste Spracherkennungseinheit 11 ermitteltes Erkennungsergebnis empfängt, in der Spracherkennungsvorrichtung 1 vorgesehen sein. Gemäß dieser Konfiguration ist es ebenfalls möglich, denselben Effekt wie denjenigen der ersten Ausführungsform bereit zu stellen.
10 ist ein Blockdiagramm, das andere Hauptkomponenten der Spracherkennungsvorrichtung 1 gemäß diesem modifizierten Beispiel illustriert. Wie in 10 illustriert, können erste und zweite Spracherkennungseinheiten 11 und 12 an ersten und zweiten Servern 61 und 62 vorgesehen sein und können erste und zweite Kommunikationseinheiten 71 und 72, die durch die ersten und zweiten Spracherkennungseinheiten 11 und 12 ermittelte Erkennungsergebnisse empfangen, an der Spracherkennungsvorrichtung 1 vorgesehen sein. Gemäß dieser Konfiguration ist es ebenfalls möglich, dieselbe Wirkung wie diejenige der ersten Ausführungsform bereitzustellen.
Weiter ist die oben beschriebene Spracherkennungsvorrichtung 1 auf eingebaute Navigationsvorrichtungen, tragbare Navigationsvorrichtungen und Kommunikationsendgeräte (z.B. Mobilendgeräte wie etwa Mobiltelefone, Smartphones und Tablets), die in Fahrzeugen montiert werden können, in diese eingebauten Navigationsvorrichtungen, tragbaren Navigationsvorrichtungen und Kommunikationsendgeräten installierten Applikationsfunktionen und Spracherkennungssysteme, die mit als einem System optional kombinierten Servern konstruiert sind, ebenfalls anwendbar. In diesem Fall können jeweilige Funktionen oder jeweilige Komponenten der Spracherkennungsvorrichtung 1, die oben beschrieben ist, in unterschiedlichen Vorrichtungen, die das System bilden, verteilt sein, oder können kollektiv in einer der Vorrichtungen vorgesehen sein.
Gemäß der vorliegenden Erfindung ist es möglich, jede Ausführungsform und jedes modifizierte Beispiel frei zu kombinieren, oder optional jede Ausführungsform und jedes modifiziertes Beispiel zu modifizieren und wegzulassen, innerhalb des Schutzumfangs der vorliegenden Erfindung.
Die vorliegende Erfindung ist im Detail beschrieben worden. Jedoch ist die obige Beschreibung in allen Aspekten beispielhaft und ist die vorliegende Erfindung nicht darauf beschränkt. Es versteht sich, dass eine unbegrenzte Anzahl modifizierter Beispiele, die nicht exemplifiziert worden sind, annehmbar sind, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen.
Bezugszeichenliste

1: Spracherkennungsvorrichtung
11: Erste Spracherkennungseinheit
12: Zweite Spracherkennungseinheit
13: Dritte Spracherkennungseinheit
14: Steuereinheit
15: Erkennungsergebnis-Ausgabeeinheit

Claims

Spracherkennungssystem (1), das eine Erkennung von Sprache durchführt, die aus einer Ausgabeeinheit (15) auszugeben ist und beinhaltet: eine erste, eine zweite und eine dritte Spracherkennungseinheit (11, 12, 13), die eine eingegebene Sprache erkennen und Kandidatenzeichenketten einschließende Erkennungsergebnisse entsprechend der eingegebenen Sprache ermitteln; und eine Steuereinheit (14), welche, wenn basierend auf den durch die erste und die zweite Spracherkennungseinheit ermittelten Erkennungsergebnissen entschieden wird, die dritte Spracherkennungseinheit zu veranlassen, die eingegebene Sprache zu erkennen, die dritte Spracherkennungseinheit veranlasst, die eingegebene Sprache unter Verwendung eines Wörterbuchs zu erkennen, welches die Kandidatenzeichenketten enthält, die durch die erste oder/und zweite Spracherkennungseinheit ermittelt wurden, und die Ausgabeeinheit (15) veranlasst, das durch die Erkennung ermittelte Erkennungsergebnis auszugeben.
Spracherkennungssystem (1) gemäß Anspruch 1, wobei wenn basierend auf den durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelten Erkennungsergebnissen entschieden wird, die dritte Spracherkennungseinheit (13) nicht zu veranlassen, die eingegebene Sprache zu erkennen, die Steuereinheit (14) die Ausgabeeinheit (15) veranlasst, eines der Erkennungsergebnisse, welche durch eine der ersten und zweiten Spracherkennungseinheiten ermittelt wurden, auszugeben.
Spracherkennungssystem (1) gemäß Anspruch 1, wobei die dritte Spracherkennungseinheit (13) die eingegebene Sprache unter Verwendung eines spezifischen Wörterbuchs für die dritte Spracherkennungseinheit zusammen mit dem die Kandidatenzeichenketten enthaltenden Wörterbuch erkennt.
Spracherkennungssystem (1) gemäß Anspruch 1, wobei ob die dritte Spracherkennungseinheit (13) zu veranlassen ist, die eingegebene Sprache zu erkennen oder nicht, basierend auf einer Ähnlichkeit entschieden wird, die einen Grad angibt, zu welchem die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelten Kandidatenzeichenketten zueinander passen.
Spracherkennungssystem (1) gemäß Anspruch 4, wobei in einem Fall, wo die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelten Erkennungsergebnisse nicht vollständig zueinander passen, und die Ähnlichkeit nicht kleiner ist als ein vorbestimmter Schwellenwert, entschieden wird, die dritte Spracherkennungseinheit (13) zu veranlassen, die eingegebene Sprache zu erkennen, und in einem zweiten Fall verschieden vom ersten Fall entschieden wird, die dritte Spracherkennungseinheit nicht zu veranlassen, die eingegebene Sprache zu erkennen.
Spracherkennungssystem (1) gemäß Anspruch 1, wobei die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelten Erkennungsergebnisse weiter Rangwerte enthalten, welche die Genauigkeit der Kandidatenzeichenketten angeben, und ob die dritte Spracherkennungseinheit (13) zu veranlassen ist, die eingegebene Sprache zu erkennen oder nicht, basierend auf einem Index entschieden wird, der die maximalen Rangwerte, die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelt werden, eine Ähnlichkeit, die einen Grad angibt, zu dem durch die erste und zweite Spracherkennungseinheit ermittelte Kandidatenzeichenketten zueinander passen, oder/und eine Reihenfolgedistanz, die einen Differenzgrad in einer Reihenfolge der Kandidatenzeichenketten angibt, die in Reihenfolge der Rangwerte ausgerichtet sind, die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelt wurden, enthält.
Spracherkennungssystem (1) gemäß Anspruch 6, wobei der Index die Ähnlichkeit ist, und in einem ersten Fall, bei dem die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelten Erkennungsergebnisse nicht vollständig zueinander passen, und die Ähnlichkeit nicht kleiner als ein vorbestimmter Schwellenwert ist, entschieden wird, die dritte Spracherkennungseinheit (13) zu veranlassen, die eingegebene Sprache zu erkennen, und in einem zweiten Fall verschieden von dem ersten Fall entschieden wird, die dritte Spracherkennungseinheit nicht zu veranlassen, die eingegebene Sprache zu erkennen.
Spracherkennungssystem (1) gemäß Anspruch 6, wobei der Index die Reihenfolgedistanz ist, und in einem ersten Fall, wo die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelten Erkennungsergebnisse nicht vollständig zueinander passen und die Reihenfolgedistanz nicht größer als ein vorbestimmter Schwellenwert ist, entschieden wird, die dritte Spracherkennungseinheit (13) zu veranlassen, die eingegebene Sprache zu erkennen, und in einem zweiten Fall verschieden von dem ersten Fall entschieden wird, die dritte Spracherkennungseinheit nicht zu veranlassen, die eingegebene Sprache zu erkennen.
Spracherkennungssystem (1) gemäß Anspruch 6, wobei der Index der maximale Rangwert ist, und in einem ersten Fall, bei dem die durch die erste Spracherkennungseinheit (11) und die zweite Spracherkennungseinheit (12) ermittelten Erkennungsergebnisse nicht vollständig zueinander passen, und sowohl der erste als auch der zweite maximale Rangwert, die durch die erste und zweite Spracherkennungseinheit ermittelt werden, kleiner sind als vorbestimmte erste und zweite Schwellenwerte oder größer sind als die vorbestimmten ersten und zweiten Schwellenwerte, entschieden wird, die dritte Spracherkennungseinheit (13) zu veranlassen, die eingegebene Sprache zu erkennen, und in einem zweiten, anderen Fall als dem ersten Fall, entschieden wird, die dritte Spracherkennungseinheit nicht zu veranlassen, die eingegebene Sprache zu erkennen.
Spracherkennungssystem (1) gemäß Anspruch 1, wobei jedes Mal, wenn die dritte Spracherkennungseinheit (13) die eingegebene Sprache erkennt, die für die Erkennung verwendeten Kandidatenzeichenketten aus dem Wörterbuch gelöscht werden.
Spracherkennungsverfahren zum Durchführen von Spracherkennung, die aus einer Ausgabeeinheit (15) auszugeben ist, wobei das Spracherkennungsverfahren umfasst wenn basierend auf durch eine erste und eine zweite Spracherkennungseinheit (11, 12) von einer ersten, einer zweiten und einer dritten Spracherkennungseinheit (11, 12, 13), die eingegebene Sprache erkennen und Kandidatenzeichenketten einschließende Erkennungsergebnisse entsprechend der eingegebenen Sprache ermitteln, ermittelten Erkennungsergebnissen entschieden wird, die dritte Spracherkennungseinheit zu veranlassen, die eingegebene Sprache zu erkennen, Veranlassen der dritten Spracherkennungseinheit, die eingegebene Sprache unter Verwendung eines Wörterbuches, welches die durch die erste oder/und zweite Spracherkennungseinheit ermittelten Kandidatenzeichenketten enthält, zu erkennen, und Veranlassen der Ausgabeeinheit (15) zum Ausgeben des Erkennungsergebnisses, welches durch die Erkennung ermittelt wird.