DE112013001772T5

DE112013001772T5 - Spracherkennungssystem

Info

Publication number: DE112013001772T5
Application number: DE112013001772.5T
Authority: DE
Inventors: Keita Yamamuro; Youhei OKATO
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2015-08-06
Anticipated expiration: 2033-11-30
Also published as: CN104823235B; JPWO2015079568A1; JP5583301B1; US9424839B2; CN104823235A; WO2015079568A1; US20150348539A1; DE112013001772B4

Abstract

Ein System hat eine Spracherkennungseinheit (2) mit einer ersten Erkennungsfunktionseinheit, die fähig ist zum Erkennen vorbestimmter Wortketten, und einer zweiten Erkennungsfunktionseinheit, die fähig ist zum Erkennen von Teilen der Wortketten; und eine Entscheidungseinheit (4), die in Übereinstimmung mit einer Differenz zwischen den Dauern erster und zweiter Erkennungsergebniskandidaten, die Erkennungsergebnisse der Spracherkennung durch die ersten und zweiten Erkennungsfunktionseinheiten (2a und 2b) sind, einen oder mehrere wahrscheinliche Erkennungsergebniskandidaten aus den ersten und zweiten Erkennungsergebniskandidaten auswählt.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft ein Spracherkennungssystem, das einen wahrscheinlichen Erkennungsergebniskandidaten aus einer Vielzahl von Spracherkennungsergebnissen auswählt und ausgibt.
HINTERGRUNDTECHNIK
Konventionell ist ein Spracherkennungssystem vorgeschlagen worden, das eine Spracherkennung durch ein gemeinsames Verwenden einer Vielzahl von Erkennungsfunktionseinheiten ausführt, die sich in einem Gebiet und eines Umfeldes eines erkennbaren Vokabulars unterscheiden, und ein wahrscheinliches Erkennungsergebnis aus den akquirierten Erkennungsergebnissen erhält (siehe beispielsweise Patentdokument 1).
DOKUMENT DES STANDES DER TECHNIK
PATENTDOKUMENT
Patentdokument 1: Offengelegtes japanisches Patent Nr. 2007-33671 .
OFFENBARUNG DER ERFINDUNG VON DER ERFINDUNG ZU LOSENDE PROBLEME
Beim Auswählen eines finalen Erkennungsergebnisses aus den Erkennungsergebnissen, die eine Vielzahl von Erkennungsfunktionseinheiten erhält, wählt das Spracherkennungssystem konventionell das wahrscheinlichste Erkennungsergebnis aus mittels Vergleichen der Zuverlässigkeit bzw. Reliabilität der Erkennungsergebnisse, bestimmt gemäß den individuellen Standards der Vielzahl von Erkennungsfunktionseinheiten, oder nach einem Sortieren sämtlicher der Erkennungsergebnisse der Vielzahl von Erkennungsfunktionseinheiten in absteigender Zuverlässigkeitsreihenfolge.
Demgemäß hat es ein Problem darin gegeben, dass, wenn ein Wort oder ein Teil einer Wortkette (von nun an als ”Wortkette” bezeichnet, und es wird angenommen, dass der Begriff ”Wortkette” ein einzelnes Wort enthält), das/der durch eine erste Erkennungsfunktionseinheit erkennbar ist, mit einer durch eine zweite Erkennungsfunktionseinheit erkennbaren Wortkette übereinstimmt, das durch die erste Erkennungsfunktionseinheit zu erkennende Ergebnis falsch als das Ergebnis der zweiten Erkennungsfunktionseinheit erkannt werden kann.
Man betrachte beispielsweise den Fall, wo eine erste Erkennungsfunktionseinheit verwendet wird mit einer zweiten Erkennungsfunktionseinheit, die fähig ist zum Erkennen einer Wortkette, die kürzer ist als die der ersten Erkennungsfunktionseinheit, und eine Kette ”California Los Angeles” geäußert wird. Obwohl das Erkennungsergebnis der ersten Erkennungsfunktionseinheit als wahrscheinlich ausgewählt werden soll, kann in diesem Fall das Wort ”California” durch die zweite Erkennungsfunktionseinheit erkannt werden. Da die Sprache das Wort ”California” enthält, das durch die erste und die zweite Erkennungsfunktionseinheit erkennbar ist, ist es somit wahrscheinlich, dass das Ergebnis der zweiten Erkennungsfunktionseinheit ausgewählt wird als das finale Erkennungsergebnis in Abhängigkeit von der Zuverlässigkeit der Erkennungsergebnisse, bestimmt gemäß den individuellen Standards der ersten und zweiten Erkennungsfunktionseinheiten.
Die vorliegende Erfindung wird realisiert, um die vorherigen Probleme zu lösen. Deshalb ist es eine Aufgabe der vorliegenden Erfindung, ein Spracherkennungssystem bereitzustellen, das zum Auswählen eines wahrscheinlichen Erkennungsergebniskandidaten aus den Spracherkennungsergebnissen der Erkennungsfunktionseinheiten mit einer hohen Genauigkeit fähig ist.
MITTEL ZUM LÖSEN DER PROBLEME
Ein Spracherkennungssystem in Übereinstimmung mit der vorliegenden Erfindung umfasst: eine Spracheingabeeinheit, die Sprache eingibt; eine Spracherkennungseinheit mit einer Vielzahl von Erkennungsfunktionseinheiten bzw. Erkennungs-Engines, die die von der Spracheingabeeinheit akquirierte Sprache erkennen; und eine Entscheidungseinheit, die in Übereinstimmung mit Differenzen zwischen Dauern von Erkennungsergebniskandidaten, die die Vielzahl von Erkennungsfunktionseinheiten erkennt, einen oder mehrere Erkennungsergebniskandidaten aus den Erkennungsergebniskandidaten auswählt.
VORTEILE DER ERFINDUNG
Gemäß der vorliegenden Erfindung bietet sie einen Vorteil, dass sie fähig ist zum Auswählen eines wahrscheinlichen Erkennungsergebniskandidaten aus den Spracherkennungsergebnissen der Erkennungsfunktionseinheiten mit hoher Genauigkeit.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 1 in Übereinstimmung mit der vorliegenden Erfindung zeigt.
2 ist ein Blockdiagramm, das eine Ausgestaltung einer Erkennungsfunktionseinheit zeigt.
3 ist ein Diagramm, das ein Beispiel einer Sprache-Beginn-Ende-Erfassung zeigt.
4 ist eine Tabelle, die ein Beispiel von Wortketten zeigt, die durch erste und zweite Erkennungsfunktionseinheiten erkennbar sind.
5 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 1 zeigt.
6 ist eine Tabelle, die ein Beispiel einer Ausgabeinformation der ersten und zweiten Erkennungsfunktionseinheiten zeigt.
7 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 2 in Übereinstimmung mit der vorliegenden Erfindung zeigt.
8 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 2 zeigt.
9 ist eine Tabelle, die ein Beispiel von Ergebnissen eines Vergleichens von Dauern von Erkennungsergebniskandidaten mit einer akquirierten Sprachdauer zeigt.
10 ist ein Diagramm, das eine Verarbeitung zum Bestimmen eines Referenzwertes einer Sprachdauer mit Verwendung eines gesetzten Wertes in Übereinstimmung mit einer Kategorie einer Erkennungsziel-Wortkette zeigt.
BESTER MODUS ZUM AUSFÜHREN DER ERFINDUNG
Der beste Modus zum Ausführen der Erfindung wird nun mit Verweis auf die begleitenden Zeichnungen beschrieben werden, um die vorliegende Erfindung in größerem Detail zu erläutern.
AUSFÜHRUNGSFORM 1
1 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 1 in Übereinstimmung mit der vorliegenden Erfindung zeigt. Das in 1 gezeigte Spracherkennungssystem ist ein System, das als eine Eingabeeinrichtung eines Navigationssystems oder eines Audiosystems verwendet wird, das in einem Fahrzeug montiert oder darin getragen wird. Die Ausgestaltung umfasst eine Spracheingabeeinheit 1, eine Spracherkennungseinheit 2, erste und zweite Erkennungskandidat-Akquiriereinheiten 3a und 3b, eine Entscheidungseinheit 4 und eine Integriereinheit 5.
Die Spracheingabeeinheit 1 hat eine Funktion zum Aufnehmen von Sprache und zum Akquirieren eines Eingabesignals. Beispielsweise wandelt sie ein von einem Mikrophon geliefertes Sprachsignal in ein digitales Signal um.
Die Spracherkennungseinheit 2 umfasst erste und zweite Erkennungsfunktionseinheiten bzw. Erkennungs-Engines 2a und 2b, die eine Spracherkennung desselben Sprachsignals ausführen, das von der Spracheingabeeinheit 1 ausgegeben worden ist.
Die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b führen eine Spracherkennungsverarbeitung des eingegebenen Sprachsignals aus und geben eine Erkennungsergebniskette, eine Erkennungsergebniszuverlässigkeit und eine Erkennungsergebnisdauer aus. Es wird hier angenommen, dass die erste Erkennungsfunktionseinheit wenigstens eine Wortkette erkennen kann, die als ihren Teil eine durch die zweite Erkennungsfunktionseinheit erkennbare Wortkette enthält.
Übrigens wird die Ausführungsform 1 unten mit der Annahme beschrieben, dass die Anzahl von Wörtern, die eine durch die zweite Erkennungsfunktionseinheit 2b erkennbare Wortkette begründen, nicht größer ist als die Anzahl von Wörtern, die eine durch die erste Erkennungsfunktionseinheit 2a erkennbare Wortkette begründen.
Genauer genommen wird angenommen, dass die erste Erkennungsfunktionseinheit 2a eine Wortkette erkennen kann, die aus einer Kombination eines Staatnamens und eines Stadtnamens der USA bestehen, und die zweite Erkennungsfunktionseinheit 2b einen Staatnamen erkennen kann.
Obwohl in der Ausführungsform 1 angenommen wird, dass die Spracherkennungseinheit 2 die zwei Erkennungsfunktionseinheiten umfasst, kann sie außerdem drei oder mehr Erkennungsfunktionseinheiten umfassen, solange wie die Erkennungsfunktionseinheiten wenigstens eine Wortkette erkennen können, die als ihren Teil eine durch die anderen Erkennungsfunktionseinheiten erkennbare Wortkette enthält (es ist dasselbe in der Ausführungsform 2).
Die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b sind mit den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b der Spracherkennungseinheit 2 verbunden. Die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquirieren aus den Spracherkennungsverarbeitungsergebnissen der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b nicht nur Erkennungsergebnisketten als Erkennungsergebniskandidaten, sondern auch eine Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauer der Erkennungsergebniskandidaten.
Übrigens wird es in der folgenden Beschreibung angenommen, dass der Erkennungsergebniskandidat, der von der ersten Erkennungsfunktionseinheit 2a durch die erste Erkennungskandidat-Akquiriereinheit 3a akquiriert worden ist, als ein ”erster Erkennungsergebniskandidat” bezeichnet wird.
Außerdem wird es angenommen, dass der Erkennungsergebniskandidat, der von der zweiten Erkennungsfunktionseinheit 2b durch die zweite Erkennungskandidat-Akquiriereinheit 3b akquiriert worden ist, als ein ”zweiter Erkennungsergebniskandidat” bezeichnet wird.
Die Entscheidungseinheit 4 tätigt eine Richtig- oder Falsch-Entscheidung der Erkennungsergebniskandidaten in Übereinstimmung mit den Differenzen zwischen den Dauern der ersten Erkennungsergebniskandidaten und den Dauern der zweiten Erkennungsergebniskandidaten. In der Richtig- oder Falsch-Entscheidung verwirft die Entscheidungseinheit 4 die als die Falsch-Erkennung entschiedenen Erkennungsergebniskandidaten und wählt die verbleibenden Erkennungsergebniskandidaten als wahrscheinliche Erkennungsergebniskandidaten aus.
Beispielsweise berechnet die Entscheidungseinheit 4 die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten der ersten Erkennungsergebniskandidaten und der Dauer sämtlicher der zweiten Erkennungsergebniskandidaten. Dann verwirft sie die zweiten Erkennungsergebniskandidaten, die die Differenz zwischen den Dauern nicht geringer als eine vorbestimmte erste Schwelle (oder größer als die Schwelle) haben. Dann wählt sie die ersten Erkennungsergebniskandidaten und die zweiten Erkennungsergebniskandidaten aus, die nicht verworfen worden sind, und liefert sie an die Erkennungsergebnis-Integriereinheit 5.
Als ein anderes Verfahren berechnet beispielsweise die Entscheidungseinheit 4 die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten der ersten Erkennungsergebniskandidaten und der Dauer des zuverlässigsten Erkennungsergebniskandidaten der zweiten Erkennungsergebniskandidaten. Dann, wenn die Differenz der Dauer nicht geringer als eine vorbestimmte erste Schwelle (oder größer als die Schwelle) ist, verwirft sie sämtliche der zweiten Erkennungsergebniskandidaten und wählt die ersten Erkennungsergebniskandidaten aus. Dann liefert sie die ausgewählten Erkennungsergebniskandidaten an die Integriereinheit 5.
Die Integriereinheit 5 erstellt eine einzige Erkennungsergebniskandidatengruppe durch ein Kombinieren der Erkennungsergebniskandidaten, die die Entscheidungseinheit 4 als wahrscheinlich aus den Erkennungsergebniskandidaten auswählt, die die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquirieren, und sortiert die Erkennungsergebniskandidaten in der Erkennungskandidatengruppe in absteigender Zuverlässigkeitsreihenfolge.
Wenn die Entscheidungseinheit 4 unfähig zum Verwerfen sämtlicher der zweiten Erkennungsergebniskandidaten war, kann übrigens die Integriereinheit 5 die Zuverlässigkeit der individuellen Erkennungsergebniskandidaten der zweiten Erkennungsergebniskandidaten gemäß den Differenzen zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten der ersten Erkennungsergebniskandidaten und den Dauern der individuellen Erkennungsergebniskandidaten der zweiten Erkennungsergebniskandidaten korrigieren, und kann sie in Übereinstimmung mit der Zuverlässigkeit nach der Korrektur sortieren.
2 ist ein Blockdiagramm, das eine Ausgestaltung der Erkennungsfunktionseinheit zeigt. Wie in 2 gezeigt, umfassen die erste und die zweite Erkennungsfunktionseinheit 2a und 2b jeweils eine Erfassungseinheit 20, eine Sprachsignal-Verarbeitungseinheit 21, eine Vergleichseinheit 22 und ein Spracherkennungswörterbuch 23.
Die Erfassungseinheit 20 empfängt ein von der Spracheingabeeinheit 1 ausgegebenes Sprachsignal und erfasst die Beginnzeit und Endzeit der Sprache des Sprachsignals. Die Sprachdauer (sprachaktiver Abschnitt) des Sprachsignals, die aus der Beginnzeit und der Endzeit der Sprache entschieden worden ist, die durch die Erfassungseinheit 20 erfasst worden ist, wird an die Sprachsignal-Verarbeitungseinheit 21 geliefert.
3 ist ein Diagramm, das ein Beispiel der Sprache-Beginn-Ende-Erfassung zeigt. Die Erfassungseinheit 20 erfasst die Beginnzeit und die Endzeit der Sprache aus dem gesamten eingegebenen Sprachsignal und klassifiziert es in den sprachinaktiven Abschnitt und den sprachaktiven Abschnitt (Sprachdauer). Wie in 3 gezeigt, werden der Beginn und das Ende der Sprache aus der Amplitude des Sprachsignals bestimmt.
Hinsichtlich der Sprachwellenform des Sprachsignals wird beispielsweise der Zeitpunkt, bei dem die Amplitude einen Amplitudenreferenzwert zuerst entlang der Zeitbasis überschreitet, als die Beginnzeit der Sprache bestimmt. Außerdem wird der Zeitpunkt, zu dem die Amplitude den Amplitudenreferenzwert zuletzt entlang der Zeitbasis überschreitet, als die Endzeit der Sprache bestimmt.
Die Sprachsignal-Verarbeitungseinheit 21 empfängt den sprachaktiven Abschnitt des Sprachsignals, der durch die Erfassungseinheit 20 erfasst worden ist, führt eine Signalverarbeitung, so wie eine Schnelle Fourier-Transformation, Filteranalyse, lineare prädiktive Analyse und Cepstrum-Analyse, für den sprachaktiven Abschnitt aus und extrahiert Sprachmerkmalparameter. Die Sprachmerkmalparameter werden an die Vergleichseinheit 22 geliefert.
Die Vergleichseinheit 22 vergleicht die Sprachmerkmalparameter des Sprachsignals, die durch die Sprachsignal-Verarbeitungseinheit 21 extrahiert worden sind, mit einer Vielzahl von Sprachmerkmalparametern, die in dem Spracherkennungswörterbuch 23 gespeichert sind, und gibt ein Erkennungsergebnis aus, das Sprachmerkmalparameter mit einem hohen Grad einer Ähnlichkeit mit den Sprachmerkmalparametern hat, die in dem Spracherkennungswörterbuch 23 aufgezeichnet sind. Hier gibt die Vergleichseinheit 22 einen Wert aus, der erhalten worden ist durch Normalisieren des Grades der Ähnlichkeit, als eine Erkennungsergebniszuverlässigkeit. Ferner gibt sie die zu der Zeit der Vergleichsverarbeitung berechnete Erkennungsergebnisdauer aus.
Das Spracherkennungswörterbuch 23 ist Wörterbuchdaten, die aus ein oder mehreren Wortketten bestehen, die erkannt werden sollen, die zusammen mit ihren Sprachmerkmalparametern aufgezeichnet sind. Inder Ausführungsform 1 haben die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b das Spracherkennungswörterbuch 23, das Wortketten jeweils unterschiedlicher Längen aufzeichnet.
Das Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a zeichnet wenigstens eine Wortkette auf, die einen Teil einer Wortkette enthält, die in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet ist.
Die in dem Spracherkennungswörterbuch 23 aufgezeichneten Wortketten variieren in Übereinstimmung mit dem Erkennungsmodus des Spracherkennungssystems. Wenn beispielsweise der Erkennungsmodus von Adressen gesetzt ist, zeichnet das Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a Wortketten auf, die zu einer Kategorie von Adressen gehören, so wie ”California Los Angeles” und ”California San Diego”.
Da die zweite Erkennungsfunktionseinheit 2b eine Erkennungsfunktionseinheit ist, die eine kürzere Wortkette als die erste Erkennungsfunktionseinheit 2a erkennt, zeichnet andererseits das Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b ein Wort auf, so wie ”California”.
Auf diese Weise wird in 4 das Wort ”California”, das in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet ist, in den Wortketten, so wie ”California Los Angeles” und ”California San Diego”, die in dem Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a aufgezeichnet sind, wiederholt.
Obwohl 4 ein Beispiel zeigt, das die zu der Kategorie von Adressen gehörenden Wortketten in dem Spracherkennungswörterbuch 23 des Erkennungsmodus des Spracherkennungssystems aufzeichnet, können übrigens die Spracherkennungswörterbücher 23 der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b die zu der Kategorie von Namen gehörenden Wortketten mittels Setzen des Erkennungsmodus von Namen aufzeichnen. Ein Abändern des Modus befähigt somit die Spracherkennungswörterbücher 23 zum Aufzeichnen von Wortketten, die zu einer anderen Kategorie als die Adressen oder Namen gehören.
Übrigens können die Spracheingabeeinheit 1, Spracherkennungseinheit 2, ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b, Entscheidungseinheit 4 und Integriereinheit 5 als konkrete Einrichtungen realisiert sein, in denen Hardware und Software miteinander kooperieren, durch ein Veranlassen eines Mikrocomputers, Programme auszuführen, die die für die vorliegende Erfindung bestimmte Verarbeitung beschreiben.
Als Nächstes wird die Operation beschrieben werden.
5 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 1 zeigt.
Zuerst führen die erste Erkennungsfunktionseinheit 2a und die zweite Erkennungsfunktionseinheit 2b, die die unterschiedlichen Spracherkennungswörterbücher 23 haben, die Spracherkennungsverarbeitung des von der Spracheingabeeinheit 1 gelieferten Sprachsignals durch (Schritt ST1). Wie in 4 gezeigt, wird es hier angenommen, dass die erste Erkennungsfunktionseinheit wenigstens eine Wortkette erkennen kann, die als ihren Teil eine durch die zweite Erkennungsfunktionseinheit erkennbare Wortkette enthält.
Als Nächstes akquirieren die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b die Ketten der Erkennungsergebniskandidaten, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten von den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b (Schritt ST2). Die Spracherkennungsverarbeitungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b werden von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b an die Entscheidungseinheit 4 geliefert.
Die Entscheidungseinheit 4 berechnet die Differenz zwischen der Dauer des Erkennungsergebniskandidaten mit der höchsten Zuverlässigkeit unter den ersten Erkennungsergebniskandidaten und der Dauer des Erkennungsergebniskandidaten mit der höchsten Zuverlässigkeit unter den zweiten Erkennungsergebniskandidaten. Auf diese Weise macht ein Schätzen der Wahrscheinlichkeit der Erkennungsergebnisse gemäß der Differenz zwischen den Dauern der Erkennungsergebniskandidaten, die durch die Spracherkennung der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b erfasst worden sind, und gemäß der Zuverlässigkeit der Erkennungsergebniskandidaten es möglich, einen wahrscheinlicheren Erkennungsergebniskandidaten mit höherer Genauigkeit auszuwählen.
Als Nächstes entscheidet die Entscheidungseinheit 4 hinsichtlich dessen, ob die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten unter den ersten Erkennungsergebniskandidaten und der Dauer des zuverlässigsten Erkennungsergebniskandidaten unter den zweiten Erkennungsergebniskandidaten nicht geringer als die vorbestimmte erste Schwelle ist oder nicht ist (Schritt ST3).
Es wird hier angenommen, dass die erste Schwelle ein Wert ist, den die Entscheidungseinheit 4 erhält durch ein Berechnen im Voraus der Differenzen zwischen den Dauern der Wortketten, die in dem Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a und in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet sind, und durch ein Ausführen einer statistischen Verarbeitung dieser.
In diesem Fall wird die erste Schwelle variabel in Übereinstimmung mit den Kategorien der Wortketten gesetzt bzw. festgelegt, die in dem Spracherkennungswörterbuch 23 der ersten Erkennungsfunktionseinheit 2a und in dem Spracherkennungswörterbuch 23 der zweiten Erkennungsfunktionseinheit 2b aufgezeichnet sind.
Die Entscheidungseinheit 4 ändert mit anderen Worten die erste Schwelle in Übereinstimmung mit dem Erkennungsmodus ab, weil die Spracherkennungswörterbücher 23 die Wortketten aufzeichnen, die zu der Kategorie gehören, die dem Erkennungsmodus des Spracherkennungssystems entspricht, wie mit Verweis auf 4 beschrieben. Auf diese Weise kann die Entscheidungseinheit 4 einen Erkennungsergebniskandidaten mit höherer Genauigkeit mittels Berücksichtigung des Erkennungsmodus des Spracherkennungssystems verwerfen.
Falls die Differenz zwischen den Dauern nicht geringer als die erste Schwelle ist (JA bei Schritt ST3), verwirft die Entscheidungseinheit 4 die zweiten Erkennungsergebniskandidaten (Schritt ST4). Beim Gebrauchen der Erkennungsfunktionseinheiten mit unterschiedlichen erkennbaren Wortkettenlängen ermöglicht auf diese Weise die Richtig- oder Falsch-Entscheidung auf Grundlage der Differenz zwischen den Dauern der Erkennungsergebniskandidaten ein Verwerfen eines falsch erkannten Erkennungsergebniskandidaten mit höherer Genauigkeit.
Falls die Differenz zwischen den Dauern der Erkennungsergebniskandidaten geringer als die erste Schwelle ist (NEIN bei Schritt ST3), werden andererseits die ersten und zweiten Erkennungsergebniskandidaten von der Entscheidungseinheit 4 an die Integriereinheit 5 geliefert. Die ersten und zweiten Erkennungsergebniskandidaten von der Entscheidungseinheit 4 akquirierend, kombiniert die Integriereinheit 5 sie zu einer einzigen Erkennungsergebniskandidatengruppe (Schritt ST5).
Beim Kombinieren der ersten und zweiten Erkennungsergebniskandidaten oder beim Empfangen der verbleibenden ersten Erkennungsergebniskandidaten, nachdem die zweiten Erkennungskandidaten verworfen werden in der Verarbeitung bei Schritt ST4, sortiert die Integriereinheit 5 die Erkennungsergebniskandidaten in absteigender Zuverlässigkeitsreihenfolge (Schritt ST6). Auf diese Weise kann das System einen Benutzer mit einem Ergebnis eines Auswählens wahrscheinlicher Erkennungsergebniskandidaten in Übereinstimmung mit dem Zuverlässigkeitsgrad versorgen.
Falls die Differenz zwischen den Dauern der Erkennungsergebniskandidaten geringer als die erste Schwelle ist (NEIN bei Schritt ST3) und die Entscheidungseinheit 4 die zweiten Erkennungsergebniskandidaten nicht verwerfen kann, kann übrigens die Integriereinheit 5 die Zuverlässigkeit der individuellen zweiten Erkennungsergebniskandidaten durch die Differenz zwischen den Dauern der Erkennungsergebniskandidaten, die bei Schritt ST3 berechnet worden sind, korrigieren und kann auf der Grundlage der Zuverlässigkeit nach der Korrektur sie sortieren.
Außerdem können die Kandidaten von der Spitze bis zu einer bestimmten Rangordnung als die finalen Erkennungsergebniskandidaten ausgegeben werden.
Als Nächstes wird eine Beschreibung mit Verweis auf ein konkretes Beispiel gemacht werden.
Falls die Sprache ”California Los Angeles” geäußert wird, nimmt die Spracheingabeeinheit 1 die Sprache auf und liefert das Sprachsignal ”California Los Angeles” an die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b.
Die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b führen die Spracherkennungsverarbeitung des Sprachsignals ”California Los Angeles” durch. Es wird hier angenommen, dass die Spracherkennungswörterbücher 23 der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b die in 4 gezeigten Wortketten aufzeichnen.
Als Nächstes akquirieren die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b die Ketten der Erkennungsergebniskandidaten, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten von den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b und liefern sie an die Entscheidungseinheit 4. 6 zeigt ein Beispiel der ersten und zweiten Erkennungsergebniskandidaten, die durch die erste und die zweite Erkennungskandidat-Akquiriereinheiten 3a und 3b akquiriert worden sind.
Die Entscheidungseinheit 4 berechnet die Differenz 1500 ms mittels Subtrahieren der Dauer 2500 ms des zuverlässigsten Kandidaten ”California” unter den zweiten Erkennungsergebniskandidaten von der Dauer 4000 ms des zuverlässigsten Kandidaten ”California Los Angeles” unter den ersten Erkennungsergebniskandidaten.
Danach vergleicht die Entscheidungseinheit 4 die Differenz 1500 ms zwischen den Dauern mit der vorbestimmten ersten Schwelle. Übrigens ist die Schwelle bei 1000 ms gesetzt, unter Berücksichtigung der Differenz zwischen den Dauern der Wortketten, die in den Spracherkennungswörterbüchern 23 der individuellen Erkennungsfunktionseinheiten aufgezeichnet sind.
Da die Differenz 1500 ms zwischen den individuellen Dauern der Erkennungsergebniskandidaten nicht geringer als die erste Schwelle 1000 ms ist, verwirft die Entscheidungseinheit 4 sämtliche der zweiten Erkennungsergebniskandidaten.
Beispielsweise ist der Kandidat mit der höchsten Zuverlässigkeit unter den ersten und zweiten Erkennungsergebniskandidaten ”California” mit der Zuverlässigkeit 6000, der der zweite Erkennungsergebniskandidat ist. Selbst obwohl die Sprache ”California Los Angeles” tatsächlich geäußert wird, wird demgemäß das konventionelle System, das die Zuverlässigkeit als den Auswahlstandard einsetzt, wahrscheinlich ”California” ausgeben, was erhalten wird als das finale Erkennungsergebnis durch die Spracherkennung der zweiten Erkennungsfunktionseinheit 2b.
Im Gegensatz dazu kann gemäß der vorliegenden Erfindung, da der Kandidat ”California” verworfen wird durch die Differenz zwischen den Dauern der Erkennungsergebniskandidaten, das System das richtige Erkennungsergebnis ”California Los Angeles” zweckgemäß als das finale Erkennungsergebnis auswählen.
Schließlich sortiert die Integriereinheit 5 die ersten Erkennungsergebniskandidaten in absteigender Zuverlässigkeitsreihenfolge.
Falls die Differenz zwischen den individuellen Dauern der Erkennungsergebniskandidaten geringer als die erste Schwelle ist, und die zweiten Erkennungsergebniskandidaten nicht verworfen werden, kann hier die Integriereinheit 5 die Zuverlässigkeit der individuellen zweiten Erkennungsergebniskandidaten in Übereinstimmung mit der Differenz zwischen den Dauern der Erkennungsergebniskandidaten korrigieren und kann sie auf der Grundlage der Zuverlässigkeit nach der Korrektur sortieren.
Beim Korrigieren der Zuverlässigkeit der zweiten Erkennungsergebniskandidaten, die in 6 gezeigt sind, berechnet beispielsweise die Integriereinheit 5 die Differenz zwischen der Dauer des zuverlässigsten Erkennungsergebniskandidaten unter den ersten Erkennungsergebniskandidaten und den Dauern sämtlicher der zweiten Erkennungsergebniskandidaten. Als Nächstes berechnet sie Gewichte für die individuellen Erkennungsergebniskandidaten aus den Differenzen zwischen den Dauern sämtlicher der Erkennungsergebniskandidaten und korrigiert die Zuverlässigkeit mittels Multiplizieren der Zuverlässigkeit der individuellen Erkennungsergebniskandidaten mit den Gewichten. Beispielsweise korrigiert die Integriereinheit 5 die Zuverlässigkeit in der Richtung zum Reduzieren der Zuverlässigkeit mittels Zuweisen des Gewichtes ”1”, wenn die Differenz ”0” ist, und mittels Reduzieren des Gewichtes in Richtung null, wie/wenn die Differenz zunimmt.
Wie oben beschrieben, umfasst gemäß der vorliegenden Ausführungsform 1 sie die Spracherkennungseinheit 2 mit der ersten Erkennungsfunktionseinheit, die fähig ist zum Erkennen vorbestimmter Wortketten, und der zweiten Erkennungsfunktionseinheit, die fähig ist zum Erkennen eines Teils der vorherigen Wortketten; und die Entscheidungseinheit 4, die eine oder mehrere wahrscheinliche Erkennungsergebniskandidaten aus den ersten und zweiten Erkennungsergebniskandidaten auswählt in Übereinstimmung mit den Differenzen zwischen den Dauern der ersten und zweiten Erkennungsergebniskandidaten, die das Erkennungsergebnis der Spracherkennung der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind.
Die derart angeordnete Ausgestaltung kann die Erkennungsergebniskandidaten mit klar falscher Dauer unter den ersten und zweiten Erkennungsergebniskandidaten unterscheiden, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und die anderen Erkennungsergebniskandidaten als die wahrscheinlichen Kandidaten auswählen. Somit kann sie die wahrscheinlichen Erkennungsergebniskandidaten mit einer höheren Genauigkeit aus den ersten und zweiten Erkennungsergebniskandidaten auswählen, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind.
Außerdem umfasst gemäß der vorliegenden Ausführungsform 1 die Spracherkennungseinheit 2 die erste Erkennungsfunktionseinheit, die fähig ist zum Erkennen der vorbestimmten Wortketten, und die zweite Erkennungsfunktionseinheit, die fähig ist zum Erkennen eines Teils der vorherigen Wortketten, wobei die Entscheidungseinheit 4 die zweiten Erkennungsergebniskandidaten verwirft, wenn die Differenz zwischen den Dauern der ersten und zweiten Erkennungsergebniskandidaten, die die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b erkennen, nicht geringer als die vorbestimmte erste Schwelle ist, und die ersten Erkennungsergebniskandidaten als die wahrscheinlichen Kandidaten auswählt. Auf diese Weise ermöglicht ein Tätigen der Richtig- oder Falsch-Entscheidung auf Grundlage der Differenz zwischen den Dauern der Erkennungsergebniskandidaten ein Verwerfen der falsch erkannten Erkennungsergebniskandidaten mit hoher Genauigkeit.
Weiterhin schätzt gemäß der vorliegenden Ausführungsform 1 die Entscheidungseinheit 4 die Wahrscheinlichkeit der Erkennungsergebniskandidaten gemäß der Differenz zwischen den Dauern der ersten und zweiten Erkennungsergebniskandidaten, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und gemäß der Zuverlässigkeit der Erkennungsergebniskandidaten. Auf diese Weise kann sie die wahrscheinlichen Erkennungsergebniskandidaten mit hoher Genauigkeit auswählen.
Darüber hinaus ändert gemäß der vorliegenden Ausführungsform 1 die Entscheidungseinheit 4 die erste Schwelle in Übereinstimmung mit der Kategorie der Erkennungsziel-Wortkette ab. Auf diese Weise kann sie die Erkennungsergebniskandidaten mit höherer Genauigkeit mittels Berücksichtigung des Erkennungsmodus auswählen.
AUSFÜHRUNGSFORM 2
7 ist ein Blockdiagramm, das eine Ausgestaltung eines Spracherkennungssystems einer Ausführungsform 2 in Übereinstimmung mit der vorliegenden Erfindung zeigt. Das in 7 gezeigte Spracherkennungssystem wird als eine Eingabeeinrichtung eines Navigationssystems oder eines Audiosystems verwendet, das beispielsweise in einem Fahrzeug montiert oder darin getragen wird, wie in der Ausführungsform 1.
Es umfasst die Spracheingabeeinheit 1, Spracherkennungseinheit 2, erste und zweite Erkennungskandidat-Akquiriereinheiten 3a und 3b, Entscheidungseinheit 4A, Integriereinheit 5 und Erfassungseinheit 6.
Übrigens sind in 7 dieselben Komponenten wie die von 1 mit denselben Bezugszeichen bezeichnet, und ihre Beschreibung wird weggelassen werden.
Die vorhergehende Ausführungsform 1 macht eine Richtig- oder Falsch-Entscheidung der Erkennungsergebniskandidaten mittels Vergleichen der Dauern der ersten und zweiten Erkennungsergebniskandidaten, die die Erkennungsergebnisse der Spracherkennung der zwei oder mehr Erkennungsfunktionseinheiten sind.
Im Gegensatz dazu umfasst die Ausführungsform 2 die Erfassungseinheit 6 separat von den Erkennungsfunktionseinheiten, und die Entscheidungseinheit 4A setzt die Sprachdauer (von nun als ”akquirierte Sprachdauer” bezeichnet) der Sprache, die die Erfassungseinheit 6 erfasst, als einen Referenzwert der Richtig- oder Falsch-Entscheidung. Hier wird die Sprache durch die Spracheingabeeinheit 1 akquiriert.
Die Erfassungseinheit 6 bestimmt die akquirierte Sprachdauer, die der Referenzwert ist, der mit den Dauern der individuellen Erkennungsergebniskandidaten durch die Entscheidungseinheit 4A verglichen werden soll. Beispielsweise erfasst, auf dieselbe Weise wie die Erfassungseinheit 20 in den Erkennungsfunktionseinheiten, die Erfassungseinheit 6 die akquirierte Sprachdauer aus dem von der Spracheingabeeinheit 1 gelieferten Sprachsignal und liefert sie an die Entscheidungseinheit 4A.
Da die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b jeweils eine unterschiedliche Spracherkennungsverarbeitung ausführen können, berechnen die Erkennungsfunktionseinheiten manchmal die Sprachdauerinformation mit Verwendung unterschiedlicher Algorithmen.
Außerdem wird die akquirierte Sprachdauer, die von der Erfassungseinheit 6 ausgegeben worden ist, ein Referenzwert zum Vergleichen der Erkennungsfunktionseinheiten, die unterschiedliche Algorithmen verwenden. Als ein Beispiel der unterschiedliche Spracherkennungsalgorithmen verwendenden Erkennungsfunktionseinheiten gibt es VoCon von Nuance Communications Inc., Google Voice Search von Google Inc. und Julius von Nagoya Institute of Technology und Kyoto University. Die Namen der Erkennungsfunktionseinheiten sind jeweils als Marke eingetragen.
Übrigens können die Spracheingabeeinheit 1, Spracherkennungseinheit 2, die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b, Entscheidungseinheit 4A, Integriereinheit 5 und Erfassungseinheit 6 als eine konkrete Einrichtung realisiert sein, in der Hardware und Software miteinander zusammenarbeiten, mittels Veranlassen eines Mikrocomputers, Programme auszuführen, die die für die vorliegende Erfindung bestimmte Verarbeitung beschreiben.
Als Nächstes wird die Operation beschrieben werden.
8 ist ein Flussdiagramm, das die Operation des Spracherkennungssystems der Ausführungsform 2 zeigt.
Zuerst führen die erste Erkennungsfunktionseinheit 2a und die zweite Erkennungsfunktionseinheit 2b die Spracherkennungsverarbeitung des von der Spracheingabeeinheit 1 gelieferten Sprachsignals durch. Hier erfasst die Erfassungseinheit 6 die akquirierte Sprachdauer von dem durch die Spracheingabeeinheit 1 eingegebenen Sprachsignal.
Die ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquirieren die Ketten der Erkennungsergebniskandidaten, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten von den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b. Die Spracherkennungsverarbeitungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b werden von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b an die Entscheidungseinheit 4A geliefert. Außerdem wird die akquirierte Sprachdauer, die die Erfassungseinheit 6 erfasst, an die Entscheidungseinheit 4A als der Referenzwert geliefert.
Die Entscheidungseinheit 4A akquiriert die Ketten der Erkennungsergebniskandidaten, die erhalten worden sind von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b, die Zuverlässigkeit der Erkennungsergebniskandidaten und die Dauern der Erkennungsergebniskandidaten, und die akquirierte Sprachdauer, die die Erfassungseinheit 6 erfasst, und wird der Referenzwert (Schritt ST1a).
Danach berechnet die Entscheidungseinheit 4A die Differenz zwischen der Dauer von jedem der sämtlichen Erkennungsergebniskandidaten, die von den ersten und zweiten Erkennungskandidat-Akquiriereinheiten 3a und 3b akquiriert worden sind, und der als der Referenzwert verwendeten akquirierten Sprachdauer und erhält den Absolutwert der Differenz.
Als Nächstes-vergleicht die Entscheidungseinheit 4A den Absolutwert der Differenz mit einer vorbestimmten zweiten Schwelle und entscheidet hinsichtlich dessen, ob der Absolutwert der Differenz nicht geringer als die zweite Schwelle ist oder nicht ist (Schritt ST2a).
Falls der Absolutwert der Differenz nicht geringer als die zweite Schwelle ist (JA bei Schritt ST2a), verwirft die Entscheidungseinheit 4A den Erkennungsergebniskandidaten, für den der Absolutwert der Differenz erhalten wird (Schritt ST3a). Danach kehrt sie zu der Verarbeitung bei Schritt ST2a zurück und wiederholt die Richtig- oder Falsch-Entscheidung, bis die Verarbeitung abschließt, hinsichtlich sämtlicher der Erkennungsergebniskandidaten.
Als Nächstes kombiniert die Integriereinheit 5 die verbliebenen Erkennungsergebniskandidaten, die nicht verworfen werden durch die Entscheidungseinheit 4A, unter den ersten und zweiten Erkennungsergebniskandidaten, in eine einzige Erkennungsergebniskandidatengruppe (Schritt ST4a).
Schließlich sortiert die Integriereinheit 5 die Erkennungsergebniskandidaten in der Erkennungsergebniskandidatengruppe in absteigender Zuverlässigkeitsreihenfolge (Schritt ST5a). Hier führt die Integriereinheit 5 die Korrektur zum Reduzieren der Zuverlässigkeit der Erkennungsergebniskandidaten für die individuellen Erkennungsergebniskandidaten in der Erkennungsergebniskandidatengruppe in Übereinstimmung mit den Differenzen zwischen den Dauern der Erkennungsergebniskandidaten und der akquirierten Sprachdauer aus, die bei Schritt ST2a berechnet worden ist und als der Referenzwert verwendet wird.
Genauer genommen korrigiert die Integriereinheit 5 die Zuverlässigkeit jedes ersten Erkennungsergebniskandidaten, der nicht verworfen werden kann, in die Richtung zum Reduzieren der Zuverlässigkeit in Übereinstimmung mit der Differenz zwischen der Dauer des ersten Erkennungsergebniskandidaten, der nicht verworfen werden kann, und der akquirierten Sprachdauer, und korrigiert die Zuverlässigkeit jedes zweiten Erkennungsergebniskandidaten, der nicht verworfen werden kann, in die Richtung zum Reduzieren der Zuverlässigkeit in Übereinstimmung mit der Differenz zwischen der Dauer des zweiten Erkennungsergebniskandidaten, der nicht verworfen werden kann, und der akquirierten Sprachdauer. Dann kann sie in Übereinstimmung mit der Zuverlässigkeit nach der Korrektur sortieren. Außerdem können Kandidaten von der Spitze bis zu einer vorbestimmten Rangordnung als die finalen Erkennungsergebniskandidaten ausgegeben werden.
Als Nächstes wird eine Beschreibung mit Verweis auf ein konkretes Beispiel gemacht werden.
9 ist eine Tabelle, die ein Beispiel der Ergebnisse des Vergleichens der Dauern der Erkennungsergebniskandidaten mit der akquirierten Sprachdauer zeigt, in dem eine Richtig- oder Falsch-Entscheidung gemacht wird hinsichtlich sechs Erkennungsergebniskandidaten mit Verwendung der zweiten Schwelle. In 9 ist die akquirierte Sprachdauer bei 4100 ms gesetzt, und die zweite Schwelle für die Richtig- oder Falsch-Entscheidung ist bei 800 ms gesetzt.
Beispielsweise wird hinsichtlich des Erkennungsergebniskandidaten ”California Los Angeles” ein Berechnen des Absolutwertes der Differenz von der akquirierten Sprachdauer 100 ergeben, was geringer als die zweite Schwelle 800 ist. Somit wird der Erkennungsergebniskandidat als ein wahrscheinlicher Erkennungsergebniskandidat ausgewählt.
Hinsichtlich des Erkennungsergebniskandidaten ”California San Jose” ist andererseits der Absolutwert der Differenz von der akquirierten Sprachdauer 900, was größer als die zweite Schwelle 800 ist. Somit wird der zweite Erkennungsergebniskandidat verworfen.
Die Entscheidungseinheit 4A führt dieselbe Verarbeitung wie oben beschrieben für sämtliche der Erkennungsergebniskandidaten aus.
Hinsichtlich der als der Referenzwert verwendeten akquirierten Sprachdauer bestimmt außerdem die Erfassungseinheit 6 sie in Übereinstimmung mit dem Erkennungsmodus des Spracherkennungssystems, d. h. der Kategorie der Erkennungsziel-Wortkette.
10 ist ein Diagramm, das die Verarbeitung zum Bestimmen der als der Referenzwert verwendeten akquirierten Sprachdauer durch ein Verwenden eines gesetzten Wertes entsprechend der Kategorie der Erkennungsziel-Wortkette zeigt. Die Erfassungseinheit 6 bestimmt als die Beginnzeit der Sprache einen Zeitpunkt, zu dem es in der Sprachwellenform des eingegebenen Sprachsignals erfasst wird, dass die Amplitude den Amplitudenreferenzwert erstmals entlang der Zeitbasis überschreitet.
Außerdem bestimmt sie als einen Endkandidaten ein Intervall, bei dem die Amplitude geringer wird als der Amplitudenreferenzwert entlang der Zeitbasis, gefolgt durch ein Erfassen der den Amplitudenreferenzwert überschreitenden Amplitude.
10 zeigt ein Beispiel, das zwei Endkandidaten der Sprache hat. Ein Kandidat (1) hat einen sprachinaktiven Abschnitt von 0,7 s, und ein Kandidat (2) hat einen sprachinaktiven Abschnitt von 3,0 s.
Außerdem hat die Erfassungseinheit 6 eine dritte Schwelle, die gesetzt ist in Übereinstimmung mit der Kategorie der Erkennungsziel-Wortkette zum Erfassen der Endzeit einer Sprache.
Wenn der sprachinaktive Abschnitt des Endkandidaten nicht länger als die dritte Schwelle andauert, erfasst genauer genommen die Erfassungseinheit 6 den Kandidaten als die Endposition des eingegebenen Sprachsignals.
In dem Fall von 10 ist die dritte Schwelle bei 1,0 s oder mehr für den Erkennungsmodus von Adressen gesetzt, d. h. falls die Kategorie der Erkennungsziel-Wortkette ”Adresse” ist, und ist bei 0,5 s oder mehr für den Erkennungsmodus von Telefonnummern gesetzt, d. h. falls die Kategorie der Erkennungsziel-Wortkette ”Telefonnummer” ist.
Wenn der Erkennungsmodus Adresse gesetzt ist, erfasst die Erfassungseinheit 6 den Kandidaten (2), für den der sprachinaktive Abschnitt 1,0 s oder mehr andauert, als das Ende der Sprache. Falls der Erkennungsmodus Telefonnummer gesetzt ist, erfasst im Gegensatz dazu die Erfassungseinheit 6 den Kandidaten (1), für den der sprachinaktive Abschnitt 0,5 s oder mehr andauert, als das Ende der Sprache. Übrigens kann die dritte Schwelle für die Enderfassung gemäß der Kategorie der Erkennungsziel-Wortkette abgeändert werden.
Die Erfassungseinheit 6 erfasst die akquirierte Sprachdauer, die als der Referenzwert verwendet wird, mittels Erfassen des Endes der Sprache durch die dritte Schwelle entsprechend der Kategorie der Erkennungsziel-Wortkette, wie oben beschrieben. Somit bestimmt die Erfassungseinheit 6 die akquirierte Sprachdauer, die als der Referenzwert verwendet wird, aus der Kategorie der Erkennungsziel-Wortkette und der Sprachwellenform der eingegebenen Sprache.
Da ein Benutzer eine Sprache in Konformität mit dem Erkennungsmodus des Spracherkennungssystems gibt, ermöglicht ein Bestimmen des Referenzwertes aus der Kategorie der Erkennungsziel-Wortkette und der Sprachwellenform der eingegebenen Sprache ein Erfassen des Referenzwertes entsprechend der echten eingegebenen Sprache. Dies ermöglicht ein Auswählen eines wahrscheinlichen Erkennungsergebniskandidaten mit höherer Genauigkeit.
Obwohl 7 die Ausgestaltung zeigt, in der die Spracherkennungseinheit 2 die ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b umfasst, kann die Spracherkennungseinheit 2 übrigens zwei oder mehr Erkennungsfunktionseinheiten umfassen.
Wie oben beschrieben, umfasst gemäß der vorliegenden Ausführungsform 2 sie die Spracherkennungseinheit 2 mit den ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b, die die eingegebene Sprache erkennen; und die Entscheidungseinheit 4A, die die wahrscheinlichen Erkennungsergebniskandidaten aus den Erkennungsergebniskandidaten, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, auswählt gemäß den Differenzen zwischen den Dauern der Erkennungsergebniskandidaten, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und der akquirierten Sprachdauer, die durch die Erfassungseinheit 6 erfasst worden ist, die separat bereitgestellt ist von der Erfassungseinheit 20 der Erkennungsfunktionseinheiten.
Die derart angeordnete Ausgestaltung kann auf dieselbe Weise wie die vorhergehende Ausführungsform 1 die Erkennungsergebniskandidaten mit klar falschen Dauern unter den Erkennungsergebniskandidaten unterscheiden, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind, und die verbleibenden Erkennungsergebniskandidaten als die wahrscheinlichen Kandidaten auswählen. Somit kann sie die wahrscheinlichen Erkennungsergebniskandidaten mit höherer Genauigkeit aus den Erkennungsergebniskandidaten auswählen, die die Erkennungsergebnisse der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b sind.
Außerdem verwirft gemäß der vorliegenden Ausführungsform 2 die Entscheidungseinheit 4A die Erkennungsergebniskandidaten, für die die Differenzen zwischen den Dauern der Erkennungsergebniskandidaten, die durch die Spracherkennung der ersten und zweiten Erkennungsfunktionseinheiten 2a und 2b erfasst worden sind, und der akquirierten Sprachdauer nicht geringer als die vorbestimmte zweite Schwelle sind, und wählt den Rest als die wahrscheinlichen Erkennungsergebniskandidaten aus.
Auf diese Weise ermöglicht ein Tätigen einer Richtig- oder Falsch-Entscheidung durch die Differenzen zwischen den Dauern der Erkennungsergebniskandidaten und der akquirierten Sprachdauer ein Verwerfen der falsch erkannten Erkennungsergebniskandidaten mit hoher Genauigkeit.
Weiterhin umfasst gemäß der vorliegenden Ausführungsform 2 sie die Erfassungseinheit 6, die die akquirierte Sprachdauer aus der Kategorie der Erkennungsziel-Wortkette und aus der Wellenform der eingegebenen Sprache bestimmt.
Die derart angeordnete Ausgestaltung ermöglicht ein Erfassen des Referenzwertes entsprechend der echten eingegebenen Sprache. Dies macht es möglich, die wahrscheinlichen Erkennungsergebniskandidaten mit höherer Genauigkeit auszuwählen.
Übrigens sollte es verstanden werden, dass eine freie Kombination der individuellen Ausführungsformen, Variationen irgendwelcher Komponenten der individuellen Ausführungsformen oder ein Entfernen irgendwelcher Komponenten der individuellen Ausführungsformen innerhalb des Schutzbereichs der vorliegenden Erfindung möglich ist.
GEWERBLICHE ANWENDBARKEIT
Ein Spracherkennungssystem in Übereinstimmung mit der vorliegenden Erfindung kann wahrscheinliche Erkennungsergebniskandidaten aus den Spracherkennungsergebnissen der Erkennungsfunktionseinheiten mit hoher Genauigkeit auswählen. Demgemäß wird es geeignet auf beispielsweise eine Eingabeeinrichtung eines Bordnavigationssystems und dergleichen angewendet.
BESCHREIBUNG DER BEZUGSZEICHEN

1 Spracheingabeeinheit; 2 Spracherkennungseinheit; 2a erste Erkennungsfunktionseinheit; 2b zweite Erkennungsfunktionseinheit; 3a erste Erkennungskandidat-Akquiriereinheit; 3b zweite Erkennungskandidat-Akquiriereinheit; 4 Entscheidungseinheit; 5 Integriereinheit; 6; 20 Entscheidungseinheit; 21 Sprachsignal-Verarbeitungseinheit; 22 Vergleichseinheit; 23 Spracherkennungswörterbuch

Claims

Spracherkennungssystem mit: einer Spracheingabeeinheit, die Sprache eingibt; einer Spracherkennungseinheit mit einer Vielzahl von Erkennungsfunktionseinheiten, die die von der Spracheingabeeinheit akquirierte Sprache erkennen; und eine Entscheidungseinheit, die in Übereinstimmung mit Differenzen zwischen Dauern von Erkennungsergebniskandidaten, die die Vielzahl von Erkennungsfunktionseinheiten erkennt, einen oder mehrere Erkennungsergebniskandidaten von den Erkennungsergebniskandidaten auswählt.
Spracherkennungssystem gemäß Anspruch 1, wobei die Spracherkennungseinheit eine erste Erkennungsfunktionseinheit, die fähig ist zum Erkennen vorbestimmter Wortketten, und eine zweite Erkennungsfunktionseinheit umfasst, die fähig ist zum Erkennen von Teilen der Wortketten; und die Entscheidungseinheit, wenn eine Differenz, die erhalten worden ist mittels Subtrahieren der Dauer eines zweiten Erkennungsergebniskandidaten, den die zweite Erkennungsfunktionseinheit erkennt, von der Dauer eines ersten Erkennungsergebniskandidaten, den die erste Erkennungsfunktionseinheit erkennt, nicht geringer als eine vorbestimmte erste Schwelle ist, den zweiten Erkennungsergebniskandidaten verwirft und den ersten Erkennungsergebniskandidaten auswählt.
Spracherkennungssystem gemäß Anspruch 2 mit ferner: einer Integriereinheit, die in Übereinstimmung mit der Differenz eine Zuverlässigkeit eines zweiten Erkennungsergebniskandidaten, der nicht durch die Entscheidungseinheit verworfen wird, in einer Richtung zum Reduzieren der Zuverlässigkeit korrigiert.
Spracherkennungssystem gemäß Anspruch 2, wobei die Entscheidungseinheit die vorbestimmte erste Schwelle in Übereinstimmung mit einer Kategorie einer Erkennungsziel-Wortkette abändert.
Spracherkennungssystem gemäß Anspruch 1 mit ferner: einer Erfassungseinheit, die eine akquirierte Sprachdauer vom Beginn bis zum Ende der akquirierten Sprache erfasst, wobei die Entscheidungseinheit einen Erkennungsergebniskandidaten verwirft, hinsichtlich dessen eine Differenz zwischen der Dauer von jedem der Erkennungsergebniskandidaten, die die Vielzahl von Erkennungsfunktionseinheiten erkennt, und der akquirierten Sprachdauer nicht geringer als eine vorbestimmte zweite Schwelle ist.
Spracherkennungssystem gemäß Anspruch 5 mit ferner: einer Integriereinheit, die in Übereinstimmung mit der Differenz zwischen der Dauer von jedem der Erkennungsergebniskandidaten, die die Entscheidungseinheit nicht verwirft, und der akquirierten Sprachdauer die Zuverlässigkeit des Erkennungsergebniskandidaten, der nicht verworfen wird, in eine Richtung zum Reduzieren der Zuverlässigkeit korrigiert.
Spracherkennungssystem gemäß Anspruch 5, das die akquirierte Sprachdauer in Übereinstimmung mit einer Kategorie einer Erkennungsziel-Wortkette und einer Schwelle einer Enderfassung der akquirierten Sprache bestimmt.