DE112008001763T5

DE112008001763T5 - Spracherkennungsvorrichtung und Navigationssystem

Info

Publication number: DE112008001763T5
Application number: DE112008001763T
Authority: DE
Inventors: Tomohiro Chiyoda-ku Noda
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-07-09
Filing date: 2008-04-03
Publication date: 2010-04-29
Also published as: WO2009008115A1; JPWO2009008115A1

Abstract

Spracherkennungsvorrichtung, dadurch gekennzeichnet, dass sie umfasst:
eine Spracherkennungs-Verarbeitungseinheit zum Erkennen einer geäußerten Sprache als eine Zeichenkette;
eine Wortunterteilungseinheit zum Unterteilen der erkannten Zeichenkette in Wörter, welche die Zeichenkette aufbauen;
eine Zuverlässigkeits-Berechnungseinheit zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der unterteilten Wörter;
eine Zuverlässigkeitsbestimmungseinheit zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht;
eine Schwellenwerteinstelleinheit zum Einstellen des Schwellenwertes, den die Zuverlässigkeitsbestimmungseinheit für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und
eine Anwenderschnittstellen-bereitstellende Einheit zum, wenn die Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und ein Navigationssystem, das zur Verwendung in beispielsweise Anwendungen geeignet ist, die zur Ausführung von Spracheingabe eines Bestimmungsorts, um den Bestimmungsort einzustellen, verwendet werden.
In den letzten Jahren sind Navigationssysteme weit verbreitet geworden und es ist üblicherweise ein Einstellen eines Bestimmungsortes durch Sprachausgabe durchgeführt worden. Anhand einer Bestimmungsortsuchfunktion wird unter Verwendung einer solchen Anwenderäußerung eines Bestimmungsortes ein Ergebnis ausgegeben, basierend auf allen in dem geäußerten Bestimmungsort enthaltenen Zeichen, und, falls das Ergebnis nicht der Absicht des Anwenders entspricht, wird der Anwender aufgefordert, ein Wieder-Äußern aller im Bestimmungsort enthaltenen Wörter vorzunehmen. In diesem Fall, egal wie viel Male der Anwender den Bestimmungsort äußert, wird das Ergebnis irgendeiner vorherigen Spracherkennung in einem zukünftigen Spracherkennungsprozess nicht als valide eingeschlossen und dieses führt dazu, dass der Anwender veranlasst wird, die Unbequemlichkeit des Vornehmens einer Äußerung eines Bestimmungsortes zu haben, und die Erkennungsrate kann insgesamt nicht verbessert werden.
Andererseits, um eine Stimme mit hohem Grad an Genauigkeit zu erkennen, ohne den Anwender zu veranlassen, die Unbequemlichkeit der Vornahme einer Äußerung zu haben, ist eine Technologie der Unterteilung einer Zeichenkette, die als Ergebnis von Spracherkennung in Silben erfasst wird, und, wenn festgestellt wird, dass der Zuverlässigkeitsgrad einer der Silben, in die die Zeichenkette unterteilt ist, niedriger als ein spezifizierter Schwellenwert ist, Veranlassen des Anwenders, eine Äußerung nur der Silbe vorzunehmen, bekannt (vergleiche beispielsweise Patentreferenz 1).

[Patentreferenz 1]: JP 2005-157166 A

Gemäß der in der oben erwähnten Patentreferenz 1 offenbarten Technologie wird der Zuverlässigkeitsgrad einer durch Spracherkennung erkannten Stimme berechnet und die geäußerte Sprache wird erkannt, wenn der Zuverlässigkeitsgrad niedrig ist, während eine kontinuierlich erkannte Sprache ausgegeben wird, wenn der Zuverlässigkeitsgrad hoch ist. Daher kann Belastung des Anwenders bei Vornahme einer Äußerung reduziert werden und es kann die Erkennungsrate verbessert werden.
Weil jedoch der Schwellenwert, der als Kriterium verwendet wird, mit dem bestimmt wird, ob der Zuverlässigkeitsgrad hoch oder niedrig ist, auf einen spezifischen Wert fixiert ist, gibt es das Problem, dass keine flexible Spracherkennung gemäß Anwenderanforderung oder Anwenderattributen ausgeführt werden kann.
Die vorliegende Erfindung ist gemacht worden, um das oben erwähnte Problem zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung und ein Navigationssystem bereitzustellen, die flexible Spracherkennung gemäß Anwenderanforderung oder Anwenderattributen durchführen können.
Offenbarung der Erfindung
Um das oben erwähnte Problem zu lösen, enthält eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung: eine Spracherkennungs-Verarbeitungseinheit zum Erkennen einer geäußerten Sprache als eine Zeichenkette; eine Wortunterteilungseinheit zum Unterteilen der oben erwähnten erkannten Zeichenkette in Wörter, welche die oben erkannte Zeichenkette aufbauen; eine Zuverlässigkeits-Berechnungseinheit zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der oben erwähnten unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der oben erwähnten unterteilten Wörter höher als ein Schwellenwert ist oder nicht; eine Schwellenwerteinstelleinheit zum Einstellen des oben erwähnten Schwellenwertes, den die oben erwähnte Zuverlässigkeitsbestimmungseinheit für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und eine Anwenderschnittstellen bereitstellende Einheit zum, wenn die oben erwähnte Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der oben erwähnten Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der oben erwähnten einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.
Ein Navigationssystem gemäß der vorliegenden Erfindung enthält: eine Spracherkennungseinheit zum Erkennen eines geäußerten Bestimmungsortes als einer Zeichenkette, zum Unterteilen der oben erwähnten erkannten Zeichenkette in Wörter, zum Bestimmen, ob ein Erkennungszuverlässigkeitsgrad jedes der oben erwähnten unterteilten Wörter höher als ein Schwellenwert ist oder nicht und zum Ausgeben eines Erkennungsergebnisses, wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad höher als der oben erwähnte Schwellenwert ist; und eine Bestimmungsorteinstellprozesseinheit zum Einstellen des Schwellenwerts, der zur Bestimmung des oben erwähnten Erkennungszuverlässigkeitsgrads verwendet wird, und zum, wenn die oben erwähnte Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines der oben erwähnten Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob ein Bestimmungsorteinstellen auf Basis von Worten, deren Erkennungszuverlässigkeitsgrad als höher als der Schwellenwert bestimmt worden ist, durchzuführen ist, oder der oben erwähnte Schwellenwert zu ändern ist und das wieder Äußern des oben erwähnten Wortes zu verlangen, dessen Erkennungszuverlässigkeitsgrad als niedriger als der Schwellenwert bestimmt worden ist, und dann die Spracherkennung durch die oben erwähnte Spracherkennungseinheit zu wiederholen und das Bestimmungsorteinstellen unter Verwendung eines Ergebnisses der oben erwähnten Erkennung durchzuführen.
Gemäß der vorliegenden Erfindung kann eine Spracherkennungsvorrichtung und ein Navigationssystem bereitgestellt werden, die eine flexible Spracherkennung gemäß Anwenderanforderung oder Anwenderattributen ausführen kann.
Kurze Beschreibung der Figuren
1 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Navigationssystems gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
2 ist ein Blockdiagramm, das ein Beispiel der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
3 ist ein Blockdiagramm, das ein Beispiel der internen Struktur einer Schwellenwerteinstelleinheit der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt; und
4 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt.
Bevorzugte Ausführungsformen der Erfindung
Nachfolgend wird, um diese Erfindung detaillierter zu erläutern, die bevorzugten Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen erläutert werden.
Ausführungsform 1
1 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Navigationssystems gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt.
Das Navigationssystem gemäß Ausführungsform 1 der vorliegenden Erfindung umfasst ein Mikrofon (Mikro) 1, eine Spracherkennungseinheit 2, eine Bestimmungsorteinstell-Verarbeitungseinheit 3, einen berührungssensitiven Bildschirm (Touch-Panel) 4, eine Stimm-Wellenform-Datenbank 5 und eine Kartendatenbank 6, wie in 1 gezeigt.
Die Spracherkennungseinheit 2 weist eine Funktion zur Erkennung einer Anwenderäußerung auf, die vom Mikro 1 aufgenommen worden ist, als einer Zeichenkette, Unterteilen der erkannten Zeichenkette in Wörter, Bestimmen, ob ein Erkennungszuverlässigkeitsgrad jedes unterteilten Wortes höher als ein Schwellenwert ist oder nicht, und, wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad jedes unterteilten Wortes höher als der Schwellenwert ist, Ausgeben eines Ergebnisses der Erkennung an die Bestimmungsorteinstell-Verarbeitungseinheit 3.
Die Bestimmungsorteinstell-Verarbeitungseinheit 3 weist eine Funktion der Einrichtung des Schwellenwertes auf, der für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet wird, und auch, wenn die Spracherkennungseinheit 2 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger als der Schwellenwert ist, einer Durchführung einer Bestimmungsort-Einstellung auf Basis der Worte, die alle als höher als der Schwellenwert bestimmt worden sind, oder Änderung des Schwellenwertes, um eine Wiederäußerung des Wortes zu verlangen, das als niedriger als der Schwellenwert bestimmt worden ist, und eine Spracherkennung durch die Spracherkennungseinheit 2 zu wiederholen, und dann Durchführung einer Bestimmungsorteinstellung unter Verwendung des Erkennungsergebnisses.
Zur Spracherkennung verwendete Sprachelemente werden in der Stimm-Wellenform-Datenbank 5 als Wellenformen gespeichert und beim Ausführen eines Spracherkennungsprozesses bezieht sich die Spracherkennungseinheit 2 auf die Stimm-Wellenform-Datenbank zum Zeitpunkt der Durchführung einer Korrelationsoperation, um den Ähnlichkeitsgrad zu bestimmen. Kartierungsdaten werden in der Kartendatenbank 6 gespeichert und bei Durchführung einer Bestimmungsortseinstellung auf Basis einer von der Spracherkennungseinheit 2 erkannten Sprache bildet die Bestimmungsorteinstell-Verarbeitungseinheit 3 den Bestimmungsort auf Kartendaten ab, um den Bestimmungsort auf dem Touch-Panel 4 anzuzeigen.
Das Touch-Panel 4 dient als eine Benutzerschnittstelle zur Durchführung des folgenden Prozesses: ein Einrichten des vom Anwender eingegebenen Schwellenwerts, eine Anzeige einer Nachricht, zur Aufforderung des Anwenders, eine Wiederäußerung einiger Worte vorzunehmen, eine Anzeige eines Spracherkennungsergebnisses, oder dergleichen.
2 ist ein Blockdiagramm, welches die interne Struktur der Spracherkennungsvorrichtung (der Spracherkennungseinheit 2 von 1) gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, in der ihre Struktur in funktionelle Blöcke unterteilt ist.
Wie in 2 gezeigt, besteht die Spracherkennungsvorrichtung (die Spracherkennungseinheit 2) gemäß Ausführungsform 1 der vorliegenden Erfindung aus einer Spracheingabeerfassungseinheit 21, einer Spracherkennungsverarbeitungseinheit 22, einer Wortunterteilungseinheit 23, einer Zuverlässigkeitsberechnungseinheit 24, einer Zuverlässigkeitsbestimmungseinheit 25, einer UI(Anwenderschnittstellen)-Bereitstellungseinheit 26 und einer Schwellenwert-Einstelleinheit 27.
Die Spracheingabeerfassungseinheit 21 weist eine Funktion zur Erfassung einer von einem Anwender geäußerten Sprache auf, die vom Mikro 1 aufgenommen wird und Bereitstellen der Sprache an die Spracherkennungs-Verarbeitungseinheit 22. Die Spracherkennungs-Verarbeitungseinheit 22 weist eine Funktion des Erkennens der eingegebenen Sprache als Zeichenkette und Bereitstellen dieser Zeichenkette an die Wortunterteilungs-Verarbeitungseinheit 23 auf.
Die Wortunterteilungseinheit 23 weist eine Funktion des Unterteilens der durch die Spracherkennungs-Verarbeitungseinheit 22 erkannten Zeichenkette in Wörter, die diese Zeichenkette aufbauen, und Übergeben der Wörter an die Zuverlässigkeitsberechnungseinheit 24 auf. Die Zuverlässigkeitsberechnungseinheit 24 weist eine Funktion des Berechnens des Erkennungszuverlässigkeitsgrades jedes der Wörter, in die die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt worden ist, und Übergeben des Erkennungszuverlässigkeitsgrades an die Zuverlässigkeitsbestimmungseinheit 25 auf.
Die Zuverlässigkeitsbestimmungseinheit 25 weist eine Funktion zur Bestimmung, ob der Erkennungszuverlässigkeitsgrad jedes der Wörter, in welche die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt worden ist, wobei der Erkennungszuverlässigkeitsgrad durch die Zuverlässigkeitsberechnungseinheit 24 berechnet wird, höher als der durch die Schwellenwerteinstelleinheit 27 eingestellte Schwellenwert ist oder nicht, und Übergeben eines Ergebnisses der Bestimmung an die UI bereitstellende Einheit 26 auf.
Die UI bereitstellende Einheit 26 weist eine Funktion des, wenn die Zuverlässigkeitsbestimmungseinheit 25 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger als der Schwellenwert ist, Bestimmens, ob die Worte, die alle als höher als der Schwellenwert bestimmt worden sind, auszugeben sind, oder der Anwender aufzufordern ist, eine Wiederäußerung des Wortes vorzunehmen, das als niedriger als der Schwellenwert bestimmt worden ist. Die UI bereitstellende Einheit 26 dient als eine Schnittstelle zwischen dem Anwender und der Spracherkennungsvorrichtung, indem eine Eingabe/Ausgabevorrichtung wie etwa das in 1 gezeigte Touch-Panel 4 verwendet wird.
Die Schwellenwerteinstelleinheit 27 weist eine Funktion des Einstellens des Schwellenwertes auf, den die Zuverlässigkeitsbestimmungseinheit 25 für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet.
Konkret zählt, wenn eine Wiederäußerung einiger Worte durch die UI bereitstellende Einheit 26 ausgewählt wird, die Schwellenwerteinstelleinheit 27 die Anzahl, in der eine Wiederäußerung vorgenommen worden ist, vergleicht die gezählte Anzahl mit einem Referenzwert und aktualisiert den Schwellenwert anhand des Ergebnisses des Vergleichs. Die Schwellenwerteinstelleinheit 27 erfasst auch einen vom Anwender über die UI bereitstellende Einheit 26 eingegebenen Schwellenwert und aktualisiert den eingestellten Schwellenwert mit dem eingegebenen Schwellenwert. Weiterhin kann anstelle des Einstellens des Schwellenwertes für jede geäußerte Sprache die Schwellenwerteinstelleinheit 27 den Schwellenwert für jedes der aus der Wortunterteilungseinheit 23 ausgegebenen, erkannten Wörter einstellen.
Die Schwellenwerteinstelleinheit 27 besteht aus einem Zähler (CNT) 271, einem Konstantenregister 272, einem Komparator (COMP) 273 und einer Schwellenwert-Justiereinheit 274, wie als ein Beispiel seiner internen Struktur in 3 gezeigt.
Wenn vom Anwender über die UI bereitstellende Einheit 26 eine Wiederäußerung ausgewählt wird, zählt der CNT 271 die Anzahl, mit der eine Wiederäußerung vorgenommen worden ist und übergibt die gezählte Anzahl an einen Eingangsanschluss des COMP 273. Der aus dem Konstantenregister 272 ausgelesene Referenzwert wird einem anderen Eingangsanschluss des COMP 273 bereitgestellt, der COMP 273 vergleicht die Anzahl, mit der eine Wiederäußerung vorgenommen worden ist, die darin eingegeben ist, mit dem Referenzwert und stellt ein Ergebnis des Vergleichs der Schwellenwert-Justiereinheit 274 bereit. Weiterhin wird ein Schwellenwert, den der Anwender manuell eingestellt hat, aus der UI bereitstellenden Einheit 26 an die Schwellenwert-Justiereinheit 274 geliefert und schließlich justiert die Schwellenwert-Justiereinheit 274 den Schwellenwert, den der Anwender manuell eingestellt hat. Die Details der Justierung werden unten erwähnt.
In der in den 2 und 3 gezeigten oben erwähnten Struktur äußert der Anwender zuerst eine Adresse, einen Namen, eine Telefonnummer etc. ins Mikro 1, um eine Bestimmungsortseinstellung durchzuführen. Danach wird angenommen, dass der Anwender wie folgt äußert: ”Hyogo-ken Sanda-shi Miwa 3-33”.
Die Spracherkennungs-Verarbeitungseinheit 22 erzeugt aus der vom Anwender geäußerten Sprachinformation, die von der Spracheingabeerfassungseinheit 21 erfasst wird, Zeichenketteninformation und liefert die Zeichenketteninformation an die Wortunterteilungseinheit 23. Die Wortunterteilungseinheit 23 unterteilt die durch die Spracherkennungs-Verarbeitungseinheit 22 erkannte Zeichenketteninformation in Worte. Konkret wird in diesem Fall die Zeichenketteninformation in die folgenden Worte unterteilt: ”Hyogo-ken”, ”Sanda-shi”, ”Miwa”, und ”3–33”.
Die Zuverlässigkeitsberechnungseinheit 24 berechnet den Erkennungszuverlässigkeitsgrad jedes der Worte, in die die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt worden ist, bestimmt, ob der Erkennungszuverlässigkeitsgrad höher oder niedriger als der Schwellenwert ist und gibt ein Ergebnis der Bestimmung aus. Beispielsweise wird angenommen, das das Spracherkennungsergebnis ”Hyogo-ken Sanda-shi” ist. Gemäß Anwenderanweisung bestimmt auf Basis dieses Ergebnisses die UI bereitstellende Einheit 26, ob der Anwender aufgefordert wird, die Worte wieder zu äußern, deren Erkennungszuverlässigkeitsgrad als nicht den Schwellenwert erreichend festgestellt worden ist, in diesem Fall ”Miwa 3–33”, oder nach dem Bestimmungsort gemäß der sich aus der Spracherkennung unter Vernachlässigung der Worte, deren Erkennungszuverlässigkeitsgrade als nicht den Schwellenwert erreichend bestimmt worden sind, ergebenden Adresse zu suchen. Diese Äußerung kann auch wiederholt durchgeführt werden, bis das erfasste Spracherkennungsergebnis eines wird, das der Anwender akzeptieren kann. Da die UI bereitstellende Einheit 26 eine Wiederäußerung durch den Anwender auswählen kann, um den Anwender aufzufordern, nur die Wörter wieder zu äußern, deren Erkennungszuverlässigkeitsgrade, die durch die Zuverlässigkeitsberechnungseinheit 24 berechnet werden, durch die Zuverlässigkeitsbestimmungseinheit 25 als gleich oder niedriger als dem Schwellenwert bestimmt worden sind, kann die Spracherkennungs-Verarbeitungseinheit 22 einen Spracherkennungsprozess durchführen, der in der Lage ist, den zu erkennenden Bereich auf einen kleineren als den vorherigen zu beschränken und kann daher eine höhere Erkennungsrate als im Falle der vorherigen Äußerung erreichen.
Andererseits kann die Schwellenwerteinstelleinheit 27 den Schwellenwert, den die Zuverlässigkeitsbestimmungseinheit 25 verwendet, auf Basis einer manuellen Einstellung, die der Anwender über die UI bereitstellende Einheit 26 durchführt, ändern oder einstellen. Dem Anwender das freie Einrichten des Schwellenwertes zu ermöglichen, hat den folgenden Vorteil.
Das heißt, weil es individuelle Differenzen bei der Intonation gibt und wenn der Schwellenwert auf einen spezifischen Wert fixiert ist, es einen Fall geben kann, in dem die Spracherkennungs-Verarbeitungseinheit ein von einem Anwender geäußerte Sprache nicht erkennen kann, aufgrund individueller Differenzen in der Intonation (z. B. kann der Anwender einen schweren ”regionalen Akzent” haben), kann dieses Problem in einem solchen Fall durch Absenken des Schwellenwertes gelöst werden. Weiterhin kann durch Anheben des Schwellenwertes, wenn der Anwender korrektere Spracherkennung wünscht, die Spracherkennungsvorrichtung dazu gebracht werden, auf den Anwenderwunsch zu reagieren.
Der Anwender kann einen rohen Schwellenwert (z. B. einen von fünf Pegeln 1 bis 5) für den Erkennungszuverlässigkeitsgrad einstellen, indem er beispielsweise das Touch-Panel 4 manuell betätigt. Weiterhin kann die Spracherkennungsvorrichtung den Schwellenwert fein durch Rückkopplung der Anwenderabsicht justieren, die aus dem ersten Erkennungsergebnis abgeschätzt wird. Falls beispielsweise der Anwender manuell ”4” als Schwellenwert einstellt, führt die Spracherkennungseinheit (die Schwellenwerteinstelleinheit 27) eine Feineinstellung des Schwellenwerts automatisch in solcher Weise durch, dass der Schwellenwert innerhalb eines Bereiches von 3,5 bis 4,5 fällt. Die Details der Feinjustierung werden unten erwähnt.
4 ist ein Flussdiagramm, das insbesondere auf den Betrieb der Schwellenwerteinstelleinheit 27 aus den Komponenten der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung abstellt.
Nachfolgend wird der Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung, wie in den 2 und 3 gezeigt, detailliert unter Bezugnahme auf das Flussdiagramm von 4 erläutert.
Wie in 4 gezeigt, bestimmt die Zuverlässigkeitsbestimmungseinheit 25, ob der Erkennungszuverlässigkeitsgrad jedes der Wörter, in welche die erkannte Zeichenkette, in welche die eingegebene Sprache durch die Spracherkennungs-Verarbeitungseinheit 22 konvertiert wird, durch die Wortunterteilungseinheit 23 unterteilt wird, gleich oder niedriger als der Schwellenwert ist oder nicht (Schritt ST41). Wenn es ein Wort gibt, dessen Erkennungszuverlässigkeitsgrad gleich oder kleiner als der Schwellenwert ist (falls ”Vorhanden” in Schritt ST41), verlangt die Spracherkennungsvorrichtung vom Anwender, auszuwählen, ob einer Wiederäußerung des Wortes vorzunehmen ist, über die UI bereitstellende Einheit 26 (Schritt ST42).
Falls eine Wiederäußerung oft gemacht wird, zählt die Schwellenwerteinstelleinheit 27 die Anzahl, mit der eine Wiederäußerung gemacht worden ist, wobei der darin eingebaute CNT 271 verwendet wird, und nimmt einen Vergleich zwischen der Anzahl und dem im Konstantenregister 272 eingestellten Referenzwert unter Verwendung des COMP 273 vor, jedes Mal, wenn eine Wiederäußerung gemacht wird (Schritt ST43).
Wenn festgestellt wird, dass eine Wiederäußerung eine Referenzanzahl oder mehr Mal gemacht worden ist (falls in Schritt S43 ”Ja”), führt die Schwellenwert-Justiereinheit 274, weil das bedeutet, das der zuvor durch den Anwender eingestellte Schwellenwert höher als der gewünschte Wert ist, eine Feinjustierung wie oben erwähnt des vom Anwender eingestellten Wertes durch, um in diesem Fall automatisch einen niedrigeren Schwellenwert rückzusetzen (Schritt S44). Die Spracherkennungsvorrichtung veranlasst dann den Anwender, eine Wiederäußerung vorzunehmen, über die UI bereitstellende Einheit 26 (Schritt ST45). In diesem Fall zeigt die UI bereitstellende Einheit 26 die erkannte Zeichenkette auf der Eingabe/Ausgabe-Vorrichtung, wie etwa dem Touch-Panel 4, an und hebt die Wörter hervor, deren Erkennungszuverlässigkeitsgrade als gleich oder niedriger als der Schwellenwert bestimmt worden sind, um den Anwender aufzufordern, eine Wiederäußerung der Worte vorzunehmen.
Auch wenn im Prozess von Schritt ST43 die Anzahl von Malen, die eine Wiederäußerung gemacht worden ist, gleich oder kleiner als der Refenerzwert bestimmt wird, fördert in ähnlicher Weise die Spracherkennungsvorrichtung den Anwender auf, eine Wiederäußerung vorzunehmen (falls in Schritt ST43 ”Nein”). Weiterhin, wenn im Prozess von Schritt ST41 alle Wörter einen Zuverlässigkeitsgrad gleich oder höher als der Schwellenwert haben (als in Schritt ST41 ”Abwesend”) oder wenn eine Wiederäußerung im Prozess von Schritt ST42 nicht ausgewählt wird, sondern eine Ausgabe der Worte, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, ausgewählt wird, beendet die Spracherkennungsvorrichtung den Spracherkennungsprozess.
Wie zuvor erläutert, ermöglicht die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung es dem Anwender, den Schwellenwert manuell zu ändern, oder sie kann dynamisch den Schwellenwert automatisch ändern und kann den Anwender auffordern, wiederholt die Worte zu äußern, an denen die Erkennung der Spracherkennungsvorrichtung versagt hat. Daher kann die Spracherkennungsvorrichtung die Erkennungsrate verbessern und kann flexible Spracherkennung gemäß Anwenderanforderung oder Anwender-Attributen durchführen (z. B. Anwesenheit oder Abwesenheit eines regionalen Akzents oder dergleichen).
Weiterhin, wenn bestimmt wird, dass der Erkennungszuverlässigkeitsgrad eines der Wörter, in welche die eingegebene Sprache unterteilt wird, niedriger als der Schwellenwert ist, fordert die Spracherkennungsvorrichtung den Anwender auf, eine Wiederäußerung nur des Wortes vorzunehmen und bestimmt, dass das Ergebnis der Erkennung der anderen Worte, welche die Anwenderabsicht erfüllen, gültig sind. Daher kann die Spracherkennungsvorrichtung die Erkennungsrate insgesamt verbessern, ohne den Anwender zu veranlassen, die Unbequemlichkeit der Vornahme von Wiederäußerung zu haben.
1 zeigt eine Anwendung, in der die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung auf eine Bestimmungsort-Suchfunktion unter Verwendung einer Äußerung einer Adresse des Navigationssystems angewendet wird.
In diesem Beispiel erkennt die Spracherkennungseinheit 2 die als Zeichenkette geäußerte Adresse durch Bestimmen einer Korrelation zwischen der Adresse und den in der Stimm-Wellenform-Datenbank 5 gespeicherten Sprachelemente, unterteilt die erkannte Zeichenkette in Wörter und bestimmt, ob der Erkennungszuverlässigkeitsgrad jedes der Wörter, in die die erkannte Zeichenkette unterteilt ist, höher als der Schwellenwert ist oder nicht, und wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad jedes der Wörter höher als der Schwellenwert ist, übergibt sie das Erkennungsergebnis an die Bestimmungsorteinstell-Verarbeitungseinheit 3.
Die Bestimmungsorteinstell-Verarbeitungseinheit 3 stellt den Schwellenwert, der zur Bestimmung des Erkennungszuverlässigkeitsgrads verwendet worden ist, ein, und wenn die Spracherkennungseinheit 2 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger als der Schwellenwert ist, führt ein Bestimmungsorteinstellen auf Basis von Wörtern durch, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ändert den Schwellenwert, um den Anwender aufzufordern, eine Wiederäußerung des Wortes vorzunehmen, dessen Erkennungszuverlässigkeitsgrad als niedriger als der Schwellenwert bestimmt worden ist, und veranlasst dann die Spracherkennungseinheit 2, die Spracherkennung zu wiederholen und führt eine Bestimmungsorteinstellung unter Bezugnahme auf die Kartendatenbank 6 durch, wobei das Ergebnis der Erkennung verwendet wird.
Wie oben erwähnt, berechnet die Spracherkennungseinheit 1 den Zuverlässigkeitsgrad jedes der Wörter, die in der geäußerten Zeichenkette enthalten sind, und bestimmt, dass sie beim Erkennen der Wörter erfolgreich war, deren Zuverlässigkeitsgrade höher als der Schwellenwert sind, um das Ergebnis der Erkennung an dem Touch-Panel 4 auszugeben. Weiterhin kann der Anwender den Schwellenwert einstellen, den die Spracherkennungseinheit zu dem Zeitpunkt verwendet, manuell unter Verwendung des Touch-Panels 4, oder die Spracherkennungsvorrichtung (die Spracherkennungseinheit 1) selbst kann automatisch den Schwellenwert fein justieren, wie oben erwähnt.
Das oben erwähnte Navigationssystem gemäß Ausführungsform 1 der vorliegenden Erfindung kann die Spracherkennungsvorrichtung dazu bringen, Spracherkennung auszuführen, um eine Bestimmungsorteinstellung gemäß entweder Anwenderanforderung oder Anwender-Attributen vorzunehmen und kann daher den Anwender mit Bequemlichkeit versehen.
Die oben erwähnte Spracherkennungsvorrichtung oder das Navigationssystem gemäß dieser Ausführungsform der vorliegenden Erfindung kann den Schwellenwert für jedes der Wörter, in welche geäußerte Sprache unterteilt wird, einstellen, anstelle von für jede geäußerte Sprache. In diesem Fall kann die oben erwähnte Spracherkennungsvorrichtung oder das Navigationssystem Spracherkennung flexibler ausführen.
Alle Funktionen der Konfigurationsblöcke, welche die in 2 gezeigte Spracherkennungseinheit 2 aufweist, können über Software implementiert werden oder zumindest ein Teil davon kann über Hardware implementiert werden. Beispielsweise können die Datenverarbeitungen, die von jeder der Spracheingabeerfassungseinheit 21, Spracherkennungs-Verarbeitungseinheit 22, Wortunterteilungseinheit 23, Zuverlässigkeitsberechnungseinheit 24, Zuverlässigkeitsbestimmungseinheit 25, UI bereitstellende Einheit 26 und Schwellenwerteinstelleinheit 27 durchgeführt werden, über eine oder mehrere Programme implementiert werden, die auf einem Computer laufen, oder zumindest ein Teil der Datenprozessierung kann mittels Hardware implementiert werden.
Industrielle Anwendbarkeit
Wie oben erwähnt, berechnet die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung den Zuverlässigkeitsgrad jedes Wortes einer geäußerten Zeichenkette, um zu bestimmen, ob der Zuverlässigkeitsgrad höher als ein Schwellenwert ist oder nicht und ermöglicht dem Anwender, den für die Bestimmung verwendeten Schwellenwert einzustellen. Daher ist die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung zur Verwendung in einem Fahrzeugnavigationssystem geeignet, das eine Einstellung eines Bestimmungsortes unter Verwendung von Spracherkennung durchführen kann, und so weiter.
ZUSAMMENFASSUNG
Eine Spracherkennungsvorrichtung umfasst: eine Spracherkennungs-Verarbeitungseinheit 22 zum Erkennen einer geäußerten Sprache als eine Zeichenkette; eine Wortunterteilungseinheit 23 zum Unterteilen der erkannten Zeichenkette in Wörter, welche diese Zeichenkette aufbauen; eine Zuverlässigkeits-Berechnungseinheit 24 zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit 25 zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht; eine Schwellenwerteinstelleinheit 27 zum Einstellen des Schwellenwertes, den die Zuverlässigkeitsbestimmungseinheit 25 für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und eine Anwenderschnittstellen bereitstellende Einheit 26 zum, wenn die Zuverlässigkeitsbestimmungseinheit 25 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der Wörter niedriger als der Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- JP 2005-157166 A [0003]

Claims

Spracherkennungsvorrichtung, dadurch gekennzeichnet, dass sie umfasst: eine Spracherkennungs-Verarbeitungseinheit zum Erkennen einer geäußerten Sprache als eine Zeichenkette; eine Wortunterteilungseinheit zum Unterteilen der erkannten Zeichenkette in Wörter, welche die Zeichenkette aufbauen; eine Zuverlässigkeits-Berechnungseinheit zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht; eine Schwellenwerteinstelleinheit zum Einstellen des Schwellenwertes, den die Zuverlässigkeitsbestimmungseinheit für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und eine Anwenderschnittstellen-bereitstellende Einheit zum, wenn die Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.
Spracherkennungsvorrichtung gemäß Anspruch 1, dadurch gekennzeichnet, dass, wenn eine Wiederäußerung des einen oder mehreren Worten durch die Anwenderschnittstellen bereitstellende Einheit ausgewählt ist, die Schwellenwerteinstelleinheit eine Anzahl von Malen zählt, die eine Wiederäußerung gemacht worden ist, die Anzahl mit einem Referenzwert vergleicht und den Schwellenwert anhand eines Vergleichsergebnisses aktualisiert.
Spracherkennungsvorrichtung gemäß Anspruch 1, dadurch gekennzeichnet, dass die Schwellenwerteinstelleinheit einen durch einen Anwender über die Anwenderschnittstellen bereitstellende Einheit eingegebenen Schwellenwert so erfasst, dass der eingestellte Schwellenwert aktualisiert wird.
Spracherkennungsvorrichtung gemäß Anspruch 1, dadurch gekennzeichnet, dass die Schwellenwerteinstelleinheit den Schwellenwert für jedes der erkannten Wörter einstellt, die durch die Wortunterteilungseinheit ausgegeben werden.
Navigationssystem, das eine Spracheingabe eines Bestimmungsortes akzeptiert, um eine Bestimmungsorteinstellung durchzuführen, dadurch gekennzeichnet, dass das Navigationssystem umfasst: eine Spracherkennungseinheit zum Erkennen eines geäußerten Bestimmungsortes als einer Zeichenkette, zum Unterteilen der erkannten Zeichenkette in Wörter, zum Bestimmen, ob ein Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht und zum Ausgeben eines Erkennungsergebnisses, wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad höher als der Schwellenwert ist; und eine Bestimmungsorteinstellprozesseinheit zum Einstellen des Schwellenwerts, der zur Bestimmung des Erkennungszuverlässigkeitsgrads verwendet wird, und zum, wenn die Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines der Wörter niedriger als der Schwellenwert ist, Bestimmen, ob ein Bestimmungsorteinstellen auf Basis von Worten, deren Erkennungszuverlässigkeitsgrad als höher als der Schwellenwert bestimmt worden ist, durchzuführen ist, oder der Schwellenwert zu ändern ist und das wieder Äußern des Wortes zu verlangen, dessen Erkennungszuverlässigkeitsgrad als niedriger als der Schwellenwert bestimmt worden ist, und dann die Spracherkennung durch die Spracherkennungseinheit zu wiederholen und das Bestimmungsorteinstellen unter Verwendung eines Ergebnisses der Erkennung durchzuführen.