-
Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung
und ein Navigationssystem, das zur Verwendung in beispielsweise Anwendungen
geeignet ist, die zur Ausführung von Spracheingabe eines
Bestimmungsorts, um den Bestimmungsort einzustellen, verwendet werden.
-
In
den letzten Jahren sind Navigationssysteme weit verbreitet geworden
und es ist üblicherweise ein Einstellen eines Bestimmungsortes
durch Sprachausgabe durchgeführt worden. Anhand einer Bestimmungsortsuchfunktion
wird unter Verwendung einer solchen Anwenderäußerung
eines Bestimmungsortes ein Ergebnis ausgegeben, basierend auf allen
in dem geäußerten Bestimmungsort enthaltenen Zeichen,
und, falls das Ergebnis nicht der Absicht des Anwenders entspricht,
wird der Anwender aufgefordert, ein Wieder-Äußern
aller im Bestimmungsort enthaltenen Wörter vorzunehmen.
In diesem Fall, egal wie viel Male der Anwender den Bestimmungsort äußert,
wird das Ergebnis irgendeiner vorherigen Spracherkennung in einem
zukünftigen Spracherkennungsprozess nicht als valide eingeschlossen
und dieses führt dazu, dass der Anwender veranlasst wird,
die Unbequemlichkeit des Vornehmens einer Äußerung
eines Bestimmungsortes zu haben, und die Erkennungsrate kann insgesamt
nicht verbessert werden.
-
Andererseits,
um eine Stimme mit hohem Grad an Genauigkeit zu erkennen, ohne den
Anwender zu veranlassen, die Unbequemlichkeit der Vornahme einer Äußerung
zu haben, ist eine Technologie der Unterteilung einer Zeichenkette,
die als Ergebnis von Spracherkennung in Silben erfasst wird, und,
wenn festgestellt wird, dass der Zuverlässigkeitsgrad einer
der Silben, in die die Zeichenkette unterteilt ist, niedriger als
ein spezifizierter Schwellenwert ist, Veranlassen des Anwenders,
eine Äußerung nur der Silbe vorzunehmen, bekannt
(vergleiche beispielsweise Patentreferenz 1).
- [Patentreferenz
1]: JP 2005-157166
A
-
Gemäß der
in der oben erwähnten Patentreferenz 1 offenbarten Technologie
wird der Zuverlässigkeitsgrad einer durch Spracherkennung
erkannten Stimme berechnet und die geäußerte Sprache
wird erkannt, wenn der Zuverlässigkeitsgrad niedrig ist, während
eine kontinuierlich erkannte Sprache ausgegeben wird, wenn der Zuverlässigkeitsgrad
hoch ist. Daher kann Belastung des Anwenders bei Vornahme einer Äußerung
reduziert werden und es kann die Erkennungsrate verbessert werden.
-
Weil
jedoch der Schwellenwert, der als Kriterium verwendet wird, mit
dem bestimmt wird, ob der Zuverlässigkeitsgrad hoch oder
niedrig ist, auf einen spezifischen Wert fixiert ist, gibt es das
Problem, dass keine flexible Spracherkennung gemäß Anwenderanforderung
oder Anwenderattributen ausgeführt werden kann.
-
Die
vorliegende Erfindung ist gemacht worden, um das oben erwähnte
Problem zu lösen und es ist daher eine Aufgabe der vorliegenden
Erfindung, eine Spracherkennungsvorrichtung und ein Navigationssystem
bereitzustellen, die flexible Spracherkennung gemäß Anwenderanforderung
oder Anwenderattributen durchführen können.
-
Offenbarung der Erfindung
-
Um
das oben erwähnte Problem zu lösen, enthält
eine Spracherkennungsvorrichtung gemäß der vorliegenden
Erfindung: eine Spracherkennungs-Verarbeitungseinheit zum Erkennen
einer geäußerten Sprache als eine Zeichenkette;
eine Wortunterteilungseinheit zum Unterteilen der oben erwähnten
erkannten Zeichenkette in Wörter, welche die oben erkannte
Zeichenkette aufbauen; eine Zuverlässigkeits-Berechnungseinheit
zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes
der oben erwähnten unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit
zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes
der oben erwähnten unterteilten Wörter höher
als ein Schwellenwert ist oder nicht; eine Schwellenwerteinstelleinheit zum
Einstellen des oben erwähnten Schwellenwertes, den die
oben erwähnte Zuverlässigkeitsbestimmungseinheit
für die Bestimmung des Erkennungszuverlässigkeitsgrades
verwendet; und eine Anwenderschnittstellen bereitstellende Einheit
zum, wenn die oben erwähnte Zuverlässigkeitsbestimmungseinheit
bestimmt, dass der Erkennungszuverlässigkeitsgrad eines
oder mehrerer der oben erwähnten Wörter niedriger
als der oben erwähnte Schwellenwert ist, Bestimmen, ob
eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als
höher als der Schwellenwert bestimmt worden sind, oder
ein Wieder-Äußern der oben erwähnten
einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade
als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.
-
Ein
Navigationssystem gemäß der vorliegenden Erfindung
enthält: eine Spracherkennungseinheit zum Erkennen eines
geäußerten Bestimmungsortes als einer Zeichenkette,
zum Unterteilen der oben erwähnten erkannten Zeichenkette
in Wörter, zum Bestimmen, ob ein Erkennungszuverlässigkeitsgrad
jedes der oben erwähnten unterteilten Wörter höher
als ein Schwellenwert ist oder nicht und zum Ausgeben eines Erkennungsergebnisses,
wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad
höher als der oben erwähnte Schwellenwert ist; und
eine Bestimmungsorteinstellprozesseinheit zum Einstellen des Schwellenwerts,
der zur Bestimmung des oben erwähnten Erkennungszuverlässigkeitsgrads
verwendet wird, und zum, wenn die oben erwähnte Zuverlässigkeitsbestimmungseinheit
bestimmt, dass der Erkennungszuverlässigkeitsgrad eines
der oben erwähnten Wörter niedriger als der oben
erwähnte Schwellenwert ist, Bestimmen, ob ein Bestimmungsorteinstellen
auf Basis von Worten, deren Erkennungszuverlässigkeitsgrad
als höher als der Schwellenwert bestimmt worden ist, durchzuführen
ist, oder der oben erwähnte Schwellenwert zu ändern
ist und das wieder Äußern des oben erwähnten Wortes
zu verlangen, dessen Erkennungszuverlässigkeitsgrad als
niedriger als der Schwellenwert bestimmt worden ist, und dann die
Spracherkennung durch die oben erwähnte Spracherkennungseinheit zu
wiederholen und das Bestimmungsorteinstellen unter Verwendung eines
Ergebnisses der oben erwähnten Erkennung durchzuführen.
-
Gemäß der
vorliegenden Erfindung kann eine Spracherkennungsvorrichtung und
ein Navigationssystem bereitgestellt werden, die eine flexible Spracherkennung
gemäß Anwenderanforderung oder Anwenderattributen
ausführen kann.
-
Kurze Beschreibung der Figuren
-
1 ist
ein Blockdiagramm, das ein Beispiel der Struktur eines Navigationssystems
gemäß Ausführungsform 1 der vorliegenden
Erfindung zeigt;
-
2 ist
ein Blockdiagramm, das ein Beispiel der Struktur einer Spracherkennungsvorrichtung
gemäß Ausführungsform 1 der vorliegenden
Erfindung zeigt;
-
3 ist
ein Blockdiagramm, das ein Beispiel der internen Struktur einer
Schwellenwerteinstelleinheit der Spracherkennungsvorrichtung gemäß Ausführungsform
1 der vorliegenden Erfindung zeigt; und
-
4 ist
ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung
gemäß Ausführungsform 1 der vorliegenden
Erfindung zeigt.
-
Bevorzugte Ausführungsformen
der Erfindung
-
Nachfolgend
wird, um diese Erfindung detaillierter zu erläutern, die
bevorzugten Ausführungsform der vorliegenden Erfindung
unter Bezugnahme auf die beigefügten Zeichnungen erläutert
werden.
-
Ausführungsform 1
-
1 ist
ein Blockdiagramm, das ein Beispiel der Struktur eines Navigationssystems
gemäß Ausführungsform 1 der vorliegenden
Erfindung zeigt.
-
Das
Navigationssystem gemäß Ausführungsform
1 der vorliegenden Erfindung umfasst ein Mikrofon (Mikro) 1,
eine Spracherkennungseinheit 2, eine Bestimmungsorteinstell-Verarbeitungseinheit 3, einen
berührungssensitiven Bildschirm (Touch-Panel) 4,
eine Stimm-Wellenform-Datenbank 5 und eine Kartendatenbank 6,
wie in 1 gezeigt.
-
Die
Spracherkennungseinheit 2 weist eine Funktion zur Erkennung
einer Anwenderäußerung auf, die vom Mikro 1 aufgenommen
worden ist, als einer Zeichenkette, Unterteilen der erkannten Zeichenkette
in Wörter, Bestimmen, ob ein Erkennungszuverlässigkeitsgrad
jedes unterteilten Wortes höher als ein Schwellenwert ist
oder nicht, und, wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad jedes
unterteilten Wortes höher als der Schwellenwert ist, Ausgeben
eines Ergebnisses der Erkennung an die Bestimmungsorteinstell-Verarbeitungseinheit 3.
-
Die
Bestimmungsorteinstell-Verarbeitungseinheit 3 weist eine
Funktion der Einrichtung des Schwellenwertes auf, der für
die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet
wird, und auch, wenn die Spracherkennungseinheit 2 bestimmt,
dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger
als der Schwellenwert ist, einer Durchführung einer Bestimmungsort-Einstellung
auf Basis der Worte, die alle als höher als der Schwellenwert
bestimmt worden sind, oder Änderung des Schwellenwertes,
um eine Wiederäußerung des Wortes zu verlangen,
das als niedriger als der Schwellenwert bestimmt worden ist, und
eine Spracherkennung durch die Spracherkennungseinheit 2 zu
wiederholen, und dann Durchführung einer Bestimmungsorteinstellung
unter Verwendung des Erkennungsergebnisses.
-
Zur
Spracherkennung verwendete Sprachelemente werden in der Stimm-Wellenform-Datenbank 5 als
Wellenformen gespeichert und beim Ausführen eines Spracherkennungsprozesses
bezieht sich die Spracherkennungseinheit 2 auf die Stimm-Wellenform-Datenbank
zum Zeitpunkt der Durchführung einer Korrelationsoperation,
um den Ähnlichkeitsgrad zu bestimmen. Kartierungsdaten werden
in der Kartendatenbank 6 gespeichert und bei Durchführung
einer Bestimmungsortseinstellung auf Basis einer von der Spracherkennungseinheit 2 erkannten
Sprache bildet die Bestimmungsorteinstell-Verarbeitungseinheit 3 den
Bestimmungsort auf Kartendaten ab, um den Bestimmungsort auf dem Touch-Panel 4 anzuzeigen.
-
Das
Touch-Panel 4 dient als eine Benutzerschnittstelle zur
Durchführung des folgenden Prozesses: ein Einrichten des
vom Anwender eingegebenen Schwellenwerts, eine Anzeige einer Nachricht,
zur Aufforderung des Anwenders, eine Wiederäußerung einiger
Worte vorzunehmen, eine Anzeige eines Spracherkennungsergebnisses,
oder dergleichen.
-
2 ist
ein Blockdiagramm, welches die interne Struktur der Spracherkennungsvorrichtung
(der Spracherkennungseinheit 2 von 1) gemäß Ausführungsform
1 der vorliegenden Erfindung zeigt, in der ihre Struktur in funktionelle
Blöcke unterteilt ist.
-
Wie
in 2 gezeigt, besteht die Spracherkennungsvorrichtung
(die Spracherkennungseinheit 2) gemäß Ausführungsform
1 der vorliegenden Erfindung aus einer Spracheingabeerfassungseinheit 21, einer
Spracherkennungsverarbeitungseinheit 22, einer Wortunterteilungseinheit 23,
einer Zuverlässigkeitsberechnungseinheit 24, einer
Zuverlässigkeitsbestimmungseinheit 25, einer UI(Anwenderschnittstellen)-Bereitstellungseinheit 26 und
einer Schwellenwert-Einstelleinheit 27.
-
Die
Spracheingabeerfassungseinheit 21 weist eine Funktion zur
Erfassung einer von einem Anwender geäußerten
Sprache auf, die vom Mikro 1 aufgenommen wird und Bereitstellen
der Sprache an die Spracherkennungs-Verarbeitungseinheit 22.
Die Spracherkennungs-Verarbeitungseinheit 22 weist eine
Funktion des Erkennens der eingegebenen Sprache als Zeichenkette
und Bereitstellen dieser Zeichenkette an die Wortunterteilungs-Verarbeitungseinheit 23 auf.
-
Die
Wortunterteilungseinheit 23 weist eine Funktion des Unterteilens
der durch die Spracherkennungs-Verarbeitungseinheit 22 erkannten
Zeichenkette in Wörter, die diese Zeichenkette aufbauen,
und Übergeben der Wörter an die Zuverlässigkeitsberechnungseinheit 24 auf.
Die Zuverlässigkeitsberechnungseinheit 24 weist
eine Funktion des Berechnens des Erkennungszuverlässigkeitsgrades jedes
der Wörter, in die die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt
worden ist, und Übergeben des Erkennungszuverlässigkeitsgrades an
die Zuverlässigkeitsbestimmungseinheit 25 auf.
-
Die
Zuverlässigkeitsbestimmungseinheit 25 weist eine
Funktion zur Bestimmung, ob der Erkennungszuverlässigkeitsgrad
jedes der Wörter, in welche die Zeichenkette durch die
Wortunterteilungseinheit 23 unterteilt worden ist, wobei
der Erkennungszuverlässigkeitsgrad durch die Zuverlässigkeitsberechnungseinheit 24 berechnet
wird, höher als der durch die Schwellenwerteinstelleinheit 27 eingestellte
Schwellenwert ist oder nicht, und Übergeben eines Ergebnisses
der Bestimmung an die UI bereitstellende Einheit 26 auf.
-
Die
UI bereitstellende Einheit 26 weist eine Funktion des,
wenn die Zuverlässigkeitsbestimmungseinheit 25 bestimmt,
dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger
als der Schwellenwert ist, Bestimmens, ob die Worte, die alle als
höher als der Schwellenwert bestimmt worden sind, auszugeben
sind, oder der Anwender aufzufordern ist, eine Wiederäußerung
des Wortes vorzunehmen, das als niedriger als der Schwellenwert
bestimmt worden ist. Die UI bereitstellende Einheit 26 dient
als eine Schnittstelle zwischen dem Anwender und der Spracherkennungsvorrichtung,
indem eine Eingabe/Ausgabevorrichtung wie etwa das in 1 gezeigte
Touch-Panel 4 verwendet wird.
-
Die
Schwellenwerteinstelleinheit 27 weist eine Funktion des
Einstellens des Schwellenwertes auf, den die Zuverlässigkeitsbestimmungseinheit 25 für
die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet.
-
Konkret
zählt, wenn eine Wiederäußerung einiger
Worte durch die UI bereitstellende Einheit 26 ausgewählt
wird, die Schwellenwerteinstelleinheit 27 die Anzahl, in
der eine Wiederäußerung vorgenommen worden ist,
vergleicht die gezählte Anzahl mit einem Referenzwert und
aktualisiert den Schwellenwert anhand des Ergebnisses des Vergleichs.
Die Schwellenwerteinstelleinheit 27 erfasst auch einen vom
Anwender über die UI bereitstellende Einheit 26 eingegebenen
Schwellenwert und aktualisiert den eingestellten Schwellenwert mit
dem eingegebenen Schwellenwert. Weiterhin kann anstelle des Einstellens
des Schwellenwertes für jede geäußerte
Sprache die Schwellenwerteinstelleinheit 27 den Schwellenwert
für jedes der aus der Wortunterteilungseinheit 23 ausgegebenen,
erkannten Wörter einstellen.
-
Die
Schwellenwerteinstelleinheit 27 besteht aus einem Zähler
(CNT) 271, einem Konstantenregister 272, einem
Komparator (COMP) 273 und einer Schwellenwert-Justiereinheit 274,
wie als ein Beispiel seiner internen Struktur in 3 gezeigt.
-
Wenn
vom Anwender über die UI bereitstellende Einheit 26 eine
Wiederäußerung ausgewählt wird, zählt
der CNT 271 die Anzahl, mit der eine Wiederäußerung
vorgenommen worden ist und übergibt die gezählte
Anzahl an einen Eingangsanschluss des COMP 273. Der aus
dem Konstantenregister 272 ausgelesene Referenzwert wird
einem anderen Eingangsanschluss des COMP 273 bereitgestellt,
der COMP 273 vergleicht die Anzahl, mit der eine Wiederäußerung
vorgenommen worden ist, die darin eingegeben ist, mit dem Referenzwert
und stellt ein Ergebnis des Vergleichs der Schwellenwert-Justiereinheit 274 bereit.
Weiterhin wird ein Schwellenwert, den der Anwender manuell eingestellt
hat, aus der UI bereitstellenden Einheit 26 an die Schwellenwert-Justiereinheit 274 geliefert
und schließlich justiert die Schwellenwert-Justiereinheit 274 den Schwellenwert,
den der Anwender manuell eingestellt hat. Die Details der Justierung
werden unten erwähnt.
-
In
der in den 2 und 3 gezeigten oben
erwähnten Struktur äußert der Anwender
zuerst eine Adresse, einen Namen, eine Telefonnummer etc. ins Mikro 1,
um eine Bestimmungsortseinstellung durchzuführen. Danach
wird angenommen, dass der Anwender wie folgt äußert: ”Hyogo-ken
Sanda-shi Miwa 3-33”.
-
Die
Spracherkennungs-Verarbeitungseinheit 22 erzeugt aus der
vom Anwender geäußerten Sprachinformation, die
von der Spracheingabeerfassungseinheit 21 erfasst wird,
Zeichenketteninformation und liefert die Zeichenketteninformation
an die Wortunterteilungseinheit 23. Die Wortunterteilungseinheit 23 unterteilt
die durch die Spracherkennungs-Verarbeitungseinheit 22 erkannte
Zeichenketteninformation in Worte. Konkret wird in diesem Fall die
Zeichenketteninformation in die folgenden Worte unterteilt: ”Hyogo-ken”, ”Sanda-shi”, ”Miwa”,
und ”3–33”.
-
Die
Zuverlässigkeitsberechnungseinheit 24 berechnet
den Erkennungszuverlässigkeitsgrad jedes der Worte, in
die die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt
worden ist, bestimmt, ob der Erkennungszuverlässigkeitsgrad
höher oder niedriger als der Schwellenwert ist und gibt ein
Ergebnis der Bestimmung aus. Beispielsweise wird angenommen, das
das Spracherkennungsergebnis ”Hyogo-ken Sanda-shi” ist.
Gemäß Anwenderanweisung bestimmt auf Basis dieses
Ergebnisses die UI bereitstellende Einheit 26, ob der Anwender
aufgefordert wird, die Worte wieder zu äußern, deren
Erkennungszuverlässigkeitsgrad als nicht den Schwellenwert
erreichend festgestellt worden ist, in diesem Fall ”Miwa
3–33”, oder nach dem Bestimmungsort gemäß der
sich aus der Spracherkennung unter Vernachlässigung der
Worte, deren Erkennungszuverlässigkeitsgrade als nicht
den Schwellenwert erreichend bestimmt worden sind, ergebenden Adresse
zu suchen. Diese Äußerung kann auch wiederholt
durchgeführt werden, bis das erfasste Spracherkennungsergebnis
eines wird, das der Anwender akzeptieren kann. Da die UI bereitstellende
Einheit 26 eine Wiederäußerung durch
den Anwender auswählen kann, um den Anwender aufzufordern,
nur die Wörter wieder zu äußern, deren
Erkennungszuverlässigkeitsgrade, die durch die Zuverlässigkeitsberechnungseinheit 24 berechnet
werden, durch die Zuverlässigkeitsbestimmungseinheit 25 als
gleich oder niedriger als dem Schwellenwert bestimmt worden sind,
kann die Spracherkennungs-Verarbeitungseinheit 22 einen
Spracherkennungsprozess durchführen, der in der Lage ist,
den zu erkennenden Bereich auf einen kleineren als den vorherigen
zu beschränken und kann daher eine höhere Erkennungsrate
als im Falle der vorherigen Äußerung erreichen.
-
Andererseits
kann die Schwellenwerteinstelleinheit 27 den Schwellenwert,
den die Zuverlässigkeitsbestimmungseinheit 25 verwendet,
auf Basis einer manuellen Einstellung, die der Anwender über die
UI bereitstellende Einheit 26 durchführt, ändern oder
einstellen. Dem Anwender das freie Einrichten des Schwellenwertes
zu ermöglichen, hat den folgenden Vorteil.
-
Das
heißt, weil es individuelle Differenzen bei der Intonation
gibt und wenn der Schwellenwert auf einen spezifischen Wert fixiert
ist, es einen Fall geben kann, in dem die Spracherkennungs-Verarbeitungseinheit
ein von einem Anwender geäußerte Sprache nicht
erkennen kann, aufgrund individueller Differenzen in der Intonation
(z. B. kann der Anwender einen schweren ”regionalen Akzent” haben), kann
dieses Problem in einem solchen Fall durch Absenken des Schwellenwertes
gelöst werden. Weiterhin kann durch Anheben des Schwellenwertes,
wenn der Anwender korrektere Spracherkennung wünscht, die
Spracherkennungsvorrichtung dazu gebracht werden, auf den Anwenderwunsch
zu reagieren.
-
Der
Anwender kann einen rohen Schwellenwert (z. B. einen von fünf
Pegeln 1 bis 5) für den Erkennungszuverlässigkeitsgrad
einstellen, indem er beispielsweise das Touch-Panel 4 manuell
betätigt. Weiterhin kann die Spracherkennungsvorrichtung den
Schwellenwert fein durch Rückkopplung der Anwenderabsicht
justieren, die aus dem ersten Erkennungsergebnis abgeschätzt
wird. Falls beispielsweise der Anwender manuell ”4” als
Schwellenwert einstellt, führt die Spracherkennungseinheit
(die Schwellenwerteinstelleinheit 27) eine Feineinstellung des
Schwellenwerts automatisch in solcher Weise durch, dass der Schwellenwert
innerhalb eines Bereiches von 3,5 bis 4,5 fällt. Die Details
der Feinjustierung werden unten erwähnt.
-
4 ist
ein Flussdiagramm, das insbesondere auf den Betrieb der Schwellenwerteinstelleinheit 27 aus
den Komponenten der Spracherkennungsvorrichtung gemäß Ausführungsform
1 der vorliegenden Erfindung abstellt.
-
Nachfolgend
wird der Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform
1 der vorliegenden Erfindung, wie in den 2 und 3 gezeigt,
detailliert unter Bezugnahme auf das Flussdiagramm von 4 erläutert.
-
Wie
in 4 gezeigt, bestimmt die Zuverlässigkeitsbestimmungseinheit 25,
ob der Erkennungszuverlässigkeitsgrad jedes der Wörter,
in welche die erkannte Zeichenkette, in welche die eingegebene Sprache
durch die Spracherkennungs-Verarbeitungseinheit 22 konvertiert
wird, durch die Wortunterteilungseinheit 23 unterteilt
wird, gleich oder niedriger als der Schwellenwert ist oder nicht
(Schritt ST41). Wenn es ein Wort gibt, dessen Erkennungszuverlässigkeitsgrad
gleich oder kleiner als der Schwellenwert ist (falls ”Vorhanden” in
Schritt ST41), verlangt die Spracherkennungsvorrichtung vom Anwender, auszuwählen,
ob einer Wiederäußerung des Wortes vorzunehmen
ist, über die UI bereitstellende Einheit 26 (Schritt
ST42).
-
Falls
eine Wiederäußerung oft gemacht wird, zählt
die Schwellenwerteinstelleinheit 27 die Anzahl, mit der
eine Wiederäußerung gemacht worden ist, wobei
der darin eingebaute CNT 271 verwendet wird, und nimmt
einen Vergleich zwischen der Anzahl und dem im Konstantenregister 272 eingestellten
Referenzwert unter Verwendung des COMP 273 vor, jedes Mal,
wenn eine Wiederäußerung gemacht wird (Schritt
ST43).
-
Wenn
festgestellt wird, dass eine Wiederäußerung eine
Referenzanzahl oder mehr Mal gemacht worden ist (falls in Schritt
S43 ”Ja”), führt die Schwellenwert-Justiereinheit 274,
weil das bedeutet, das der zuvor durch den Anwender eingestellte
Schwellenwert höher als der gewünschte Wert ist,
eine Feinjustierung wie oben erwähnt des vom Anwender eingestellten
Wertes durch, um in diesem Fall automatisch einen niedrigeren Schwellenwert
rückzusetzen (Schritt S44). Die Spracherkennungsvorrichtung
veranlasst dann den Anwender, eine Wiederäußerung vorzunehmen, über
die UI bereitstellende Einheit 26 (Schritt ST45). In diesem
Fall zeigt die UI bereitstellende Einheit 26 die erkannte
Zeichenkette auf der Eingabe/Ausgabe-Vorrichtung, wie etwa dem Touch-Panel 4,
an und hebt die Wörter hervor, deren Erkennungszuverlässigkeitsgrade
als gleich oder niedriger als der Schwellenwert bestimmt worden sind,
um den Anwender aufzufordern, eine Wiederäußerung
der Worte vorzunehmen.
-
Auch
wenn im Prozess von Schritt ST43 die Anzahl von Malen, die eine
Wiederäußerung gemacht worden ist, gleich oder
kleiner als der Refenerzwert bestimmt wird, fördert in ähnlicher
Weise die Spracherkennungsvorrichtung den Anwender auf, eine Wiederäußerung
vorzunehmen (falls in Schritt ST43 ”Nein”). Weiterhin,
wenn im Prozess von Schritt ST41 alle Wörter einen Zuverlässigkeitsgrad
gleich oder höher als der Schwellenwert haben (als in Schritt
ST41 ”Abwesend”) oder wenn eine Wiederäußerung
im Prozess von Schritt ST42 nicht ausgewählt wird, sondern
eine Ausgabe der Worte, deren Erkennungszuverlässigkeitsgrade
als höher als der Schwellenwert bestimmt worden sind, ausgewählt wird,
beendet die Spracherkennungsvorrichtung den Spracherkennungsprozess.
-
Wie
zuvor erläutert, ermöglicht die Spracherkennungsvorrichtung
gemäß Ausführungsform 1 der vorliegenden
Erfindung es dem Anwender, den Schwellenwert manuell zu ändern,
oder sie kann dynamisch den Schwellenwert automatisch ändern
und kann den Anwender auffordern, wiederholt die Worte zu äußern,
an denen die Erkennung der Spracherkennungsvorrichtung versagt hat.
Daher kann die Spracherkennungsvorrichtung die Erkennungsrate verbessern
und kann flexible Spracherkennung gemäß Anwenderanforderung
oder Anwender-Attributen durchführen (z. B. Anwesenheit
oder Abwesenheit eines regionalen Akzents oder dergleichen).
-
Weiterhin,
wenn bestimmt wird, dass der Erkennungszuverlässigkeitsgrad
eines der Wörter, in welche die eingegebene Sprache unterteilt
wird, niedriger als der Schwellenwert ist, fordert die Spracherkennungsvorrichtung
den Anwender auf, eine Wiederäußerung nur des
Wortes vorzunehmen und bestimmt, dass das Ergebnis der Erkennung
der anderen Worte, welche die Anwenderabsicht erfüllen, gültig
sind. Daher kann die Spracherkennungsvorrichtung die Erkennungsrate
insgesamt verbessern, ohne den Anwender zu veranlassen, die Unbequemlichkeit
der Vornahme von Wiederäußerung zu haben.
-
1 zeigt
eine Anwendung, in der die Spracherkennungsvorrichtung gemäß Ausführungsform
1 der vorliegenden Erfindung auf eine Bestimmungsort-Suchfunktion
unter Verwendung einer Äußerung einer Adresse
des Navigationssystems angewendet wird.
-
In
diesem Beispiel erkennt die Spracherkennungseinheit 2 die
als Zeichenkette geäußerte Adresse durch Bestimmen
einer Korrelation zwischen der Adresse und den in der Stimm-Wellenform-Datenbank 5 gespeicherten
Sprachelemente, unterteilt die erkannte Zeichenkette in Wörter
und bestimmt, ob der Erkennungszuverlässigkeitsgrad jedes
der Wörter, in die die erkannte Zeichenkette unterteilt
ist, höher als der Schwellenwert ist oder nicht, und wenn
festgestellt wird, dass der Erkennungszuverlässigkeitsgrad
jedes der Wörter höher als der Schwellenwert ist, übergibt
sie das Erkennungsergebnis an die Bestimmungsorteinstell-Verarbeitungseinheit 3.
-
Die
Bestimmungsorteinstell-Verarbeitungseinheit 3 stellt den
Schwellenwert, der zur Bestimmung des Erkennungszuverlässigkeitsgrads
verwendet worden ist, ein, und wenn die Spracherkennungseinheit 2 bestimmt,
dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger
als der Schwellenwert ist, führt ein Bestimmungsorteinstellen
auf Basis von Wörtern durch, deren Erkennungszuverlässigkeitsgrade
als höher als der Schwellenwert bestimmt worden sind, oder ändert
den Schwellenwert, um den Anwender aufzufordern, eine Wiederäußerung
des Wortes vorzunehmen, dessen Erkennungszuverlässigkeitsgrad
als niedriger als der Schwellenwert bestimmt worden ist, und veranlasst
dann die Spracherkennungseinheit 2, die Spracherkennung
zu wiederholen und führt eine Bestimmungsorteinstellung
unter Bezugnahme auf die Kartendatenbank 6 durch, wobei
das Ergebnis der Erkennung verwendet wird.
-
Wie
oben erwähnt, berechnet die Spracherkennungseinheit 1 den
Zuverlässigkeitsgrad jedes der Wörter, die in
der geäußerten Zeichenkette enthalten sind, und
bestimmt, dass sie beim Erkennen der Wörter erfolgreich
war, deren Zuverlässigkeitsgrade höher als der
Schwellenwert sind, um das Ergebnis der Erkennung an dem Touch-Panel 4 auszugeben.
Weiterhin kann der Anwender den Schwellenwert einstellen, den die
Spracherkennungseinheit zu dem Zeitpunkt verwendet, manuell unter
Verwendung des Touch-Panels 4, oder die Spracherkennungsvorrichtung
(die Spracherkennungseinheit 1) selbst kann automatisch
den Schwellenwert fein justieren, wie oben erwähnt.
-
Das
oben erwähnte Navigationssystem gemäß Ausführungsform
1 der vorliegenden Erfindung kann die Spracherkennungsvorrichtung
dazu bringen, Spracherkennung auszuführen, um eine Bestimmungsorteinstellung
gemäß entweder Anwenderanforderung oder Anwender-Attributen
vorzunehmen und kann daher den Anwender mit Bequemlichkeit versehen.
-
Die
oben erwähnte Spracherkennungsvorrichtung oder das Navigationssystem
gemäß dieser Ausführungsform der vorliegenden
Erfindung kann den Schwellenwert für jedes der Wörter,
in welche geäußerte Sprache unterteilt wird, einstellen,
anstelle von für jede geäußerte Sprache.
In diesem Fall kann die oben erwähnte Spracherkennungsvorrichtung oder
das Navigationssystem Spracherkennung flexibler ausführen.
-
Alle
Funktionen der Konfigurationsblöcke, welche die in 2 gezeigte
Spracherkennungseinheit 2 aufweist, können über
Software implementiert werden oder zumindest ein Teil davon kann über Hardware
implementiert werden. Beispielsweise können die Datenverarbeitungen,
die von jeder der Spracheingabeerfassungseinheit 21, Spracherkennungs-Verarbeitungseinheit 22,
Wortunterteilungseinheit 23, Zuverlässigkeitsberechnungseinheit 24, Zuverlässigkeitsbestimmungseinheit 25,
UI bereitstellende Einheit 26 und Schwellenwerteinstelleinheit 27 durchgeführt
werden, über eine oder mehrere Programme implementiert
werden, die auf einem Computer laufen, oder zumindest ein Teil der
Datenprozessierung kann mittels Hardware implementiert werden.
-
Industrielle Anwendbarkeit
-
Wie
oben erwähnt, berechnet die Spracherkennungsvorrichtung
gemäß der vorliegenden Erfindung den Zuverlässigkeitsgrad
jedes Wortes einer geäußerten Zeichenkette, um
zu bestimmen, ob der Zuverlässigkeitsgrad höher
als ein Schwellenwert ist oder nicht und ermöglicht dem
Anwender, den für die Bestimmung verwendeten Schwellenwert
einzustellen. Daher ist die Spracherkennungsvorrichtung gemäß der
vorliegenden Erfindung zur Verwendung in einem Fahrzeugnavigationssystem geeignet,
das eine Einstellung eines Bestimmungsortes unter Verwendung von
Spracherkennung durchführen kann, und so weiter.
-
ZUSAMMENFASSUNG
-
Eine
Spracherkennungsvorrichtung umfasst: eine Spracherkennungs-Verarbeitungseinheit 22 zum
Erkennen einer geäußerten Sprache als eine Zeichenkette;
eine Wortunterteilungseinheit 23 zum Unterteilen der erkannten
Zeichenkette in Wörter, welche diese Zeichenkette aufbauen;
eine Zuverlässigkeits-Berechnungseinheit 24 zum
Berechnen eines Erkennungszuverlässigkeitsgrads jedes der
unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit 25 zum
Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes
der unterteilten Wörter höher als ein Schwellenwert
ist oder nicht; eine Schwellenwerteinstelleinheit 27 zum
Einstellen des Schwellenwertes, den die Zuverlässigkeitsbestimmungseinheit 25 für
die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet;
und eine Anwenderschnittstellen bereitstellende Einheit 26 zum,
wenn die Zuverlässigkeitsbestimmungseinheit 25 bestimmt, dass
der Erkennungszuverlässigkeitsgrad eines oder mehrerer
der Wörter niedriger als der Schwellenwert ist, Bestimmen,
ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als
höher als der Schwellenwert bestimmt worden sind, oder
ein Wieder-Äußern der einen oder mehreren Wörter,
deren Erkennungszuverlässigkeitsgrade als niedriger als
der Schwellenwert bestimmt worden sind, zu verlangen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - JP 2005-157166
A [0003]