DE112009001779B4

DE112009001779B4 - Spracherkennungsvorrichtung

Info

Publication number: DE112009001779B4
Application number: DE112009001779.7T
Authority: DE
Inventors: Yuzuru Inoue; Takayoshi Chikuri; Yuki Furumoto
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-07-30
Filing date: 2009-04-23
Publication date: 2019-08-08
Anticipated expiration: 2029-04-24
Also published as: DE112009001779T5; JPWO2010013369A1; WO2010013369A1; US20110178804A1; CN102105929B; US8818816B2; CN102105929A

Abstract

Spracherkennungsvorrichtung, umfassend:eine Spracheingabeeinheit (11) zum Eingeben einer Sprache eines geäußerten Tastennamens, um die Sprache in ein elektrisches Signal zu wandeln;eine Spracherkennungsverarbeitungseinheit (12) zum Durchführen eines Spracherkennungsprozesses anhand eines daran gesendeten Tonsignals als das elektrische Signal aus der Spracheingabeeinheit (11), um ein Spracherkennungsergebnis zu erfassen;eine Tastenkandidaten-Detektionseinheit (13) zum Vergleichen des durch die Spracherkennungsverarbeitungseinheit (12) erfassten Spracherkennungsergebnisses mit vorab für alle, auf allen Anzeigebildschirmen existierenden Tasten vorbereiteten Tastennamen, um so als einen Tastenkandidaten eine Taste mit einem Tastennamen zu detektieren, der partiell zu dem Spracherkennungsergebnis passt;eine Anzeigensteuereinheit (15) zum Erzeugen, wenn eine Mehrzahl von Kandidatentasten, die partiell mit dem Spracherkennungsergebnis übereinstimmen, durch die Tastenkandidaten-Detektionseinheit (13) detektiert werden, eines Bildschirms, der einen Zustand zeigt, in dem zumindest einer der Mehrzahl von Tastenkandidaten ausgewählt ist; undeine Anzeigeneinheit (16) zum Anzeigen des durch die Anzeigensteuereinheit (15) erzeugten Bildschirms.

Description

Gebiet der Erfindung
Die vorliegende Erfindung beizieht sich auf eine Spracherkennungsvorrichtung, die eine Ausrüstung betreibt, wie etwa eine Navigationsvorrichtung, per Sprache, beispielsweise genauer gesagt bezieht sie sich auf eine Technologie des Ausführens, wenn eine Sprachbedienung durchgeführt wird, desselben Prozesses wie desjenigen, wenn eine manuelle Bedienung durchgeführt wird.
Hintergrund der Erfindung
In einem Fall des Bedienens von Ausrüstung durch eine Anwenderstimme können die Details der Bedienung nicht eindeutig bestimmt werden, falls die Anwenderäußerung vage ist. Um dieses Problem zu lösen, wird in konventioneller Weise typischerweise ein Verfahren verwendet, das dem Anwender gestattet, einen korrekten Kandidaten aus Kandidaten auszuwählen, welche durch die Ausrüstung als Ergebnis einer Spracherkennung bereitgestellt werden. Ein Problem bei diesem Verfahren ist jedoch, dass, weil das Verfahren einen Übergang zu einem Bildschirm verursacht, der für Sprachbedienung spezifisch ist und der bei manueller Bedienung nicht existiert, es für den Anwender schwierig ist, die Prozedur zur Auswahl eines korrekten Kandidaten aus den Kandidaten zu verstehen.
Um das aus solch einer Vagueheit der Anwenderäußerung resultierende Problem zu lösen, offenbart Patentreferenz 1 eine Informationseingabe-/Ausgabevorrichtung, die den Anwender in die Lage versetzt, Interpretationsergebnisse per Sprache zu korrigieren, und auch einen Kandidaten für die Interpretationsergebnisse per Sprache zu selektieren. In dieser Informationseingabe-/Ausgabevorrichtung erzeugt eine Eingabe-Interpretationskandidaten-Zwischenausgabeeinheit zeitweilige Präsentationsinformationen, die den Anwender veranlasst, einen Kandidaten aus Interpretationskandidaten auszuwählen, welche die Eingabe-Interpretationskandidaten-Zwischenausgabeeinheit aus einer Eingabeeinheit erfasst hat. Eine Timereinheit startet einen Zeitmessvorgang in Reaktion auf Ausgabe der zeitweiligen Präsentationsinformation und erzeugt ein Zeitsignal, nachdem ein vorbestimmtes Zeitinterval verstrichen ist. Wenn Sprachinformationen zur Auswahl eines Kandidaten aus einer Spracherkennungsvorrichtung eingegeben werden, oder wenn das Timersignal aus der Timereinheit abgegeben wird, wählt eine Interpretationsinformationsauswahl/Bestimmungseinheit einen Kandidaten aus den Interpretationskandidaten aus und stellt den ausgewählten Kandidaten einer Informationsverarbeitungseinheit als Interpretationsinformationen bereit. Eine Ausgabe-Vereinheitlichungseinheit vereinigt aus der Informationsverarbeitungseinheit ausgegebene Informationen und zeitweilige Präsentationsinformationen aus der Eingabe-Interpretationskandidateneinstell-Zwischenausgabeeinheit in Informationen, und stellt diese Informationen einer Ausgabeeinheit als Ausgabeinformation für den Anwender bereit.
Verwandtes Dokument des Stands der Technik
Patentreferenz
Patentreferenz 1: JP H10 - 91 309 A

Ferner offenbart US 2005 / 0 055 218 A1 ein Spracherkennungssystem und -verfahren in einem sprachaktivierten multifunktionalen Kommunikationssystem.
EP 1 863 015 A1 lehrt eine elektronische Vorrichtung zur Spracherkennung extern eingegebener Sprachinformationen und wird gesteuert durch aus der Spracherkennung erhaltenen Befehlsinformationen.
US 2006 / 0 111 906 A1 beschreibt ein Verfahren, System und eine Vorrichtung, um sogenannte „Voice Clicks“ in multimodalen Seiten zu ermöglichen.
US 7 076 425 B2 zeigt ferner eine Spracherkennungsvorrichtung, um eine Spracherkennungsrate eingegebener Sprache zu verbessern.
US 2007 / 0 100 636 A1 beschreibt eine Spracherkennungsvorrichtung, die eine effiziente multimodale Eingabe ermöglicht, durch Einstellen einer Vielzahl von Eingaben durch eine Sprachausgabe.
US 2003 / 0 061 053 A1 offenbart ein Verfahren und eine Vorrichtung zur Verarbeitung von Eingaben in einem Computer.
US 2003 / 0 158 736 A1 lehrt eine stimmkontrollierte Dateneingabe.
Aus JP 2006 - 208 461 A ist ein Verfahren und eine Vorrichtung zur Spracherkennung bekannt zur Verbesserung der Spracherkennung durch das Speichern von Spracherkennungs-Auswahlkandidaten.
US 2004 / 0 122 673 A1 beschreibt außerdem ein Verfahren und eine Vorrichtung zum schnellen und präzisen Durchführen eines Dialogaustauschs.
US 7 069 220 B2 zeigt schließlich ein System und Verfahren zum Bestimmen und Aufrechterhalten eines Dialogfokus in einem konventionellen Sprachsystem.

Ein Problem bei der durch die oben erwähnte Patentreferenz 1 offenbarten Technologie ist jedoch, dass, da der Anwender den korrekten Sprachbefehl nicht begreift und die Anwenderäußerung aus diesem Grunde vage ist, es für den Anwender schwierig ist, diese Äußerung durch Sprache zu korrigieren.
Die vorliegende Erfindung wird gemacht, um das oben erwähnte Problem zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung bereitzustellen, die sowohl eine manuelle Bedienung als auch eine Sprachbedienung gemäß einer identischen Prozedur durchführen kann.
Zusammenfassung der Erfindung
Um das oben erwähnte Problem zu lösen, beinhaltet eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung alle Merkmale des unabhängigen Patentanspruchs 1. Weitere vorteilhafte Ausführungsformen ergeben sich aus den entsprechenden Unteransprüchen.
Die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung kann eine Sprachbedienung anhand derselben Prozedur wie derjenigen, anhand welcher die Spracherkennungsvorrichtung eine manuelle Bedienung durchführt, ausführen, selbst falls die Anwenderäußerung vage ist.
Figurenliste

1 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
2 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, wobei auf einen Sprachbedienungsprozess fokussiert wird, bis einschließlich einer Präsentation eines Erkennungsergebnisses einem Anwender, nach Erkennen der Anwendersprache;
3 ist eine Ansicht zum Erläutern eines Betriebs, wenn ein einzelner Tastenkandidat durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung detektiert wird;
4 ist eine Ansicht zum Erläutern eines Betriebs, wenn eine Mehrzahl von Tastenkandidaten durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung detektiert wird;
5 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, wobei auf den Sprachbedienungsprozess fokussiert wird, einschließlich von einer Additionsoperation bis zum Abschluss der Operation zu der Zeit, wenn die Operation noch nicht abgeschlossen worden ist;
6 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, wobei auf den Sprachbedienungsprozess einschließlich Abschluss der Operation in Reaktion auf eine Anwendungsäußerung eines anderen Wortes als Tastennamen zum Zeitpunkt, wenn die Operation noch nicht abgeschlossen worden ist, fokussiert wird;
7 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt;
8 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt, wobei auf einen Sprachbedienungsprozess bis einschließlich einer Präsentation eines Erkennungsergebnisses einem Anwender nach Erkennen der Anwendersprache fokussiert wird.

Ausführungsformen der Erfindung
Nachfolgend werden, um diese Erfindung detaillierter zu erläutern, die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
Ausführungsform 1.
1 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt. Diese Spracherkennungsvorrichtung ist mit einer Spracheingabeeinheit 11, einer Spracherkennungsverarbeitungseinheit 12, einer Tastenkandidaten-Detektionseinheit 13, einer manuellen Bedieneinheit 14, einer Anzeigensteuereinheit 15, einer Anzeigeeinheit 16, einer Verschiedene-Funktions-Ausführungs-Einheit 17, einer Antwortspracherzeugungseinheit 18 und einer Sprachausgabeeinheit 19 versehen.
Die Spracheingabeeinheit 11 besteht beispielsweise aus einem Mikrofon und wandelt eine Sprache, die der Anwender geäußert hat, in ein elektrisches Signal um und sendet dieses elektrische Signal als ein Tonsignal an die Spracherkennungsverarbeitungseinheit 12.
Die Spracherkennungsverarbeitungseinheit 12 führt einen Spracherkennungsprozess anhand des daran aus der Spracheingabeeinheit 11 gesendeten Tonsignals durch. Der Spracherkennungsprozess beinhaltet einen Sprachintervall-Detektionsprozess zum Detektieren eines Äußerungsintervalls (oder Abschnitts) aus dem eingegebenen Tonsignal, einen Akustikanalyseprozess zum Umwandeln eines durch den Sprachintervall-Detektionsprozess detektierten Sprachsignals in Tonparameter, einen Wahrscheinlichkeits-Arithmetikprozess zum Selektieren und identifizieren eines Phonem-Kandidaten mit maximaler Wahrscheinlichkeit auf Basis von Minimaleinheiten der durch den Akustikanalyseprozess erfassten Sprache, und einen Vergleichsprozess zum Vergleichen des durch den Wahrscheinlichkeits-Arithmetikprozess erfassten Phonem-Kandidaten mit einem Wörterbuch, in dem Wörter und so weiter gespeichert sind, um so ein Erkennungsergebnis zu bestimmen.
Im Akustikanalyseprozess wird, indem beispielsweise LPC (Linearer Vorhersage-Koeffizient, Linear Predictor Coefficient) Mel-Cepstrum oder MFCC (Mel-Frequenz-Cepstru-Koeffizient) verwendet wird, das eingegebene Tonsignal in eine Merkmalsdetektorsequenz umgewandelt und die Form (Spektrumsumschlag) des Sprachspektrums abgeschätzt. Im Wahrscheinlichkeits-Arithmetikprozess wird beispielsweise durch Verwendung von HMM (Hidden Markov Model) das Tonsignal in Phonem-Symbole unterteilt, unter Verwendung der durch den akustischen Analyseprozess anhand der eingegebenen Sprache extrahierten Tonparameter, und wird ein Phonem-Kandidat mit maximaler Wahrscheinlichkeit aus dem Vergleich mit einem Standard-Phonem-Modell, das vorab verwaltet wird, ausgewählt. Im Vergleichsprozess wird ein Wort mit einer hohen Wahrscheinlichkeit durch Vergleichen des Phonem-Kandidaten mit dem Wörterbuch ausgewählt. Das durch die Spracherkennungsverarbeitungseinheit 12 durch die oben erwähnten Prozesse erfasste Erkennungsergebnis wird an die Tastenkandidaten-Detektionseinheit 13 und die Anzeigensteuereinheit 15 gesendet.
Die Tastenkandidaten-Detektionseinheit 13 vergleicht das durch die Spracherkennungsverarbeitungseinheit 12 erfasste Erkennungsergebnis mit den Namen (die ab jetzt als „Tastennamen“ bezeichnet werden) aller aus der Anzeigensteuereinheit 15 erfassten Tasten, d.h. die Tastennamen aller Tasten, die auf allen Bildschirmen existieren, die aktuell in dieser Spracherkennungsvorrichtung vorbereitet sind, um so als einen Tastenkandidaten eine Taste mit einem Tastennamen zu identifizieren, der partiell zum Erkennungsergebnis passt. Wenn das Erkennungsresultat beispielsweise „YYY“ ist und als die Tastennamen „XXXXXX“, YYYABC“, „YYYDEF“, und „ZZZZZZ“ vorbereitet sind, werden zwei Tasten mit den Tastennamen „YYYABC“ und „YYYDEF“, die teilweise zu „YYY“ passen, als Tastenkandidaten detektiert. In einem Fall, in dem eine vage Sprachbedienung durchgeführt wird, kann das Erkennungsergebnis der Sprachbedienung teilweise zu einem oder mehreren Tastennamen passen.
In einem Fall, bei dem eine exakte Sprachbedienung ausgeführt wird, kann das Erkennungsergebnis der Sprachbedienung vollständig zu einem Tastennamen passen. In diesem Fall benachrichtigt die Tastenkandidaten-Detektionseinheit 13 die Anzeigensteuereinheit 15 und die verschiedenen Funktionsausführungseinheiten 17, dass das Erkennungsergebnis voll zu einem Tastennamen passt (in 1 wird eine Route, über welche die Benachrichtigung durchgeführt wird, weggelassen. In diesem Fall wird dieselbe Bedienung wie diejenige, die gemacht wird, wenn eine entsprechende Taste über die manuelle Bedieneinheit 14 heruntergedrückt wird, ausgeführt. Informationen, die einen oder mehrere durch diese Tastenkandidaten-Detektionseinheit 13 detektierte Tastenkandidaten zeigt, werden an die Anzeigensteuereinheit 15, die Verschiedene-Funktionenausführungseinheit 17 und Antwort-Spracherzeugungseinheit 18 als Tastenkandidaten gesendet.
Die manuelle Bedieneinheit 14 wird verwendet, damit der Anwender beispielsweise eine auf dem Bildschirm der Anzeigeeinheit 16 angezeigte Taste herunterdrückt. Diese manuelle Bedieneinheit 14 kann aus auf einem Frontpaneel der Spracherkennungsvorrichtung angeordnete Bedientasten, einer Fernsteuerungsvorrichtung (Fernsteuerung) zum Erzeugen eines Signals, welches dasselbe ist wie dasjenige, das erzeugt wird, wenn eine dieser Bedientasten heruntergedrückt wird, einem auf dem Bildschirm der Anzeigeeinheit 16 platzierten Touch-Panel, oder einer Kombination einiger dieser Komponenten aufgebaut sein. Bedientastendaten, welche durch die Anwenderbedienung auf dieser manuellen Bedieneinheit 14 erzeugt werden, werden an die Anzeigensteuereinheit 15 und die verschiedene Funktionenausführungseinheit 17 gesendet.
Die Anzeigensteuereinheit 15 erzeugt Bildschirmdaten zur Anzeige eines Bildes auf dem Bildschirm der Anzeigeeinheit 16 anhand entweder der daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten oder der daran aus der manuellen Bedieneinheit 14 gesendeten Bedientastendaten, und sendet die Bildschirmdaten an die Anzeigeeinheit 16. Die Anzeigensteuereinheit 15 erzeugt auch Bildschirmdaten zum Anzeigen von Prozessergebnissen auf dem Bildschirm der Anzeigeeinheit 16 anhand von daran aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Anzeigedaten und sendet die Bildschirmdaten an die Anzeigeeinheit 16. Die Anzeigensteuereinheit 15 speichert die Tastennamen aller auf allen Bildschirmen existierenden Tasten, die derzeit in dieser Spracherkennungsvorrichtung vorbereitet sind, wie oben erwähnt, und jeder der Tastennamen kann durch die Tastenkandidaten-Detektionseinheit 13 gelesen werden.
Die Anzeigensteuereinheit 15 ist mit einer Tastensteuereinheit 15a und einer Bildschirm-Übergangseinheit 15b versehen. Die Tastensteuereinheit 15a kann den Anzeigestil einer Taste auf dem Bildschirm verändern. Beispielsweise führt die Tastensteuereinheit 15a einen Prozess der Veränderung der Farbe oder Helligkeit eines Tastenkandidaten auf dem Bildschirm, Blinkenlassen eines Tastenkandidaten oder Ändern der Größe oder Form eines Tastenkandidaten durch, um somit den Tastenkandidaten auf dem Bildschirm hervorzuheben. Da die Spracherkennungsvorrichtung den Anwender durch diesen Hervorhebungsprozess dazu benachrichtigen kann, welche Taste auf dem Bildschirm ausgewählt ist, kann die Spracherkennungsvorrichtung den Anwender leicht zur nächsten Bedienung führen.
Wenn die aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten zeigen, dass ein einzelner Tastenkandidat detektiert ist, führt die Bildschirm-Übergangseinheit 15b einen Prozess des Durchführens eines Übergangs zu einem Bildschirm aus, der derselbe ist wie derjenige, der erzeugt wird, wenn der Tastenkandidat heruntergedrückt wird, d.h. ein Bildschirm, der einer Funktion, die aktuell dem heruntergedrückten Tastenkandidaten zugewiesen ist, ermöglicht ausgeführt zu werden.
Weiterhin, wenn die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten zeigen, dass eine Mehrzahl von Tastenkandidaten detektiert sind, und diese Tastenkandidaten auf dem aktuell angezeigt werdenden Bildschirm vorhanden sind, führt die Bildschirmübergangseinheit 15b einen Übergang zu einem Bildschirm durch, der einen Zustand zeigt, in dem zumindest einer aus der Mehrzahl von Tastenkandidaten ausgewählt ist. Wenn andererseits die Tastenkandidaten auf dem aktuell angezeigt werdenden Bildschirm nicht vorhanden sind, führt die Bildschirmübergangseinheit einen Prozess der Vornahme eines Übergangs zu einem Bildschirm durch, auf dem die Mehrzahl von Tastenkandidaten vorhanden sind. Bildschirmdaten, die diesen Bildschirm zeigen, zu dem der vorherige Bildschirm durch die Bildschirmübergangseinheit 15b überführt wird, werden an die Anzeigeeinheit 16 gesendet.
Die Anzeigeeinheit 16 besteht beispielsweise aus einer LCD (Flüssigkristallanzeige) und zeigt ein Bild gemäß den aus der Anzeigensteuereinheit 15 an sie gesendeten Bildschirmdaten an.
Die Verschiedene-Funktionsausführungseinheit 17 führt einen Prozess des Implementierens entweder einer aktuell dem durch die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten zugewiesenen Funktion oder einer aktuell der durch die aus der manuellen Bedieneinheit 14 daran gesendeten Bedienungstastendaten gezeigten Bedienungstaste zugewiesenen Funktion aus. Durch diese Verschiedene-Funktionsausführungseinheit 17 implementierte Funktionen beinhalten beispielsweise eine Funktion zum Implementieren von HFT (Freisprechtelefonieren, hands free telephone) oder AV (Audio Visuell). Wenn der Prozess des Implementierens der Funktion abgeschlossen ist, erzeugt die Verschiedene-Funktionsausführungseinheit 17 Nachrichtendaten, um den Anwender zu benachrichtigen, dass der Prozess der Implementierung der Funktion abgeschlossen ist, und sendet die Nachrichtendaten an die Antwort-Spracherzeugungseinheit 18, und erzeugt ebenfalls Anzeigedaten, welche die Prozessergebnisse zeigen, und sendet die Anzeigedaten an die Anzeigensteuereinheit 15.
Wenn die Tastenkandidaten aus der Tastenkandidaten-Detektionseinheit 13 an sie gesendet werden, erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal, das eine Lesung des Tastennamens des durch die Tastenkandidatendaten gezeigten Tastenkandidaten zeigt, und erzeugt auch ein Tonsignal anhand der an sie aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Nachrichtendaten.
Die durch diese Antwort-Spracherzeugungseinheit 18 erzeugten Tonsignale werden an die Sprachausgabeeinheit 19 gesendet.
Die Sprachausgabeeinheit 19 besteht beispielsweise aus einem Lautsprecher und gibt eine Stimme anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Weil diese Antwort-Spracherzeugungseinheit 18 und die Sprachausgabeeinheit 19 den Anwender über die auf dem Bildschirm ausgewählte Taste benachrichtigen können, kann die Spracherkennungsvorrichtung den Anwender leicht zur nächsten Bedienung führen.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung, die wie oben aufgebaut ist, erläutert. Zuerst wird der Betrieb der Spracherkennungsvorrichtung unter Bezugnahme auf ein in 2 gezeigtes Flussdiagramm erläutert, wobei auf einen Sprachbedienungsprozess fokussiert wird, bis einschließlich zur Präsentation eines Erkennungsergebnisses einem Anwender, nach Erkennen der Anwendersprache.
Bei diesem Sprachoperationsprozess wird zuerst eine Anwendersprache eingegeben (Schritt ST11). Spezifischer wandelt die Spracheingabeeinheit 11 eine von einem Anwender geäußerte Sprache in ein elektrisches Signal um und sendet dieses elektrische Signal als ein Tonsignal an die Spracherkennungsverarbeitungseinheit 12. Dann wird die Spracherkennung ausgeführt (Schritt ST12). Spezifischer führt die Spracherkennungsverarbeitungseinheit 12 den Spracherkennungsprozess auf Basis des daran aus der Spracheingabeeinheit 11 gesendeten Tonsignals durch und sie sendet das Ergebnis der Erkennung an die Tastenkandidaten-Detektionseinheit 13.
Dann wird ein Tastenkandidat detektiert (Schritt ST13). Spezifischer vergleicht die Tastenkandidaten-Detektionseinheit 13 das aus der Spracherkennungsverarbeitungseinheit 12 an sie gesendete Erkennungsergebnis mit einem Tastennamen, der auf allen Bildschirmen existiert, und die aus der Anzeigensteuereinheit 15 erfasst werden, um so als einen Tastenkandidaten eine oder mehrere Tasten zu detektieren, die alle einen Tastennamen haben, der partiell zum Erkennungsergebnis passt. Tastenkandidatendaten, die den einen oder mehrere der Tastenkandidaten zeigen, die durch diese Tastenkandidaten-Detektionseinheit 13 detektiert sind, werden an die Anzeigensteuereinheit 15, die Verschiedene-Funktionsausführungseinheit 17 und die Antwort-Spracherzeugungseinheit 18 gesendet. Wenn in diesem Schritt ST13 kein Tastenkandidat detektiert wird, beendet die Spracherkennungsvorrichtung den Sprachbedienungsprozess, wobei dies nicht illustriert ist.
Dann wird überprüft, ob die Zahl der einen oder mehreren Tastenkandidaten, die detektiert werden, größer als „1“ ist oder nicht (Schritt ST14). Spezifischer überprüft die Anzeigensteuereinheit 15, ob die Anzahl der durch die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten größer als „1“ ist oder nicht.
Wenn in diesem Schritt ST14 festgestellt wird, dass die Anzahl von einem oder mehreren Tastenkandidaten nicht größer als „1“ ist, d.h. die Anzahl der detektierten einen oder mehreren Tastenkandidaten einzahlig ist, wird dann ein Bildschirmübergang ausgeführt (Schritt ST15). Spezifischer nimmt die Bildschirm-Übergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm vor, welcher derselbe ist wie derjenige, der in einem Fall erzeugt wird, in dem der Tastenkandidat heruntergedrückt wird.
Als Ergebnis macht beispielsweise in einem Fall, in dem der Anwender „YYY“ in einem Zustand, in dem die folgenden Tastennamen: „XXXXXX“, „YYYABC“, „ZZZDEF“, und „ZZZZZZ“ auf einem Menübildschirm angezeigt sind, ausstößt, und nur „YYYABC“ als Tastenkandidat detektiert wird, die Bildschirm-Übergangseinheit einen Übergang zu einem YYYABC-Funktionsbildschirm, wie in 3 gezeigt.
Zu dieser Zeit erzeugt die Antwort-Stimmerzeugungseinheit 18 ein Tonsignal, das eine Lesung des Tastennamens des durch die aus der Tastenkandidaten-Detektionseinheit 13 an sie gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten zeigt, um so den Anwender zu veranlassen, die Lesung zu überprüfen, und sendet das Tonsignal an die Sprachausgabeeinheit 19. Die Sprachausgabeeinheit 19 gibt eine Sprache anhand des daran aus der Antwort-Stimmerzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis gibt die Sprachausgabeeinheit 19 eine Bestätigungsstimme „YYYABC“ Papageien-artig aus.
Dann wird eine der verschiedenen Funktionen ausgeführt (Schritt ST16). Spezifischer führt die Verschiedene-Funktionsausführungseinheit 17 einen Prozess des Implementierens einer Funktion aus, die dem durch die daran aus der Tastenkandidaten-Detektionseinheit gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten zugewiesen ist. Wenn dann der Prozess abgeschlossen wird, erzeugt die Verschiedene-Funktionsausführungseinheit Nachrichtendaten, die eine Benachrichtigung des Abschlusses der Operation zeigen und sendet die Nachrichtendaten an die Antwort-Spracherzeugungseinheit 18 und erzeugt auch Anzeigedaten, welche die Prozessergebnisse anzeigen, und sendet die Anzeigedaten an die Anzeigensteuereinheit 15. Die Anzeigensteuereinheit 15 erzeugt Bildschirmdaten gemäß den daran aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Anzeigedaten und sendet die Bildschirmdaten an die Anzeigeeinheit 16.
Dann wird eine Antwortstimme erzeugt (Schritt ST17). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal anhand der Nachrichtendaten, welche die Benachrichtigung des Operationsabschlusses zeigen, die aus der Verschiedene-Funktionsausführungseinheit 17 daran gesendet werden, und sendet das Tonsignal an die Sprachausgabeeinheit 19.
Dann wird eine Präsentation für den Benutzer ausgeführt (Schritt ST18). Spezifischer erzeugt die Anzeigeeinheit 16 eine Bildschirmanzeige anhand der daran aus der Anzeigensteuereinheit 15 gesendeten Bildschirmdaten. Als Ergebnis werden die Prozessergebnisse auf dem Bildschirm der Anzeigeeinheit 16 angezeigt. Die Sprachausgabeeinheit 19 gibt auch Sprache anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis wird die Benachrichtigung, die zeigt, dass die Operation abgeschlossen worden ist, durch Sprache ausgegeben. Dann wird der Sprachoperationsprozess beendet.
Wenn im oben erwähnten Schritt ST14 festgestellt wird, dass die Anzahl eines oder mehrerer Tastenkandidaten, die detektiert werden, größer als „1“ ist, d.h. die Anzahl von einem oder mehreren Tastenkandidaten mehrzahlig ist, wird ein Bildschirmübergang durchgeführt (Schritt ST19). Spezifischer nimmt die Bildschirm-Übergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm vor, welches derselbe wie derjenige ist, der in einem Fall erzeugt wird, in dem der Tastenkandidat, dessen Erkennungsergebnis maximale Wahrscheinlichkeit hat, ausgewählt wird. Als Ergebnis, wenn der Anwender „YYY“ in demjenigen Zustand ausstößt, in dem die folgenden Tastennamen „XXXXXX“, „YYYABC“, YYYDEF“, und „ZZZZZZ“ auf dem Menü-Bildschirm angezeigt werden, und „YYYABC“ und „YYYDEF“ als Tastenkandidaten detektiert werden, wie beispielsweise in 4 gezeigt, nimmt die Bildschirm-Übergangseinheit einen Übergang zu einem Zustand vor, in dem der Tastenkandidat „YYYABC“ mit maximaler Wahrscheinlichkeit ausgewählt wird. In diesem Fall kann die Bildschirm-Übergangseinheit alternativ auf solche Weise aufgebaut sein, dass sie einen Übergang zu einem Bildschirm vornimmt, welches derselbe ist wie derjenige, der in einem Fall erzeugt wird, in dem zumindest einer aus der Mehrzahl von Tastenkandidaten anstelle nur des Tastenkandidaten mit der maximalen Wahrscheinlichkeit, ausgewählt wird.
Zu diesem Zeitpunkt erzeugt die Antwort-Spracherkennungseinheit 18 ein Tonsignal, um den Anwender zu veranlassen, die Anzahl des einen oder mehreren Tastenkandidaten zu überprüfen, die durch die aus der Tastenkandidaten-Detektionseinheit 13 an sie gesendeten Tastenkandidatendaten gezeigt werden, und sendet das Tonsignal an die Sprachausgabeeinheit 19, und die Sprachausgabeeinheit 19 gibt eine Stimme gemäß dem daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignal aus. Als Ergebnis gibt die Sprachausgabeeinheit 19 eine Nachricht wie etwa beispielsweise „Es gibt zwei Kandidaten“ durch Sprache aus.
Dann wird ein Hervorheben ausgeführt (Schritt ST20). Spezifischer führt die Tastensteuereinheit 15a der Anzeigensteuereinheit 15 einen Prozess des Hervorhebens des Tastenkandidaten mit der maximalen Wahrscheinlichkeit durch Ändern der Farbe oder Helligkeit dieses Tastenkandidaten, Blinkenlassen des Tastenkandidaten oder Ändern der Größe oder Form des Tastenkandidaten durch. Die Tastensteuereinheit 15a kann alternativ auf solche Weise aufgebaut sein, dass sie die anderen Tasten als den Tastenkandidaten mit der maximalen Wahrscheinlichkeit in einer nicht prominenten Form anzeigt, statt den Tastenkandidaten mit der maximalen Wahrscheinlichkeit hervorzuheben. Als Alternative kann die Tastensteuereinheit 15a auf solche Weise konstruiert sein, dass sie alle aus der Mehrzahl von Tastenkandidaten hervorhebt.
Dann wird eine Antwortstimme erzeugt (Schritt ST21). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal anhand von Nachrichtendaten, welche zeigen, dass die Operation noch nicht abgeschlossen ist, und sendet das Tonsignal an die Sprachausgabeeinheit 19.
Dann wird eine Präsentation für den Anwender ausgeführt (Schritt ST18). Spezifischer erzeugt die Anzeigeeinheit 16 einen Anzeige-Bildschirm anhand der aus der Anzeigensteuereinheit 15 an sie gesendeten Bildschirmdaten. Als Ergebnis wird ein Menubildschirm, bei dem der Tastenkandidat mit der maximalen Wahrscheinlichkeit hervorgehoben ist, auf dem Bildschirm der Anzeigeeinheit 16 angezeigt. Die Sprachausgabeeinheit 19 gibt auch eine Sprache gemäß dem aus der Antwort-Spracherzeugungseinheit 18 an sie gesendeten Tonsignal aus. Als Ergebnis wird eine Benachrichtigung, welche anzeigt, dass die Operation noch nicht abgeschlossen ist, durch Sprache ausgegeben. Dann wird der Sprachoperationsprozess beendet.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung unter Bezugnahme auf ein in 5 gezeigtes Flussdiagramm erläutert, wobei auf den Sprachoperationsprozess einschließlich bis zum Abschluss der Operation nachdem eine Additionsoperation zum Zeitpunkt durchgeführt worden ist, wenn die Operation noch nicht abgeschlossen ist, fokussiert wird. Dieser Sprachoperationsprozess kann auf solche Weise konfiguriert sein, dass er sowohl die Sprachoperation unter Verwendung von Spracherkennung als auch die manuelle Operation unter Verwendung des Herunterdrückens einer Taste unterstützt.
Zuerst wird der manuelle Betrieb unter Verwendung des Herunterdrückens einer Taste erläutert. Beim Sprachoperationsprozess gemäß der manuellen Operation wird zuerst eine Täte heruntergedrückt (Schritt ST31). Spezifischer betätigt in einem Zustand, in dem eine Mehrzahl von Tastenkandidaten ausgewählt sind, der Anwender die manuelle Operationseinheit 14, um eine auf dem Bildschirm der Anzeigeeinheit 16 angezeigte Taste herunterzudrücken. Operationstastendaten, die erzeugt werden, wenn der Anwender diese manuelle Operationseinheit 14 bedient, werden an die Anzeigensteuereinheit 15 und die Verschiedene-Funktionsausführungseinheit 17 gesendet.
Dann wird ein Bildschirmübergang durchgeführt (Schritt ST32). Spezifischer nimmt die Bildschirmübergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem für die Funktion entsprechend der Operationstaste, die vom Anwender heruntergedrückt worden ist, vorbereiteten Funktionsbildschirm vor.
Dann wird eine der verschiedenen Funktionen ausgeführt (Schritt ST33). Spezifischer führt die Verschiedene-Funktionsausführungseinheit 17 einen Prozess des Implementierens der der Taste, welche durch die aus der manuellen Operationseinheit 14 an sie gesendeten Operationstastendaten gezeigt ist, zugewiesenen Funktion aus. Wenn der Prozess dann abgeschlossen ist, erzeugt die Verschiedene-Funktionsausführungseinheit Nachrichtendaten, welche ein Benachrichtigen des Abschlusses der Operation anzeigen und sendet die Nachrichtendaten an die Antwort-Spracherzeugungseinheit 18.
Dann wird eine Antwortsprache erzeugt (Schritt ST34). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal anhand der Nachrichtendaten, welche die Benachrichtigung des Abschlusses der Operation zeigen, die daran aus der verschiedenen Funktionsausführungseinheit 17 gesendet werden und sendet das Tonsignal an die Sprachausgabeeinheit 19. Die Sprachausgabeeinheit 19 gibt eine Sprache anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis wird die Benachrichtigung, die zeigt, dass die Operation abgeschlossen ist, durch Sprache ausgegeben. Dann wird der Sprachoperationsprozess beendet.
Wenn Anzeigedaten, welche die Prozessergebnisse zeigen, in Schritt ST33 erzeugt werden, werden die erzeugten Anzeigedaten an die Anzeigensteuereinheit 15 gesendet. Die Anzeigensteuereinheit 15 erzeugt Bildschirmdaten anhand der daran aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Anzeigedaten und sendet die Bildschirmdaten an die Anzeigeeinheit 16. Die Anzeigeeinheit 16 erzeugt eine Bildschirmanzeige anhand der aus der Anzeigensteuereinheit 15 an sie gesendeten Bildschirmdaten. Als Ergebnis werden die Prozessergebnisse auf dem Bildschirm der Anzeigeeinheit 16 angezeigt.
Als Nächstes wird die Sprachoperation unter Verwendung der Spracherkennung erläutert. Beim Sprachoperationsprozess gemäß der Sprachoperation wird zuerst Spracherkennung ausgeführt (Schritt ST41). Der Prozess dieses Schrittes 41 ist derselbe wie derjenige des Schrittes ST12 des in 2 gezeigten Flussdiagramms. Die in diesem Schritt ST41 ausgeführte Spracherkennung kann in einer solchen Weise konfiguriert sein, dass nur der Tastenname eines oder mehrerer Tastenkandidaten, die zum Zeitpunkt der vorherigen Sprachoperation detektiert sind, als ein Bereitschaftswort (ein Wort, das erkannt werden kann) definiert sind. Gemäß dieser Struktur wird die Erkennung eines Tastenkandidaten einfach.
Einer oder mehrere Tastenkandidaten werden dann detektiert (Schritt ST42). Der Prozess dieses Schrittes ST42 ist derselbe wie derjenige des Schrittes ST13 des in 2 gezeigten Flussdiagramms. Dann wird überprüft, ob die Anzahl von einem oder mehreren Tastenkandidaten, die detektiert werden, größer als „1“ ist oder nicht (Schritt ST43). Spezifischer überprüft die Anzeigensteuereinheit 15, ob die Anzahl von einem oder mehreren Tastenkandidaten, die durch die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten größer ist als „1“ oder nicht. Wenn in dem Schritt ST43 festgestellt wird, dass die Anzahl von einem oder mehreren Tastenkandidaten, die detektiert sind, nicht größer als „1“ ist, d.h. die Anzahl von einem oder mehreren detektierten Tastenkandidaten einzahlig ist, rückt die Spracherkennungsvorrichtung die Abfolge zu Schritt ST32 vor und führt dann einen Bildschirmübergang durch, wie oben erwähnt. Spezifischer führt die Bildschirm-Übergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm durch, welches derselbe ist wie der, der in einem Fall erzeugt wird, bei dem der Tastenkandidat heruntergedrückt wird. Dann wird der oben erwähnte Prozess ausgeführt.
Wenn andererseits in Schritt ST43 festgestellt wird, dass die Anzahl eines oder mehr detektierter Tastenkandidaten größer als „1“ ist, d.h. die Anzahl von einem oder mehreren detektierten Tastenkandidaten mehrzahlig ist, wird dann ein Bildschirmübergang ausgeführt (Schritt ST44). Der Prozess dieses Schrittes ST44 ist derselbe wie derjenige des Schrittes ST19 des in 19 gezeigten Flussdiagramms. Dann wird eine Hervorhebung ausgeführt (Schritt ST45). Der Prozess dieses Schrittes ST45 ist derselbe wie derjenige des Schrittes ST20 des in 2 gezeigten Flussdiagramms. Eine Antwortsprache wird dann erzeugt (Schritt ST46). Der Prozess dieses Schrittes ST46 ist derselbe wie derjenige des Schrittes ST21 des in 2 gezeigten Flussdiagramms. Danach führt die Spracherkennungsvorrichtung die Abfolge zu Schritt ST31 oder ST41 zurück und wiederholt die oben erwähnte Verarbeitung.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung unter Bezugnahme auf ein in 6 gezeigtes Flussdiagramm erläutert, wobei auf einen Sprachoperationsprozess des Abschließens der Operation in Reaktion auf die Anwenderäußerung eines anderen Wortes als Tastennamen zum Zeitpunkt, wenn die Operation noch nicht abgeschlossen worden ist, fokussiert wird.
In diesem Sprachoperationsprozess wird zuerst eine Rückkopplung (Feedback) der vorherigen Operation durchgeführt (Schritt ST51). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal, das eine Nachricht der Rückkopplung der vorherigen Operation zeigt und sendet das Tonsignal an die Sprachausgabeeinheit 19. Die Sprachausgabeeinheit 19 gibt eine Stimme anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis wird die folgende Nachricht: „haben Sie „oxox geäußert?“ per Sprache ausgegeben. Der Anwender äußert „Ja“, „Nein“, „Nächstes“, „Vorheriges“ oder dergleichen in Reaktion auf diese Nachricht.
Dann wird Spracherkennung durchgeführt (Schritt ST52). Spezifischer führt die Spracherkennungsverarbeitungseinheit 12 den Spracherkennungsprozess anhand des daran aus der Spracheingabeeinheit gesendeten Tonsignals durch und sendet ein Erkennungsergebnis an die Anzeigensteuereinheit 15.
Dann wird überprüft, ob ein, einem Fall, in dem eine Taste, wie etwa „Ja“, heruntergedrückt worden ist, entsprechendes Wort erkannt worden ist, oder nicht (Schritt ST53). Spezifischer überprüft die Anzeigensteuereinheit 15, ob das aus der Spracherkennungsverarbeitungseinheit 12 gesendete Erkennungsergebnis ein Wort zeigt, das einem Fall entspricht, in dem eine Taste, wie etwa „Ja“, heruntergedrückt wird. Ein dem Fall entsprechendes Wort, bei dem eine Taste, wie etwa „Ja“, heruntergedrückt wird, kann bestätigende Worte mit einer ähnlichen Bedeutung beinhalten, wie etwa „Ja“ und „O.K.“.
Wenn in diesem Schritt ST53 festgestellt wird, dass irgendein Wort, das dem Fall entspricht, in dem ein Taste, wie etwa „Ja“ heruntergedrückt wird, nicht erkannt worden ist, zum Beispiel, wenn festgestellt wird, dass ein negatives Wort, wie etwa „Nein“, „Vorheriges“ oder „Nächstes“ erkannt worden ist, wird der nächste oder vorherige Tastenkandidat hervorgehoben (Schritt ST54). Spezifischer führt die Tastensteuereinheit 15a der Anzeigensteuereinheit 15 einen Prozess des Hervorhebens des nächsten oder vorherigen Tastenkandidaten durch, indem die Farbe oder Helligkeit des Tastenkandidaten verändert wird, der Tastenkandidat blinken gelassen wird oder die Größe oder Form des Tastenkandidaten verändert wird. Danach führt die Spracherkennungsvorrichtung die Abfolge zu Schritt ST51 zurück und wiederholt dann die oben erwähnte Verarbeitung.
Wenn andererseits in Schritt ST53 festgestellt wird, dass ein Wort, das einem Fall entspricht, bei dem eine Taste, wie etwa „Ja“, heruntergedrückt wird, erkannt worden ist, wird dann ein Bildschirmübergang durchgeführt (Schritt ST55). Spezifischer führt die Bildschirmübergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm durch, welcher derselbe ist wie derjenige, der in einem Fall erzeugt wird, in dem der nächste oder vorherige Tastenkandidat heruntergedrückt wird.
Dann wird eine der verschiedenen Funktionen ausgeführt (Schritt ST56). Der Prozess dieses Schrittes ST56 ist derselbe wie derjenige des in 2 gezeigten Schrittes ST16. Eine Antwortstimme wird dann erzeugt (Schritt ST57). Der Prozess dieses Schrittes ST57 ist derselbe wie derjenige des in 2 gezeigten Schrittes ST17. Als Ergebnis, während die Prozessergebnisse auf dem Bildschirm der Anzeigeeinheit 16 angezeigt werden, wird eine Benachrichtigung, die zeigt, dass die Operation abgeschlossen worden ist, durch Sprache ausgegeben. Danach wird der Sprachoperationsprozess beendet.
Wie zuvor erläutert, weil die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung auf solche Weise aufgebaut ist, dass sie eine Taste mit einem Tastennamen, der partiell zum Ergebnis der Spracherkennung passt, als eine Tastenkandidaten detektiert, und wenn eine Mehrzahl von Tastenkandidaten detektiert werden, eine Bildschirmanzeige in einem Zustand erzeugt, in dem zumindest einer aus der Mehrzahl von Tastenkandidaten ausgewählt ist, um so den Anwender in die Lage zu versetzen, einen der Tastenkandidaten herunterzudrücken, kann die Spracherkennungsvorrichtung eine Sprachoperation anhand derselben Prozedur wie derjenigen durchführen, gemäß der die Spracherkennungsvorrichtung eine manuelle Operation durchführt, selbst falls die Anwenderäußerung vage ist. Weiterhin, weil die Spracherkennungsvorrichtung keinen Bildschirm anzeigt, der für Sprachoperationen spezifisch ist, wie etwa einem Bildschirm, der eine Kandidatenliste anzeigt, die oft erzeugt wird, um die Vagheit aufzulösen, ist die Einfachheit der Sprachbedienung nicht beeinträchtigt.
Ausführungsform 2.
7 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt. Diese Spracherkennungsvorrichtung ist auf solche Weise aufgebaut, dass sie eine Operationshistoriensammeleinheit 20 und eine Tastenkandidateneinengeinheit 21 zusätzlich zu den Komponenten der Spracherkennungsvorrichtung gemäß der oben erwähnten Ausführungsform 1 beinhaltet. Die Spracherkennungsvorrichtung ist weiter auf solche Weise modifiziert, dass Informationen, die einen oder mehrere durch eine Tastenkandidaten-Detektionseinheit 13 detektierte Tastenkandidaten zeigen, an die Tastenkandidateneinengeinheit 21 gesendet werden.
Die Operationshistoriensammeleinheit 20 sammelt Operationshistorien (Bedienhistorien bzw. -verläufe) von Tasten, welche durch Sprachbedienungen bedient worden sind. Spezifischer speichert die Operationshistoriensammeleinheit 20 eine Operationshistorie, die eine Entsprechung zwischen den Tastennamen und der Anzahl von Bedienungen für jede aller dieser Tasten ist, und wenn die Informationen, die Tastenkandidaten anzeigen, die aus der Tastenkandidaten-Detektionseinheit 13 gesendet sind, zeigen, dass ein einzelner Tastenkandidat detektiert wird, inkrementiert die Operationshistoriensammeleinheit die Anzahl von Operationen entsprechend dem Tastennamen dieses Tastenkandidaten. Die in dieser Operationshistoriensammeleinheit 20 gespeicherte Operationshistorie wird durch die Tastenkandidateneinengeinheit 21 referenziert.
Wenn die, die aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidaten zeigende Informationen zeigen, dass eine Mehrzahl von Tastenkandidaten detektiert sind, bezieht sich die Tastenkandidateneinengeinheit 21 auf die Operationshistoriensammeleinheit 20, um so den Tastenkandidaten auszuwählen, der aus der Mehrzahl von Tastenkandidaten am häufigsten betätigt worden ist. Der durch diese Tastenkandidateneinengeinheit 21 eingeengte Tastenkandidat wird einer Anzeigensteuereinheit 15, einer Verschiedene-Funktionsausführungseinheit 17 und einer Antwort-Spracherzeugungseinheit 18 als Tastenkandidatendaten mitgeteilt.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung unter Bezugnahme auf ein in 8 gezeigtes Flussdiagramm erläutert, wobei auf einen Sprachbedienprozess einschließlich ab der Erkennung einer Anwendersprache bis zur Präsentation des Erkennungsergebnisses für den Anwender fokussiert wird. Die Schritte, in denen jeweils derselbe Prozess ausgeführt wird wie durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1, die im Flussdiagramm von 2 gezeigt ist, oder ein ähnlicher Prozess ausgeführt wird, werden durch dieselben Bezugszeichen wie jene bezeichnet, die in 2 gezeigt sind und die Erläuterung der Schritte wird vereinfacht.
In diesem Sprachbedienprozess wird zuerst eine Stimme eingegeben (Schritt ST11). Dann wird eine Erkennung dieser Stimme ausgeführt (Schritt ST12). Dann werden ein oder mehrere Tastenkandidaten detektiert (Schritt ST13). Ob die Anzahl von ein oder mehr detektierten Tastenkandidaten größer als „1“ ist, wird dann überprüft (Schritt ST14).
Wenn in diesem Schritt ST14 festgestellt wird, dass die Anzahl von detektierten einem oder mehreren Tastenkandidaten nicht größer als „1“ ist, d.h. die Anzahl der detektierten ein oder mehreren Tastenkandidaten einzahlig ist, wird eine Bedienungshistorie des Tastenkandidaten gespeichert (Schritt ST61). Spezifischer inkrementiert die Operationshistoriensammeleinheit 20 die Anzahl von Operationen entsprechend dem Tastennamen des Tastenkandidaten, der durch die Informationen gezeigt ist, die den Tastenkandidaten zeigen, der daran aus der Tastenkandidaten-Detektionseinheit 13 gesendet ist.
Dann wird ein Bildschirmübergang ausgeführt (Schritt ST15). Dann wird eine von verschiedenen Funktionen ausgeführt (Schritt ST16). Dann wird eine Antwortsprache erzeugt (Schritt ST17). Dann wird eine Präsentation für den Anwender ausgeführt (Schritt ST18). Danach wird der Sprachbedienprozess beendet.
Wenn andererseits im oben erwähnten Schritt ST14 festgestellt wird, dass die Anzahl von einem oder mehreren detektierten Tastenkandidaten größer als „1“ ist, d.h. die Anzahl der ein oder mehr detektierten Tastenkandidaten mehrzahlig ist, werden dann die Tastenkandidaten eingeengt (Schritt ST62). Spezifischer bezieht sich die Tastenkandidateneinengeinheit 21 auf die Operationshistoriensammeleinheit 20 und engt die Mehrzahl von Tastenkandidaten ein, die durch die Informationen gezeigt sind, welche die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidaten zeigen, indem der Tastenkandidat ausgewählt wird, der aus der Mehrzahl von Tastenkandidaten am häufigsten bedient worden ist. Informationen, die den durch diese Tastenkandidateneinengeinheit 21 eingeengten Tastenkandidaten zeigen, werden an die Anzeigensteuereinheit 15, die Verschiedene-Funktionsausführungseinheit 17 und die Antwort-Spracherzeugungseinheit 18 als Tastenkandidatendaten gesendet.
Dann wird ein Bildschirmübergang ausgeführt (Schritt ST19). Dann wird ein Hervorheben ausgeführt (Schritt ST20). Dann wird eine Antwortsprache erzeugt (Schritt ST21). Dann wird für den Anwender eine Präsentation ausgeführt (Schritt ST18). Danach wird der Sprachbedienprozess beendet.
Im oben erwähnten, in 8 gezeigten Flussdiagramm ist der Fall erläutert, bei dem das Einengen von Tastenkandidaten auf den Sprachbedienprozess angewendet wird, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 ausgeführt wird, der im Flussdiagramm von 2 gezeigt ist. Das Einengen von Tastenkandidaten kann auch auf den durch die Spracherkennungsvorrichtung gemäß der im Flussdiagramm von 5 gezeigten Ausführungsform 1 ausgeführten Sprachbedienprozess angewendet werden. In diesem Fall wird der Prozess des Speicherns der Bedienungshistorie der Tastenkandidaten, der in Schritt ST61 gezeigt ist, unmittelbar vor Schritt ST22 des in 5 gezeigten Flussdiagramms ausgeführt und der in Schritt ST62 gezeigte Tastenkandidateneinengprozess wird unmittelbar vor Schritt ST44 ausgeführt. Ähnlich kann das Einengen von Tastenkandidaten auch auf den durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1, gezeigt im Flussdiagramm von 6, ausgeführten Sprachbedienprozess angewendet werden. In diesem Fall wird der Prozess des Speicherns der Operationshistorie des Tastenkandidaten, der in Schritt ST61 gezeigt ist, unmittelbar vor Schritt ST55 des in 6 gezeigten Flussdiagramms ausgeführt.
Wie oben erläutert, weil die Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung als ein Tastenkandidat eine Taste auswählt, die eine hohe Wahrscheinlichkeit dafür aufweist, durch den Anwender bedient zu werden, um die Taste hervorzuheben, kann die Anzahl von Bedienungen, die der Anwender vornehmen wird, bis er/sie eine beabsichtigte Bedienung ausführt, reduziert werden.
Die Spracherkennungsvorrichtung gemäß der oben erwähnten Ausführungsform 2 kann wie folgt modifiziert werden. Spezifischer sendet die Anzeigensteuereinheit 15 Tastenanordnungsinformationen, die eine Tastenanordnung zeigen (wie die Tasten auf dem Bildschirm angeordnet sind), die darin vorab gespeichert sind, an die Tastenkandidateneinengeinheit 21.
Die Tastenkandidateneinengeinheit 21 bezieht sich auf die Tastenanordnungsinformationen, die daran aus der Anzeigensteuereinheit 15 gesendet werden und, wenn festgestellt wird, dass die daran aus der Tastenkandidaten-Detektionseinheit 13 mitgeteilten Tastenkandidaten kontinuierlich angeordnet sind, wählt sie den oberen der Tastenkandidaten aus. Der durch diese Tastenkandidateneinengeinheit 21 ausgewählte Tastenkandidat wird der Anzeigensteuereinheit 15, der Verschiedene-Funktionsausführungseinheit 17 und der Antwort-Spracherzeugungseinheit 18 als Tastenkandidatendaten mitgeteilt.
Weil gemäß dieser Struktur der obere Tastenkandidaten ausgewählt und hervorgehoben wird, wenn die Tastenkandidaten kontinuierlich angeordnet sind, kann der Anwender leicht die nächste Bedienung verstehen, die er oder sie durchführen sollte.
Industrielle Anwendbarkeit
Wie oben erwähnt, um in der Lage zu sein, sowohl eine manuelle Bedienung als auch eine Sprachbedienung gemäß derselben Prozedur durchzuführen, ist die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung auf solche Weise aufgebaut, dass sie beinhaltet: eine Spracheingabeeinheit zum Eingeben einer Sprache eines geäußerten Tastennamens, um die Sprache in ein elektrisches Signal zu wandeln; eine Spracherkennungsverarbeitungseinheit zum Durchführen eines Spracherkennungsprozesses anhand eines daran gesendeten Tonsignals als das elektrische Signal aus der Spracheingabeeinheit; eine Tastenkandidaten-Detektionseinheit zum Detektieren, als einen Tastenkandidaten, einer Taste mit einem Tastennamen, der partiell zu einem Spracherkennungsergebnis passt, das durch die Spracherkennungsverarbeitungseinheit erfasst ist; eine Anzeigensteuereinheit zum Erzeugen, wenn eine Mehrzahl von Kandidatentasten durch die Tastenkandidaten-Detektionseinheit detektiert werden, eines Bildschirms, der einen Zustand zeigt, in dem zumindest einer der Mehrzahl von Tastenkandidaten ausgewählt ist; und eine Anzeigeneinheit zum Anzeigen des durch die Anzeigensteuereinheit erzeugten Bildschirms, ist die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung zur Verwendung als eine Spracherkennungsvorrichtung geeignet, die Ausrüstung, wie etwa eine Navigationsvorrichtung, durch Sprache betreibt, und so weiter.

Claims

Spracherkennungsvorrichtung, umfassend: eine Spracheingabeeinheit (11) zum Eingeben einer Sprache eines geäußerten Tastennamens, um die Sprache in ein elektrisches Signal zu wandeln; eine Spracherkennungsverarbeitungseinheit (12) zum Durchführen eines Spracherkennungsprozesses anhand eines daran gesendeten Tonsignals als das elektrische Signal aus der Spracheingabeeinheit (11), um ein Spracherkennungsergebnis zu erfassen; eine Tastenkandidaten-Detektionseinheit (13) zum Vergleichen des durch die Spracherkennungsverarbeitungseinheit (12) erfassten Spracherkennungsergebnisses mit vorab für alle, auf allen Anzeigebildschirmen existierenden Tasten vorbereiteten Tastennamen, um so als einen Tastenkandidaten eine Taste mit einem Tastennamen zu detektieren, der partiell zu dem Spracherkennungsergebnis passt; eine Anzeigensteuereinheit (15) zum Erzeugen, wenn eine Mehrzahl von Kandidatentasten, die partiell mit dem Spracherkennungsergebnis übereinstimmen, durch die Tastenkandidaten-Detektionseinheit (13) detektiert werden, eines Bildschirms, der einen Zustand zeigt, in dem zumindest einer der Mehrzahl von Tastenkandidaten ausgewählt ist; und eine Anzeigeneinheit (16) zum Anzeigen des durch die Anzeigensteuereinheit (15) erzeugten Bildschirms.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Bildschirm-Übergangseinheit (15b) zum Durchführen eines Übergangs zu einem Bildschirm, auf dem der Tastenkandidat vorkommt, beinhaltet, wenn der durch die Tastenkandidaten-Detektionseinheit (13) detektierte Tastenkandidat nicht auf dem angezeigt werdenden Bildschirm existiert, und die Anzeigensteuereinheit (15) den Bildschirm erzeugt, zu welchem der vorherige Bildschirm durch die Bildschirm-Übergangseinheit (15b) überführt wird, der einen Zustand zeigt, in dem der Tastenkandidat auf dem Bildschirm ausgewählt ist.
Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Anzeigensteuereinheit (15) eine Tastensteuereinheit (15a) zum Ändern einer Farbe oder Helligkeit des auf dem Bildschirm ausgewählten Tastenkandidaten oder Blinken lassen des ausgewählten Tastenkandidaten beinhaltet, um somit den ausgewählten Tastenkandidaten hervorzuheben.
Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Anzeigensteuereinheit (15) eine Tastensteuereinheit (15a) zum Ändern einer Größe oder Form des auf dem Bildschirm ausgewählten Tastenkandidaten beinhaltet, um so den ausgewählten Tastenkandidaten hervorzuheben.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Antwort-Spracherzeugungseinheit (18) zum Erzeugen eines Tonsignals beinhaltet, das eine Lesung des Tastennamens des durch die Tastenkandidaten-Detektionseinheit detektierten Tastenkandidaten zeigt, und eine Sprachausgabeeinheit (19) zum Ausgeben des Tastennamens des Tastenkandidaten per Sprache anhand des durch die Antwort-Spracherzeugungseinheit erzeugten Tonsignals.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Tastenkandidateneinengeinheit (21) zum Referenzieren auf Tastenanordnungsinformationen beinhaltet, die Anordnungen von Tasten zeigen, welche in der Anzeigensteuereinheit vorab gespeichert sind, und, wenn bestimmt wird, dass eine Mehrzahl von durch die Tastenkandidaten-Detektionseinheit detektierten Tastenkandidaten kontinuierlich angeordnet sind, zum Einengen der Mehrzahl von Tastenkandidaten auf einen oberen Tastenkandidaten, und die Anzeigensteuereinheit (15) einen Bildschirm erzeugt, der einen Zustand zeigt, in dem der durch die Tastenkandidateneinengeinheit eingeengte Tastenkandidat ausgewählt ist.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Operationshistoriensammeleinheit (20) zum Sammeln von Operationshistorien, und eine Tastenkandidateneinengeinheit (21) zum Einengen einer Mehrzahl von durch die Tastenkandidaten-Detektionseinheit detektierten Tastenkandidaten auf einen Tastenkandidaten anhand der Operationshistorien, die durch die Operationshistoriensammeleinheit gesammelt sind, beinhaltet, und die Anzeigensteuereinheit (15) einen Bildschirm erzeugt, der einen Zustand zeigt, in dem der durch die Tastenkandidateneinengeinheit eingeengte Tastenkandidat ausgewählt ist.