DE112016006496T5

DE112016006496T5 - Stimmerkennungsvorrichtung

Info

Publication number: DE112016006496T5
Application number: DE112016006496.9T
Authority: DE
Inventors: Ryosuke Torama; Takumi Takei
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2018-11-15
Also published as: US20190051306A1; CN108701456A; WO2017145373A1; JPWO2017145373A1; US10446155B2

Abstract

Offenbart ist eine Stimmerkennungsvorrichtung (10) mit: einer Stimmerkennungseinheit (11), um eine von einem Benutzer geäußerte Stimme zu erkennen; einer Funktionsausführungseinheit (12), um eine Funktion in Übereinstimmung mit einem von der Stimmerkennungseinheit (11) bereitgestellten Erkennungsergebnis auszuführen; einer Leistungsgrad Berechnungseinheit (13), um einen Grad, zu dem die Funktionsausführungseinheit (12) die mit dem Erkennungsergebnis übereinstimmende Funktion ausführen kann, berechnet; und einer Steuereinheit (15) um, wenn der von der Leistungsgradberechnungseinheit (13) berechnete Grad gleich oder größer als eine vorbestimmte erste Referenz ist, die Funktionsausführungseinheit (12) zu veranlassen die mit dem Erkennungsergebnis übereinstimmende Funktion auszuführen.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Stimmerkennungsvorrichtung, die eine Äußerung eines Benutzers erkennt.
In Patent-Literatur 1 ist eine
Betätigungssteuervorrichtung beschrieben, die eine Stimme zu jeder Zeit erkennt und eine Schnellverweisschaltfläche, zum Ausführen einer Funktion entsprechend zu einem Erkennungsergebnis, erzeugt und die Schnellverweisschaltfläche anzeigt.
ZITATLISTE
PATENT-LITERATUR
Patent-Literatur 1: Japanisches Ungeprüfte Patentanmeldung Nr. 2008-14818
ZUSAMMENFASSUNG DER ERFINDUNG
TECHNISCHES PROBLEM
Die Betätigungssteuervorrichtung nach der oben beschriebenen Patent-Literatur 1 ist konfiguriert, um die Funktion entsprechend zu dem Erkennungsergebnis auszuführen, wenn eine Betätigung des Benutzers der Schnellverweisschaltfläche erhalten wird. Somit kann jede Funktion davon abgehalten werden, frei gegen die Absicht des Benutzers ausgeführt zu werden.
Jedoch ist ein Problem, dass sogar wenn der Benutzer mit der Absicht der Ausführung einer Funktion sich äußert, kann die Äußerung die Funktion nicht veranlassen, sofort ausgeführt zu werden und eine Betätigung auf einer dementsprechenden Schnellverweisschaltfläche ist benötigt. Somit wird der Benutzer sich verärgert fühlen.
Die vorliegende Erfindung ist gemacht, um das oben genannte Problem zu lösen und es ist demnach ein Ziel der vorliegenden Erfindung eine Stimmerkennungsvorrichtung bereitzustellen, die eine Betätigung eines Benutzers, wenn eine Betätigungsabsicht des Benutzers klar sind, erleichtert und die eine Fehlfunktion vom Auftreten hindern, wenn eine Betätigungsabsicht des Benutzers nicht klar ist.
LÖSUNG DES PROBLEMS
Eine Stimmerkennungsvorrichtung nach der vorliegenden Erfindung umfasst: eine Stimmerkennungseinheit, zur Erkennung einer vom Benutzer geäußerten Stimme; eine Funktionsausführungseinheit, zur Ausführung einer Funktion, entsprechend zu einem von der Stimmerkennungseinheit bereitgestellten Erkennungsergebnis; eine Leistungsgradberechnungseinheit, zur Berechnung eines Grades, zu dem die Funktionsausführungseinheit die dem Erkennungsergebnis entsprechende Funktion ausführen kann; und eine Steuereinheit, zum Veranlassen der Funktionsausführungseinheit, die dem Erkennungsergebnis entsprechende Funktion auszuführen, wenn der von der Leistungsgradberechnungseinheit berechnete Grad gleich oder größer als eine vorbestimmte erste Referenz ist.
VORTEILHAFTE EFFEKTE DER ERFINDUNG
Nach der vorliegenden Erfindung ist sie konfiguriert, um zu bestimmen, wenn der Grad, zu dem die dem Erkennungsergebnis entsprechende Funktion ausgeführt werden kann, gleich oder größer ist als die erste Referenz, dass die Betätigungsabsicht des Benutzers klar ist, dadurch die Funktion auszuführen und somit kann der Benutzer die veranlassen, die Funktion auszuführen, indem eine Äußerung einmal gegeben wird. Im Gegensatz, wenn der Grad, zu dem die dem Erkennungsergebnis entsprechende Funktion ausgeführt werden kann, weniger als die erste Referenz ist, wird bestimmt, dass eine Betätigungsabsicht des Benutzers nicht klar ist und es ist somit möglich eine Nutzung zur Vermeidung einer Fehlfunktion zu machen.
Figurenliste

1 ist ein Blockdiagram, das ein Beispiel der Konfiguration einer Stimmerkennungsvorrichtung nach Ausführungsform 1 der vorliegenden Erfindung zeigt;
2 ist ein Diagramm, das eine Übereinstimmung zwischen Graden der Leistung und Betätigungen in Ausführungsform 1 zeigt;
3 ist ein Flussdiagramm, zur Erklärung der Betätigung der Stimmerkennungsvorrichtung nach Ausführungsform 1;
4 ist ein Blockdiagramm, das ein Beispiel der Konfiguration einer Stimmerkennungsvorrichtung nach Ausführungsform 2 der vorliegenden Erfindung zeigt;
5 ist ein Diagramm, das eine Übereinstimmung zwischen Graden der Leistung und Betätigungen in Ausführungsform 2 zeigt;
6 ist ein Flussdiagramm, zur Erklärung der Betätigung der Stimmerkennungsvorrichtung nach Ausführungsform 2;
7 ist ein Flussdiagram, zur Erklärung eines anderen Beispiels der Betätigung der Stimmerkennungsvorrichtung nach Ausführungsform 2;
8 ist ein Blockdiagramm, das eine Variante der Stimmerkennungsvorrichtung nach Ausführungsform 2 zeigt; und
9 ist ein Diagramm der Hardwarekonfiguration der Stimmerkennungsvorrichtung nach jeder der Ausführungsformen der vorliegenden Erfindung.

BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
Hiernach, um diese Erfindung im höheren Detail zu erklären, werden Ausführungsformen der vorliegenden Erfindung mit Referenz zu den beiliegenden Zeichnungen beschrieben. Ausführungsform 1.
1 ist ein Blockdiagramm, dass ein Beispiel der Konfiguration einer Stimmerkennungsvorrichtung 10 nach Ausführungsform 1 der vorliegenden Erfindung zeigt. Die in 1 gezeigte Stimmerkennungsvorrichtung 10 umfasst eine Stimmerkennungseinheit 11, die eine vom Benutzer geäußerte Stimme erkennt, eine Funktionsausführungseinheit 12, die eine Funktion ausführt, entsprechend zu einem von der Stimmerkennungseinheit 11 bereitgestellten Erkennungsergebnis, eine Leistungsgradberechnungseinheit 13, die einen Grad berechnet, zu dem die Funktionsausführungseinheit 12 die dem Erkennungsergebnis entsprechende Funktion ausführen kann, eine Leistungsgraddefinitionsspeichereinheit 14, die eine zur Berechnung des Grades genutzte Leistungsgraddefinition speichert, eine Steuereinheit 15, die die Funktionsausführungseinheit 12 veranlasst, die dem Erkennungsergebnis entsprechende Funktion auszuführen, wenn der von der Leistungsgradberechnungseinheit 13 berechnete Grad gleich oder größer ist als eine vorbestimmte erste Referenz und eine Anfragesteuereinheit 16, die eine Anfrage zu dem Benutzer macht.
Des Weiteren sind ein Mikrofon 1, ein Lautsprecher 2, eine Anzeige 3 und ein Tastfeld 4 mit der Stimmerkennungsvorrichtung 10 verbunden. Hierbei, obwohl sowohl eine Stimmeingabe mittels des Mikrofons 1 als auch des auf der Anzeige 3 bereitgestellten Tastfeldes 4 als eine Eingabevorrichtung illustriert sind, die eine Betätigung des Benutzers empfängt, ist sie nicht auf solch einen Fall beschränkt und Hardwaretaster oder ähnliches können alternativ genutzt werden.
Hiernach wird jede Ausführungsform der vorliegenden Erfindung mit einem Beispiel, in dem die Stimmerkennungsvorrichtung 10 in einem Fahrzeug montiert ist, beschrieben. Es wird angenommen, dass die Funktionsausführungseinheit 12 eine Funktion der fahrzeugmontierten Ausrüstung, wie Fahrzeugnavigation, Fahrzeugaudio oder Fahrzeugklimaanlage, ausführt.
Das Mikrofon 1 nimmt eine von einem Benutzer geäußerte Stimme auf und gibt Stimmdaten an die Stimmerkennungseinheit 11 aus.
Die Stimmerkennungseinheit 11 empfängt die Stimmdaten von dem Mikrofon 1 und detektiert einen Stimmabschnitt, die einem Inhalt entspricht, der der Benutzer geäußert hat. Hiernach ist ein Stimmabschnitt, die einem Inhalt entspricht, der der Benutzer geäußert hat, als ein „Äußerungsabschnitt“ bezeichnet. Die Stimmerkennungseinheit 11 extrahiert dann eine Merkmalqualität der Stimmdaten in dem Äußerungsabschnitt, führt eine Erkennungsverarbeitung durch ein nicht illustriertes Stimmwörterbuch oder ähnlichem, auf der Basis der Merkmalqualität aus und gibt eine Erkennungsergebnis an die Steuereinheit 15 aus. Hierbei kann, als ein Stimmerkennungsverfahren, Worterkennung basierend auf Grammatik, Schlüsselworterkennung, Groß-Vokabular-Fortlaufende-Spracherkennung oder jedes andere gut bekannte Verfahren genutzt werden.
Des Weiteren kann die Stimmerkennungseinheit 11 einen Absichtsschätzungsprozess unter Nutzung des Erkennungsergebnisses durchführen. In diesem Fall schätzt beispielsweise die Stimmerkennungseinheit 11 eine Absicht des Benutzers mit sowohl einem von der Groß-Vokabular-Fortlaufende-Spracherkennung erhaltenen Erkennungsergebnis, als auch einem Modell zur Absichtsschätzung und gibt die geschätzte Absicht dadurch als ein Erkennungsergebnis aus. Wenn der Benutzer „ich will zu dem Stadtbüro“ äußert, ist das Schätzungsergebnis „setze das Stadtbüro als das Ziel“. Weil ein gut bekanntes Verfahren als ein Absichtsschätzungsverfahren genutzt werden kann, wird eine auf Beschreibung des Verfahrens hiernach verzichtet.
In einer in einer Fahrzeugnavigation oder ähnliches montierten Stimmerkennungsvorrichtung ist es typisch, dass ein Benutzer klar einen Start einer Äußerung zu der Fahrzeugnavigation ausdrückt. Somit wird eine Schaltfläche, zum Bereitstellen eines Befehls eine Stimmerkennung zu starten, auf einer Anzeige angezeigt, die mit einem Tastfeld ausgestattet ist oder dem Lenkrad bereitgestellt ist. Hiernach ist die Schaltfläche oder ähnliches, zur Bereitstellung eines Befehls eine Stimmerkennung zu starten, als eine „Stimmerkennungsstartbefehlseinheit“ beschrieben. Die Stimmerkennungsvorrichtung erkennt dann eine Stimme, die ein Benutzer äußert, nach Betätigung der Stimmerkennungsstartbefehlseinheit.
Die Stimmerkennungseinheit 11 kann nach jeder Ausführungsform der vorliegenden Erfindung, nachdem solch ein Befehl zum Starten einer Stimmerkennung wie oben von einem Benutzer bereitgestellt ist, einen Äußerungsabschnitt von Stimmdaten des Mikrofons 1 detektieren und eine Erkennungsverarbeitung ausführen. Alternativ kann die Stimmerkennungseinheit 11, während eines vorbestimmten Stimmerfassungszeitraums, einen Äußerungsabschnitt von Stimmdaten des Mikrofons 1 detektieren und eine Erkennungsverarbeitung ausführen, obwohl kein Befehl zum Starten einer Stimmerkennung bereitgestellt ist. Es wird angenommen, dass in dem vorbestimmten Stimmerfassungszeitraum, ein Zeitraum, der sich beispielsweise von einer Zeit, wenn die Stimmerkennungsvorrichtung 10 anfängt oder erneut anfängt, bis zu einer Zeit, wenn die Stimmerkennungsvorrichtung beendet oder anhält, erstreckt, ein Zeitraum, währen dem die Stimmerkennungseinheit 11 arbeitet, oder ein Ähnlicher, umfasst ist.
Die Funktionsausführungseinheit 12 führt eine Funktion aus, die die Funktionsausführungseinheit von der Steuereinheit 15 angeordnet ist, auszuführen. Es wird angenommen, dass eine Funktion, die die Funktionsausführungseinheit 12 ausführen kann, beispielsweise eine Funktion verbunden mit der Fahrzeugnavigation, dem Fahrzeugaudio oder der Fahrzeugklimaanlage, die oben erwähnt ist, ist.
Die Leistungsgradberechnungseinheit 13 empfängt das von der Stimmerkennungseinheit 11 bereitgestellte Erkennungsergebnis von der Steuereinheit 15. Die Leistungsgradberechnungseinheit 13 berechnet dann den Grad, zu dem eine dem Erkennungsergebnis entsprechende Funktion ausgeführt werden kann, durch Referenz zu der Leistungsgraddefinitionsspeichereinheit 14 und gibt ein Ergebnis der Berechnung des Grads der Leistung an die Steuereinheit 15 aus. Hiernach kann der Grad, zu dem die dem Erkennungsergebnis entsprechende Funktion ausgeführt werden kann, als der „Grad der Leistung“ bezeichnet werden.
Der Grad der Leistung zeigt in Stufen an, ob das von der Stimmerkennungseinheit 11 bereitgestellte Erkennungsergebnis in Übereinstimmung mit einer Funktion gebracht werden kann, die die Funktionsausführungseinheit 12 ausführen kann, oder nicht und ob Information, die für die Funktionsausführungseinheit 12 benötigt ist, um die Funktion auszuführen, ausreichend ist, oder nicht. Die benötigte Information ist ein Objekt, das später erwähnt wird und ist beispielsweise Information zur Spezifizierung eines Musikstücks, wie ein „Musiktitel“, ein „Künstlername“ oder ein „Albumname“, in einer Musikstücksuchfunktion des Fahrzeugaudio.
Die Leistungsgraddefinitionsspeichereinheit 14 speichert eine Leistungsgraddefinition, die die Leistungsgradberechnungseinheit 13 für die Berechnung des Grads der Leistung nutzt. Hierbei ist ein Beispiel einer Übereinstimmung zwischen dem Grad der Leistung einer Funktion und Betätigungen, die die Stimmerkennungsvorrichtung 10 ausführt, in 2 gezeigt.
In einem Beispiel in 2 der „Leistungsgraddefinition“ sind Werte des Grads der Leistung, die jeweils mit sowohl der Anwesenheit oder Abwesenheit eines Verbs, das ein eine Betätigung einer Funktion zeigendes Wort ist, und die Anwesenheit oder Abwesenheit eines Objekts, das ein einen Zweck der Funktion zeigendes Wort ist, im Voraus in der Leistungsgraddefinitionsspeichereinheit 14 definiert. Es wird angenommen, dass je höher ein Wert des Grads der Leistung ist, umso höher ist der Grad, zu dem die Funktionsausführungseinheit 12 die Funktion ausführen kann. Jede in 2 gezeigte „Betätigung“ wird später erwähnt.
Die Leistungsgradberechnungseinheit 13 bezieht sich auf die in 2 gezeigte Leistungsgraddefinition und berechnet den Grad der Leistung in Übereinstimmung zu der Anwesenheit oder Abwesenheit eines Verbs und der Anwesenheit oder Abwesenheit eines Objekts in dem Erkennungsergebnis. Zum Beispiel, wenn ein Verb „will gehen“ und ein Objekt „Stadtbüro“ existieren, wie wenn das Erkennungsergebnis „ich will zu dem Stadtbüro gehen“ ist, berechnet die Leistungsgradberechnungseinheit den Grad der Leistung als „2“.
Die Leistungsgradberechnungseinheit 13 kann einfach nur ein Verb oder Objekt extrahieren oder die Bedeutung der Abhängigkeit zwischen einem Verb und einem Objekt in Berücksichtigung nehmen. Zum Beispiel, wenn die Kombination von einem Verb „will essen“ und einem Objekt „Stadtbüro“ keinen Sinn ergibt, wie wenn das Erkennungsergebnis „ich will das Stadtbüro essen“ ist, extrahiert die Leistungsgradberechnungseinheit nur das Verb und berechnet den Grad der Leistung als „1“.
Das oben genannte Verfahren ist nur ein Beispiel und, als ein anderes Berechnungsverfahren, kann der Grad der Leistung durch Nutzung einer von einer Technik zur Schätzung einer Bedeutung eines Dokuments bereitgestellten Wahrscheinlichkeit berechnet werden.
Des Weiteren, kann die Leistungsgraddefinitionsspeichereinheit 14 eine Definition der Übereinstimmung zwischen Schlüsselwörtern und Werden der Graden der Leistung speichern, anstelle der in 2 gezeigten Leistungsgraddefinition. Demnach wird ein Grad der Leistung von „1“ in Übereinstimmung mit jedem verbalen Schlüssel, wie „will gehen“, gebracht, wird ein Grad der Leistung von „1“ in Übereinstimmung mit jedem objektiven Schlüssel, wie „Stadtbüro“, gebracht und wird ein Grad der Leistung von „2“ in Übereinstimmung mit jedem Schlüsselwort, das sowohl ein Verb als auch ein Objekt umfasst, wie „ich will zum Stadtbüro gehen“, gebracht.
Die Steuereinheit 15 empfängt das Erkennungsergebnis von der Stimmerkennungseinheit 11 und gibt das Erkennungsergebnis an die Leistungskraft Berechnungseinheit 13 aus und veranlasst, dass der Grad der Leistung berechnet wird.
Die Steuereinheit 15 empfängt ein Ergebnis der Berechnung des Grads der Leistung von der Leistungskraft Berechnungseinheit 13, bestimmt die nächste Betätigung in Übereinstimmung mit dem Berechnungsergebnis und stellt einen Befehl zur Ausführung der Betätigung für die Funktionsausführungseinheit 12 oder die Anfragesteuereinheit 16 bereit. Es wird angenommen, dass, um die den Grad der Leistung entsprechende Betätigung zu bestimmen, eine erste Referenz und eine zweite Referenz, die weniger als die erste Referenz ist, für die Steuereinheit 15 vorbestimmt sind.
Die erste Referenz wird benutzt, um festzustellen, ob es ausreichend Information gibt, die für die Funktionsausführungseinheit 12 zur Ausführung der Funktion benötigt werden und beispielsweise die erste Referenz ein Grad der Leistung von „2“ in dem Beispiel von 2 ist, oder nicht. In der Stimmerkennungsvorrichtung 10 nach Ausführungsform 1 wird festgestellt, wenn der Grad der Leistung gleich oder größer ist als die erste Referenz, dass die Absicht eines Benutzers der Betätigung von fahrzeugmontierter Ausrüstung klar ist, wobei, wenn der Grad der Leistung weniger als die erste Referenz ist, wird festgestellt, dass die Absicht eines Benutzers der Betätigung von fahrzeugmontierter Ausrüstung nicht klar ist.
Die zweite Referenz wird benutzt, um festzustellen, ob es keine Information gibt, die benötigt wird, um eine Funktion auszuführen, weil das von der Stimmerkennungseinheit 11 bereitgestellte Erkennungsergebnis nicht in Übereinstimmung mit der Funktion, die die Funktionsausübung Einheit 12 ausführen kann, gebracht werden kann und beispielsweise zweite Referenz ist der Grad einer Leistung von „0“ in dem Beispiel von 2.
Wenn der Grad einer Leistung gleich oder größer ist als die erste Referenz von „2“, gibt die Steuereinheit 15 einen Befehl, um zu veranlassen, dass die Funktion in Übereinstimmung mit dem Erkennungsergebnis ausgeführt wird, an die Funktionsausführungseinheit 12 aus. Es wird angenommen, dass eine Übereinstimmung zwischen Verben und Funktionen im Vorhinein in der Steuereinheit 15 definiert ist. Zum Beispiel gibt die Steuereinheit 15 einen Befehl, der, als die die dem Erkennungsergebnis „ich will zu dem Stadtbüro gehen“ entsprechende Funktion, eine Einstellung des Stadtbüros als Ziel anzeigt, an die Funktionsausführungseinheit 12 aus.
Wenn der Grad der Leistung weniger als die erste Referenz von „2“ ist, erlaubt die Steuereinheit 15 nicht, dass die dem Erkennungsergebnis entsprechende Funktion sofort ausgeführt werden soll.
Zum Beispiel, wenn der Grad der Leistung der zweiten Referenz von „0“ ist und weniger als die erste Referenz von „2“ ist, weist die Steuereinheit 15 die Anfragesteuereinheit 16 an, Funktionskandidaten, die dem Erkennungsergebnis des Benutzers entsprechen, zu präsentieren und macht eine Anfrage über welche Funktion ausgeführt werden soll. Jeder dem Erkennungsergebnis entsprechende Funktionskandidat ist beispielsweise eine Funktion, die in Übereinstimmung mit einem Verb gebracht ist, das in dem Erkennungsergebnis existiert oder eine Funktion, die ein Objekt benutzt, das in dem Erkennungsergebnis als ein Parameter existiert. Zum Beispiel, wenn es Erkennungsergebnis nur ein Verb „erhöhen“ ist, definiert die Steuereinheit 15 eine Kartenvergrößerungsfunktion für eine Fahrzeugnavigation, eine Tonlautstärkeänderungsfunktion für ein Fahrzeugaudio, eine Temperaturänderungsfunktion für eine Fahrzeugklimaanlage und so weiter, die mit diesem Verb als Kandidat übereinstimmen. Die Steuereinheit 15 erhält dann ein Ergebnis der Anfrage von der Anfragesteuereinheit 16 oder ähnlichem und gibt einen Befehl, um zu veranlassen, dass die von dem Benutzer ausgewählter Funktion ausgeführt wird, an die Funktionsausübungseinheit 12 aus.
Des Weiteren, zum Beispiel, wenn der Grad der Leistung gleich oder weniger als die zweite Referenz von „0“ ist, führt die Steuereinheit 15 weder die dem Erkennungsergebnis entsprechende Funktion aus noch präsentiert sie Funktionskandidaten.
Die Anfragesteuereinheit 16 empfängt den Befehl, die Funktionskandidaten zu präsentieren und macht eine Anfrage, von der Steuereinheit 15. Die Anfragesteuereinheit 16 kann die Funktionskandidaten über den Lautsprecher 2 als Stimme ausgeben, die Kandidaten auf der Anzeige 3 anzeigen oder die Kandidaten über den Lautsprecher 2 als Stimme ausgeben während die Kandidaten auf der Anzeige 3 angezeigt werden. Die Anfragesteuereinheit 16 erhält dann Information, die der Benutzer eingegeben hat, durch Betätigung der Eingabevorrichtung, wie das Tastfeld 4, und gibt die Funktion, die der Benutzer von den Kandidaten ausgewählt hat, an die Steuereinheit 15 als ein Anfrageergebnis aus. Die Betätigung eines Benutzers kann mittels der Eingabevorrichtung, wie dem Tastfeld 4, empfangen werden oder kann mittels Stimmeingabe, über das Mikrofon 1 und der Stimmerkennungseinheit 11, empfangen werden.
Als nächstes wird die Betätigung der Stimmerkennungsvorrichtung 10 nach Ausführungsform eins mittels eines Flussdiagramms von 3 erklärt. Die Stimmerkennungsvorrichtung 10 führt die in dem Flussdiagramm von 3 gezeigter Verarbeitung durch, während dem oben genannten vorbestimmten Stimmerfassungszeitraum.
In Schritt ST1 erhält die Stimmerkennungseinheit 11 Stimmdaten von dem Mikrofon 1, detektiert einen Äußerungsabschnitt und führt Erkennungsverarbeitung durch und gibt ein Erkennungsergebnis an die Steuereinheit 15 aus. Die Steuereinheit 15 empfängt das Erkennungsergebnis von der Stimmerkennungseinheit 11 und gibt das Erkennungsergebnis an die Leistungsradberechnungseinheit 13 aus.
In Schritt ST2 empfängt die Leistungsgradberechnungseinheit 13 das Erkennungsergebnis von der Steuereinheit 15 und berechnet den Grad der Leistung einer Funktion, die mit dem Erkennungsergebnis durch Referenz zu der Leistungsgraddefinitionsspeichereinheit 14 übereinstimmt. Die Leistungsradberechnungseinheit 13 gibt ein Ergebnis der Berechnung des Grads der Leistung an die Steuereinheit 15 aus.
In Schritt ST3 empfängt die Steuereinheit 15 das Ergebnis der Berechnung des Grads der Leistung von der Leistungsgradberechnungseinheit 13 wenn der Grad der Leistung gleich oder größer als die erste Referenz von „2“ ist („JA“ in Schritt ST3), schreitet die Steuereinheit 15 zu Schritt ST 7 fort und gibt einen Befehl, um zu veranlassen, dass die Funktion, die mit dem Erkennungsergebnis übereinstimmt, ausgeführt werden soll, an die Funktionsausübung Einheit 12 aus. Die Funktionsausführungseinheit 12 führt die dem Erkennungsergebnis entsprechende Funktion in Übereinstimmung mit dem Befehl von der Steuereinheit 15 aus.
Im Gegensatz, wenn der Grad der Leistung weniger als die erste Referenz von „2“ ist („NEIN“ in Schritt ST3), schreitet die Steuereinheit 15 zu Schritt ST4 fort.
In Schritt ST4, wenn der Grad der Leistung gleich oder weniger als die zweite Referenz von „0“ ist („JA“ in Schritt ST4), beendet die Steuereinheit 15 die Verarbeitung.
Im Gegensatz, wenn der Grad der Leistung größer als die zweite Referenz von „0“ ist („NEIN“ in Schritt ST4), schreitet die Steuereinheit zu Schritt ST5 vor und befiehlt der Anfragesteuereinheit 16 den Erkennungsergebnis entsprechende Funktionskandidaten anzuzeigen und eine Anfrage zu machen. Die Anfragesteuereinheit 16 präsentiert die Funktionskandidaten durch Nutzung des Lautsprechers 2 oder der Anzeige 3 in Übereinstimmung mit dem Befehl von der Steuereinheit 15.
In Schritt ST6, wenn der Benutzer eine gewünschte Funktion aus den präsentierten Kandidaten durch Betätigung des Tastfelds 4 auswählt, gibt das Tastfeld 4 die ausgewählte Funktion, als ein Ergebnis der Anfrage, an die Anfragesteuereinheit 16 aus. Die Anfragesteuereinheit 16 empfängt das Anfrageergebnis von dem Tastfeld 4 und gibt das Anfrageergebnis an die Steuereinheit 15 aus.
Wenn der Benutzer alternativ eine gewünschte Funktion von den präsentierten Kandidaten durch eine Äußerung auswählt, empfängt die Stimmerkennungseinheit 11 Stimmdaten über diese Äußerung über das Mikrofon 1, detektiert einen Äußerungsabschnitt und führt Erkennungsverarbeitung aus und gibt ein Erkennungsergebnis, als ein Ergebnis der Anfrage, an die Steuereinheit 15 aus.
Wenn das Anfrageergebnis von entweder der Anfragesteuereinheit 16 oder der Stimmerkennungseinheit 11 erhalten wird („JA“ in Schritt ST6), schreitet die Steuereinheit 15 zu Schritt ST7 fort und gibt einen Befehl, um zu veranlassen, dass die von dem Benutzer ausgewählter Funktion ausgeführt werden soll, an die Funktionsausführungseinheit 12 aus. Die Funktionsausführungseinheit 12 führt die von dem Benutzer ausgewählte Funktion in Übereinstimmung mit dem Befehl von der Steuereinheit 15 aus.
Im Gegensatz, wenn ein Anfrageergebnis von weder der Anfragesteuereinheit 16 noch der Stimmerkennungseinheit 11 mitgeteilt wird, bevor ein vorbestimmter Zeitraum abgelaufen ist, nachdem die Anfragesteuereinheit 16 angeordnet wurde die Kandidaten anzuzeigen („NEIN“ in Schritt ST6), beendet die Steuereinheit 5 den die Verarbeitung. Zu diesem Zeitpunkt beendet die Anfragesteuereinheit 16 die Anzeige der Funktionskandidaten in der Anzeige 3.
Wie oben erwähnt ist die Stimmerkennungsvorrichtung 10 nach Ausführungsform 1 konfiguriert, die Stimmerkennungseinheit 11, die eine von einem Benutzer geäußerte Stimme erkennt, die Funktionsausführungseinheit 12, die eine Funktion in Übereinstimmung einem von der Stimmerkennungseinheit 11 bereitgestellten Erkennungsergebnis ausführt, die Leistungsgradberechnungseinheit 13, die den Grad berechnet, zu dem die Funktionsausführungseinheit 12 die dem Erkennungsergebnis entsprechende Funktion ausführen kann und die Steuereinheit 15, die veranlasst, dass die Funktionsausführungseinheit 12 die dem Erkennungsergebnis übereinstimmende Funktion ausführt, wenn der von der Leistungsgradberechnungseinheit 13 berechnete Grad gleich oder größer als die vorbestimmte erste Referenz ist, zu umfassen. Wenn der Grad der Leistung der Funktion, die mit dem Erkennungsergebnis übereinstimmt, gleich oder größer als die erste Referenz ist, wird festgestellt, dass die Betätigungsabsicht des Benutzers klar ist, wobei es für den Benutzer ermöglicht wird, zu veranlassen, dass die Funktion nur durch Bereitstellung einer Äußerung ausgeführt wird. Im Gegensatz, wenn der Grad der Leistung der Funktion, die mit dem Erkennungsergebnis übereinstimmt, weniger als die erste Referenz ist, wird festgestellt, dass die Betätigungsabsicht des Benutzers nicht klar ist, wobei eine Nutzung zur Vermeidung einer Fehlfunktion, die eine andere als die Absicht des Benutzers ist, ermöglicht wird.
Des Weiteren ist die Stimmerkennungsvorrichtung 10 nach Ausführungsform 1 konfiguriert, die Anfragesteuereinheit 16 zu umfassen, die Kandidaten für eine Funktion präsentiert, die auf dem Erkennungsergebnis basiert und die die Funktionsausführungseinheit 12 ausführen kann. Des Weiteren ist die Steuereinheit 15 konfiguriert, um zu veranlassen, dass die Funktionsausführungseinheit 12 eine Funktion ausführt, die von dem Benutzer aus den von der Anfragesteuereinheit 16 angezeigten Funktionskandidaten ausgewählt wird. Als ein Ergebnis kann der Benutzer veranlassen, dass die Funktion ausgeführt wird, indem ein Minimum an erforderlicher zusätzlicher Betätigung ausgeführt wird.
Des Weiteren, in Ausführungsform 1, ist die Stimmerkennungseinheit 11 konfiguriert, dass eine geäußerte Stimme, die während einem vorbestimmten Stimmerfassungszeitraum erfasst wird, erkannt wird. Wie oben erwähnt, nach Ausführungsform 1, weil eine Fehlfunktion vermieden werden kann, kann Stimmerkennung immer während dem Stimmerfassungszeitraum ausgeführt werden und somit kann der Benutzer es veranlassen, eine Funktion auszuführen, ohne einen Befehl zum Starten einer Stimmerkennung bereitzustellen.
Ausführungsform 2.
In der oben erwähnten Ausführungsform 1, wenn der Grad der Leistung einer mit einem Erkennungsergebnis übereinstimmende Funktion weniger als die erste Referenz größer als die zweite Referenz ist, Wellenfunktionskandidaten präsentiert und eine Anfrage über welche Funktion ausgeführt werden soll wird an den Benutzer gemacht. Im Gegensatz, in dieser Ausführungsform 2, wird der Inhalt der Anfrage in Übereinstimmung mit der Anwesenheit oder Abwesenheit einer Betätigungsabsicht des Benutzers geändert.
4 ist ein Blockdiagramm, dass ein Beispiel einer Konfiguration einer Stimmerkennungsvorrichtung 10 nach Ausführungsform 2 der vorliegenden Erfindung zeigt. Die Stimmerkennungsvorrichtung 10 nach Ausführungsform 2 hat eine Konfiguration, in der eine Bestimmungseinheit 17 zu der Stimmerkennungsvorrichtung 10 von Ausführungsform 1, die in 1 gezeigt ist, hinzugefügt ist. In 4 werden dieselben Komponenten wie die, die in 1 gezeigt werden oder dazu korrespondierende Komponenten werden mit denselben Bezugszeichen beziffert und auf eine Beschreibung der Komponenten wird hiernach verzichtet.
In Ausführungsform 2 berechnet eine Leistungsgraderechnungseinheit 13a den Grad der Leistung einer Funktion, die mit einem von einer Stimmerkennungseinheit 11 bereitgestellten Erkennungsergebnis übereinstimmt, durch Beziehung auf eine Leistungsgraddefinitionsspeichereinheit 14a. Hier wird ein Beispiel einer Übereinstimmung zwischen den Graden der Leistung einer Funktion und Betätigungen, die die Stimmerkennungsvorrichtung 10 ausführt, in 5 gezeigt.
In einem Beispiel der „Leistungskraftdefinition“, dass in 5 gezeigt ist, hat der Grad der Leistung eines Objekts, das ein Wort ist, das der Nutzen einer Funktion anzeigt, einen niedrigeren Wert als der Grad der Leistung eines Verbs, das an Bord ist, dass die Betätigung einer Funktion anzeigt. Des Weiteren ist ein Grad der Leistung von 3 als eine erste Referenz gesetzt und ein Grad der Leistung von 0 als eine zweite Referenz gesetzt.
Die Bestimmungseinheit 17 empfängt ein Erkennungsergebnis von einer Steuereinheit 15a und bestimmt die Anwesenheit oder Abwesenheit eines Verbs und die Anwesenheit oder Abwesenheit eines Objekts in dem Erkennungsergebnis, durch Referenz zu der Leistungsgraddefinitionsspeichereinheit 14a, wodurch bestimmt wird, ob der Benutzer eine Absicht zu Betätigung von Fahrzeug montierter Ausrüstung hat, oder nicht. Die Bestimmungseinheit 17 gibt dann ein Ergebnis der Bestimmung an die Steuereinheit 15a aus.
In der Stimmerkennungsvorrichtung 10 nach Ausführungsform 1, wenn der Grad der Leistung gleich oder größer als die erste Referenz ist, wird bestimmt, dass die Absicht des Benutzers, zur Betätigung fahrzeugmontierter Ausrüstung klar ist, wobei, wenn der Grad der Leistung weniger als die erste Referenz ist, es bestimmt wird, dass die Absicht des Benutzers, zur Betätigung von fahrzeugmontierter Ausrüstung nicht klar ist.
Im Gegensatz, in dieser Ausführungsform 2, wenn ein Verb in dem Erkennungsergebnis existiert und dass Erkennungsergebnis in Übereinstimmung mit einer Funktion, die eine Funktionsausführungseinheit 12 ausführen kann, gebracht werden kann, bestimmt die Bestimmungseinheit 17, dass der Benutzer eine Absicht, zur Betätigung fahrzeugmontierter Ausrüstung hat. Im Gegensatz, wenn kein Verb in dem Erkennungsergebnis existiert oder wenn das Erkennungsergebnis nicht mit einer Funktion in Übereinstimmung gebracht werden kann und nur ein Objekt existiert, bestimmt die Bestimmungseinheit 17, dass der Benutzer nicht eine Absicht, zur Betätigung fahrzeugmontierter Ausrüstung hat.
Hiernach wird die Betätigung der Stimmerkennungsvorrichtung 10 nach Ausführungsform 2 mittels eines Flussdiagramms von 6 erklärt. Die Stimmerkennungsvorrichtung 10 führt Verarbeitung aus, die in dem Flussdiagramm von 6 gezeigt ist, während eines vorbestimmten Stimmerfassungszeitraums, wie oben genannt.
Weil Prozesse in Schritten ST1 bis ST7 von 6 dieselben sind wie die Schritte ST1 bis ST7 von 3 in Ausführungsform 1, wird auf eine Erklärung der Prozesse hiernach verzichtet.
Wenn der Grad der Leistung einer mit einem Erkennungsergebnis übereinstimmende Funktion weniger als die erste Referenz von „3“ ist („NEIN“ in Schritt ST3) und größer ist als die zweite Referenz von „0“ („NEIN“ in Schritt ST4), schreitet die Steuereinheit 15a zu Schritt ST11 fort und gibt das Erkennungsergebnis an die Bestimmungseinheit 17 aus. Die Bestimmungseinheit 17 empfängt das Erkennungsergebnis von der Steuereinheit 15a, bestimmt die Anwesenheit oder Abwesenheit der Betätigungsabsicht eines Benutzers und gibt ein Ergebnis der Bestimmung an die Steuereinheit 15a aus. Die Steuereinheit 15a empfängt das Bestimmungsergebnis von der Bestimmungseinheit 17.
Wenn die Betätigungsabsicht eines Benutzers nicht existiert („NEIN“ in Schritt ST11), schreitet die Steuereinheit 15a zu Schritt ST5 fort. Im Gegensatz, wenn die Betätigungsabsicht eines Benutzers existiert („JA“ in Schritt ST11), schreitet die Steuereinheit 15a zu Schritt ST12 fort und weist eine Anfragesteuereinheit 16a an eine Anfrage über zusätzliche Informationen zu machen, die benötigt werden um diese Funktion auszuführen. Die Anfragesteuereinheit 16a macht eine Anfrage an den Benutzer über zusätzliche Informationen, durch Nutzung eines Lautsprechers 2 oder einer Anzeige 3, in Übereinstimmung mit dem Befehl von der Steuereinheit 15a.
In Schritt ST13, wenn zusätzliche Information empfangen wird, die ein Ergebnis der Anfrage von der Anfragesteuereinheit 16a oder der Stimmerkennungsvorrichtung 11 ist („JA“ in Schritt ST13), schreitet die Steuereinheit 15a zu Schritt ST2 fort und gibt die zusätzliche Information an die Leistungsgradberechnungseinheit 13a aus. Die Leistungskraft Berechnungseinheit 13a kombiniert das erste Erkennungsergebnis und die zusätzliche Information, wodurch der Grad der Leistung wieder berechnet wird.
Im Gegensatz, wenn zusätzliche Informationen, die ein Ergebnis der Anfrage ist, weder von der Anfragesteuereinheit 16a noch von der Stimmerkennungseinheit 11 mitgeteilt wird, bevor ein vorbestimmter Zeitraum abläuft, nachdem die Anfragesteuereinheit 16a angewiesen wurde eine Anfrage über zusätzliche Informationen zu machen („NEIN“ in Schritt ST13), beendet die Steuereinheit 15a die Verarbeitung. Zu dieser Zeit beendet die Anfragesteuereinheit 16a das Anzeigen der Anfrage über zusätzliche Informationen auf der Anzeige 13.
Zum Beispiel, wenn das Erkennungsergebnis „ich will Musik hören“ ist, weil eine Audio Wiedergabefunktion in Übereinstimmung mit dem Verb „will hören“ gebracht werden kann, aber ein konkreter Parameter nicht von „Musik“ nicht bekannt ist, weist die Steuereinheit 15a die Anfragesteuereinheit 16a an, eine Anfrage von „bitte sag mir den Titel der Musik den sie hören möchten“ oder Ähnliches zu machen. Wenn der Benutzer einen Musiktitel als Antwort auf die Anfrage äußert, beschafft die Steuereinheit 15a zusätzliche Information über den Musiktitel mittels entweder einer Eingabevorrichtung, wie ein Tastfeld 4 oder einer Stimmeingabe durch ein Mikrofon 1 und die Stimmerkennungseinheit 11. Die Leistungsgradberechnungseinheit 13 a berechnet dann den Grad der Leistung der Audiowiedergabefunktion noch einmal, durch Nutzung des Erkennungsergebnis, dass „ich will Musik hören“ ist und der zusätzlichen Information über den Musiktitel. Im Falle diesen Beispiels, weil der Grad der Leistung, der wieder berechnet wird, „3“ ist, gibt die Steuereinheit 15a einen Befehl zur Wiedergabe der Musik an die Funktionsausführungseinheit 12 aus.
Wenn eine Funktion ausgeführt werden kann, obwohl ein Objekt in dem Erkennungsergebnis nicht klar ist, kann die Steuereinheit 15a veranlassen, dass die Funktion ausgeführt werden soll, bevor eine Anfrage gemacht wird.
Hiernach wird ein anderes Beispiel zur Betätigung der Stimmverarbeitungsvorrichtung 10 nach Ausführungsform 2 mittels eines Flussdiagramms von 7 erklärt.
In Schritt ST21, wenn die Betätigungsabsicht eines Benutzers nicht existiert („NEIN“ in Schritt ST21), schreitet die Steuereinheit 15a zu Schritt ST5 fort. Im Gegensatz, wenn die Betätigungsabsicht eines Nutzers existiert („JA“ in Schritt ST21) schreitet die Steuereinheit 15a zu Schritt ST22 fort und weist die Funktionsausführungseinheit 12 an, eine Funktion auszuführen, die die höchste Leistungspriorität der mit dem Erkennungsergebnis übereinstimmenden Funktionskandidaten hat. Die Funktionsausführungseinheit 12 führt die Funktion, die die höchste Leistungspriorität hat, in Übereinstimmung mit dem Befehl der Steuereinheit 15a aus.
Zum Beispiel, wenn das Erkennungsergebnis nur ein Verb „erhöhen“ ist, definiert die Steuereinheit 15 a eine Kartenvergrößerungsfunktion für eine Fahrzeugnavigation, eine Tonlautstärkeänderungsfunktion für ein Fahrzeugaudio, eine Temperaturänderungsfunktion für eine Fahrzeugklimaanlage und so weiter die mit dem Verb als Kandidat übereinstimmt und veranlasst, dass die Funktion, die die höchste Leistung Priorität unter den Kandidaten hat, ausgeführt wird.
Die Leistungspriorität einer Funktion kann im Voraus so definiert werden, dass die Priorität der Funktion, die am wenigsten Einfluss auf den Benutzer hat, wenn sie ausgeführt wird, höher wird oder kann von der Steuereinheit 15a auf der Grundlage der Häufigkeit, mit der die Funktionen von dem Benutzer genutzt wird, bestimmt werden.
In Schritt ST23 weist die Steuereinheit 15a die Anfragesteuereinheit 16a an, die ausgeführte Funktion zu präsentieren und eine Anfrage über die Anwesenheit oder Abwesenheit von Korrektur an dieser Funktion zu machen. Die Anfragesteuereinheit 16a führt das präsentieren der ausgeführten Funktionen aus und macht eine Anfrage über die Anwesenheit oder Abwesenheit von Korrektur an dieser Funktion mittels des Lautsprechers 2 oder der Anzeige 3, in Übereinstimmung mit dem Befehl der Steuereinheit 15a. Zu dieser Zeit kann die Anfragesteuereinheit 16a Funktionskandidaten präsentieren, die eine niedrigere Leistungspriorität haben und nicht ausgeführt werden, wobei dem Benutzer es ermöglicht wird eine Auswahl zu treffen.
In Schritt ST 24, wenn ein Erkennungsergebnis oder Ähnliches empfangen wird, das als ein Anfrageergebnis von entweder der Anfragesteuereinheit 16a oder der Stimmerkennungseinheit 11 anweist, dass eine Funktion, anders als die ausgeführte Funktion ausgeführt werden soll („JA“ Schritt ST24), schreitet die Steuereinheit zur 15a zu Schritt ST2 fort und weist die Leistungsgradberechnungseinheit 13a an, den Grad der Leistung einer Funktion in Übereinstimmung mit dem neuen Erkennungsergebnis zu berechnen. Zu dieser Zeit gibt die Steuereinheit 15a einen Befehl zum Beenden der Ausführung der Funktion, die vorher ausgeführt wurde, an die Funktionsausführungseinheit 12 aus.
Als eine Alternative, wenn ein Erkennungsergebnis oder ähnliches empfangen wird, das anweist, dass eine Funktion, anders als die ausgeführte Funktion ausgeführt werden soll („JA“ in Schritt ST24), kann die Steuereinheit 15a die Funktionsausführungseinheit 12 anweisen eine Funktion in Übereinstimmung mit dem Erkennungsergebnis oder ähnlichem auszuführen.
Im Gegensatz, wenn ein Anfrageergebnis weder von der Anfragesteuereinheit 16a noch von der Stimmerkennungseinheit 11 mitgeteilt wird, bevor ein vorbestimmter Zeitraum abläuft, nachdem die Anfragesteuereinheit 16a angewiesen wurde eine Anfrage über die Anwesenheit oder Abwesenheit einer Korrektur an der ausgeführten Funktion zu machen („NEIN“ in Schritt ST24), beendet die Steuereinheit 15a die Verarbeitung. Zu dieser Zeit beendet die Anfragesteuereinheit 16a das Anzeigen einer Anfrage auf der Anzeige 3.
Wie oben erwähnt ist die Stimmerkennungsvorrichtung 10 nach Ausführungsform 2 konfiguriert die Bestimmungseinheit 17, die die Anwesenheit oder Abwesenheit einer Betätigungsabsicht eines Benutzers, durch Nutzung eines von der Stimmerkennungseinheit 11 bereitgestellten Erkennungsergebnisses, bestimmt und die Anfragesteuereinheit 16a, die eine Anfrage an den Benutzer macht, zu umfassen. Dann, wenn der durch die Leistungsgradberechnungseinheit 13 berechnete Grad der Leistung größer als die zweite Referenz und weniger als die erste Referenz ist, ändert die Anfragesteuereinheit 16a den Inhalt der Anfrage in Übereinstimmung mit einem von der Bestimmungseinheit 16 bereitgestellten Bestimmungsergebnisses.
Konkret, wenn die Bestimmungseinheit 17 bestimmt, dass es eine Betätigungsabsicht gibt, macht die Anfragesteuereinheit 16a eine Anfrage über zusätzliche Informationen, die für die Funktionsausführungseinheit 12 benötigt werden um eine Funktion auszuführen. Im Gegensatz, wenn die Bestimmungseinheit 17 bestimmt, dass es keine Betätigungsabsicht gibt, präsentiert die Anfragesteuereinheit 16a Kandidaten für eine Funktion, die auf dem Erkennungsergebnis basiert und die die Funktionsausführungseinheit 12 ausführen kann und die Steuereinheit 15a veranlasst, dass die Funktionsausführungseinheit 12 eine Funktion ausführt, die von dem Benutzer aus den präsentierten Funktionskandidaten ausgewählt wird. Als Ergebnis kann der Benutzer veranlassen, dass eine Funktion ausgeführt wird, indem ein Minimum an erforderlicher zusätzlicher Betätigung ausgeführt wird.
Die Leistungskraft Berechnungseinheit 13 a kann eine Anfrage über Information machen, die benötigt wird, um die Funktionen, die von dem Benutzer aus den präsentierten Funktionskandidaten ausgewählt wird, auszuführen.
Zum Beispiel, in Schritt ST7, der in den Flussdiagrammen von 6 und 7 gezeigt ist, wenn es bestimmt ist, dass die Information, die benötigt wird, um die Funktion auszuführen, die von dem Benutzer von den präsentierten Funktionskandidaten ausgewählt wird, zu der Zeit wenn die Funktion ausgeführt wird, nicht ausreicht macht die Leistungsgradberechnungseinheit 13a eine Anfrage an den Benutzer über zusätzliche Information.
Des Weiteren, wie in 7 von Ausführungsform 2 gezeigt, kann dort eine Konfiguration bereitgestellt werden, in der, wenn der durch die Leistungsgradberechnungseinheit 13a berechnete Grad der Leistung größer als die zweite Referenz und weniger als die erste Referenz ist und die Bestimmungseinheit 17 bestimmt, dass es eine Betätigungsabsicht gibt, veranlasst die Steuereinheit 15a, dass die Funktionsausführungseinheit 12 die Funktion ausführt und die Anfragesteuereinheit 16a macht eine Anfrage ob die Funktion, die die Funktionsausführungseinheit 12 ausgeführt hat, korrigiert werden soll, oder nicht. Als ein Ergebnis, wenn die Funktion ohne weitere Information ausgeführt werden kann, kann der Benutzer veranlassen, dass die Funktion ausgeführt wird, ohne eine weitere Betätigung auszuführen.
Des Weiteren, nach Ausführungsform 2, ist die Steuereinheit 15 a konfiguriert, um zu verhindern, dass eine mit dem Erkennungsergebnis übereinstimmende Funktion ausgeführt wird, wenn der durch die Leistungskraft Berechnungseinheit 13 a berechnete Grad der Leistung gleich oder größer als die zweite Referenz ist. Durch Verhinderung, dass eine Funktion ausgeführt wird, die einen erheblich niedrigen Grad der Leistung hat, kann eine Fehlfunktion, die anders ist als die Absicht eines Nutzers, vermieden werden.
Als nächstes ist eine Variation der Stimmerkennungsvorrichtung 10 nach Ausführungsform 2 in 8 gezeigt.
Die in 8 gezeigte Stimmerkennungsvorrichtung 10 hat eine Konfiguration, in der eine Benutzeridentifizierungseinheit 18 zu der Stimmerkennungsvorrichtung 10 der Ausführungsform 2, die in 4 gezeigt ist, hinzugefügt ist. In 8 sind dieselben Komponenten wie die, die in 1 und 4 gezeigt werden oder dementsprechende Komponenten sind, mit denselben Bezugszeichen beziffert und auf eine Beschreibung der Komponenten wird hiernach verzichtet.
Die Benutzeridentifizierungseinheit 18 identifiziert einen Benutzer, der eine Äußerung gegeben hat und stellt eine Benachrichtigung für eine Stimmerkennungseinheit 11a bereit. Wenn die Anfragesteuereinheit 16a eine Anfrage in Schritt ST12, der in dem Flussdiagramm von 6 gezeigt ist oder in Schritt ST23, der in dem Flussdiagramm von 7 gezeigt ist, macht, führt die Stimmerkennungseinheit 11a Erkennungsverarbeitung an der Äußerung aus, die von dem Benutzer bereitgestellt ist, der von der Benutzeridentifizierungseinheit 18 identifiziert wird und gibt ein Erkennungsergebnis als ein Anfrageergebnis aus. Als Ergebnis kann die Anfragesteuereinheit 16a eine Interaktion mit dem durch die Benutzeridentifizierungseinheit 18 identifizierten Benutzer ausführen. Hiernach wird ein Beispiel der Interaktion mit dem identifizierten Benutzer erklärt.
Zum Beispiel beschafft die Benutzeridentifizierungseinheit 18 Stimmdaten von dem Mikrofon 1 und identifiziert einen Benutzer, der eine Äußerung abgegeben hat, indem Stimmenausdruckidentifikation ausgeführt wird und die Stimmerkennungseinheit 11a beschafft selektiv Stimmdaten über den identifizierten Benutzer, der eine Äußerung abgegeben hat und führt Erkennungsverarbeitung aus. Als eine Alternative beschafft die Benutzeridentifizierungseinheit 18 Stimmdaten von zwei oder mehr Mikrofonen 1 und spezifiziert die Richtung des Nutzers, der eine Äußerung abgegeben hat, durch Geräuschquellenlokalisation oder beschafft ein durch eine nicht illustrierte Kamera aufgenommenes Gesichtsbild und spezifiziert die Richtung des Benutzers, der eine Äußerung abgegeben hat und die Stimmerkennungseinheit 11a beschafft selektive Stimmdaten über eine Stimme, die von der Richtung des Nutzers, der eine Äußerung abgegeben hat, kommt, in dem Beamforming ausgeführt wird und führt Erkennungsverarbeitung aus. Als ein Ergebnis kann eine Fehlfunktion der Stimmerkennungsvorrichtung 10 vermieden werden, die durch Äußerung verursacht wird, die von einem Passagier in dem Fahrzeug bereitgestellt ist, der anders ist als der identifizierte Benutzer ist.
Des Weiteren kann beispielsweise die Stimmerkennungseinheit 11a Anpassung in Übereinstimmung mit dem Benutzer, der eine Äußerung abgegeben hat und den die Benutzeridentifizierungseinheit 18 identifiziert hat, ausführen. Die Stimmverarbeitungseinheit 11a hat ein Stimmerkennungswörterbuch, ein akustisches Modell, ein Sprachmodell oder ähnliches für jeden Benutzer und wechselt zwischen den Stimmerkennungswörterbüchern oder ähnlichem in Übereinstimmung mit dem Benutzer, der eine Äußerung abgegeben hat und den die Benutzeridentifizierungseinheit 18 identifiziert hat. Des Weiteren, um ein Stimmerkennungswörterbuch oder ähnliches für jeden Benutzer zu erzeugen, kann die Stimmerkennungseinheit 11a Erlernung von jedem Benutzer, der eine Äußerung abgegeben hat und den die Benutzeridentifizierungseinheit 18 identifiziert hat, ausführen. Als Ergebnis kann die Erkennungsgenauigkeit zu der Zeit der Anfrage erhöht werden und eine Fehlfunktion der Stimmerkennungsvorrichtung 10, der durch Fehlerkennung verursacht wird, vermieden werden.
Des Weiteren kann beispielsweise die Steuereinheit 15a die Leistungspriorität in Schritt ST22, der in dem Flussdiagramm von 7 gezeigt ist, in Übereinstimmung mit dem Benutzer, der eine Äußerung abgegeben hat und den die Benutzeridentifizierungseinheit 18 identifiziert hat, ändern.
Die Benutzeridentifizierungseinheit 18 kann zu der Stimmerkennungsvorrichtung 10 in Ausführungsform 1, die in 1 gezeigt ist, hinzugefügt werden. In diesem Fall, wenn die Anfragesteuereinheit 16 Funktionskandidaten präsentiert und eine Anfrage in Schritt ST5 macht, der in dem Flussdiagramm von 3 gezeigt ist, kann die Stimmverarbeitungseinheit 11 Erkennungsverarbeitung an der Äußerung, die von dem Benutzer bereitgestellt ist, den die Benutzeridentifizierungseinheit 18 identifiziert hat, ausführen und ein Erkennungsergebnis als ein Anfrageergebnis ausgeben.
Zuletzt wird ein Beispiel der Gerätekonfiguration der Stimmerkennungsvorrichtung 10 nach jeder der Ausführungsformen der vorliegenden Erfindung, durch Referenz zu 9 erklärt.
Das Mikrofon 1 und das Tastfeld 4, die in 1, 4 und 8 gezeigt sind, sind eine Eingabevorrichtung 103, die in 9 gezeigt ist. Der Lautsprecher 2 und die Anzeige 3 sind eine Ausgabevorrichtung 104. Die Stimmerkennungseinheit 11 oder 11a, die Funktionsausführungseinheit 12, die Leistungsgradberechnungseinheit 13 oder 13a, die Steuereinheit 15 oder 15a, die Anfragesteuereinheit 16 oder 16a, die Bestimmungseinheit 17 und die Benutzeridentifizierungseinheit 18 in der Stimmerkennungsvorrichtung 10 sind ein Prozessor 101 der ein in einem Speicher 102 gespeichertes Programm ausführt. Die Leistungsgraddefinitionsspeichereinheit 14 oder 14a ist der Speicher 102.
Die Funktionen der Stimmverarbeitungseinheit 11 oder 11a, die Funktionsausführungseinheit 12, die Leistungsgradberechnungseinheit 13 oder 13a, die Steuereinheit 15 oder 15a, die Anfragesteuereinheit 16 oder 16a, die Bestimmungseinheit 17 und die Benutzeridentifizierungseinheit 18 werden durch Software, Firmware oder eine Kombination von Software und Firmware implementiert. Software oder Firmware wird als ein Programm beschrieben und das Programm ist in dem Speicher 102 gespeichert. Der Prozessor 101 implementiert die Funktion von jeder der Einheiten, durch Auslesen und Ausführen eines in dem Speicher 102 gespeicherten Programms. Konkret umfasst die Stimmerkennungsvorrichtung 10 den Speicher 102 zum Speichern eines Programms, in dem jeder der in 3, 6 oder 7 gezeigten Schritte, als ein Ergebnis der Ausführung des Programms durch den Prozessor 101 ausgeführt werden. Des Weiteren kann auch gesagt werden, dass dieses Programm einen Computer veranlasst, eine Prozedur oder ein Verfahren auszuführen, dass jede der Einheiten der Stimmerkennungsvorrichtung 10 benutzt.
Der Prozessor 101 wird auch als zentrale Verarbeitungsvorrichtung (CPU), eine Verarbeitungsvorrichtung, eine Arithmetikvorrichtung, Mikroprozessor, einen Mikrocomputer, Digitalsignalprozessor (DSP), oder ähnlichem bezeichnet. Der Speicher 102 ist beispielsweise ein nicht flüchtiger oder flüchtiger Halbleiterspeicher, wie ein Arbeitsspeicher (RAM), ein schreibgeschützten Speicher (ROM), ein Flash-Speicher, ein löschbarer programmierbarer schreibgeschützter Speicher (EPROM) oder einen elektrischen EPROM (EEPROM), eine Magnetplatte, wie eine Festplatte oder eine Diskette oder eine optische Platte wie eine Miniplatte oder eine Compact Disc (CD) oder eine Digital Versatile Disc (DVD).
In der Konfiguration nach jeder der oben genannten Ausführungsformen 1 und 2 berechnet die Leistungsgradberechnungseinheit 13 oder 13a einen Grad der Leistung von einem von der Stimmerkennungseinheit 11 oder 11a bereitgestellten Erkennungsergebnis und die Steuereinheit 15 oder 15a bestimmt eine folgende Betätigung in Übereinstimmung mit dem Grad der Leistung. Zusätzlich zu dieser Konfiguration, wenn ein spezifischer Befehl geäußert wird, kann eine Betätigung in Übereinstimmung mit dem Befehl ausgeführt werden.
Zum Beispiel kann die Steuereinheit 15 oder 15a so konfiguriert wird, dass, wenn eine Betätigung von „Ausführung einer Funktion zur Wiedergabe des ersten Musikstücks“ im Voraus für einen Befehl „Audio“ in der Steuereinheit 15 oder 15a definiert ist, eine Wiedergabe des ersten Musikstücks begonnen wird, wenn der Benutzer „Audio“ äußert.
Zusätzlich, als eine Betätigung für jeden Befehl, kann nicht nur „Leistung einer Funktion“, sondern auch „Anfrage über zusätzliche Information“, „Präsentation von Funktionskandidaten“ oder ähnlichem definiert werden. Konkret, als die Betätigung für die Äußerung von „Audio“ kann anstatt einer „einheitlichen Wiedergabe des ersten Musikstücks“ eine Betätigung der Wiedergabe eines Zielmusikstücks, nachdem eine Anfrage von „welches Musikstück soll wiedergegeben werden?“, „Welches Musikstück soll abgespielt werden?“ oder ähnlichem definiert werden.
Es sollte auch verstanden werden, dass eine Kombination von zwei oder mehr der oben genannten Ausführungsformen gemacht werden kann, verschiedene Änderungen können in jeder Komponente von jeder der oben genannten Ausführungsformen angewandt werden und Komponenten von jeder der oben genannten Ausführungsformen können innerhalb des Anwendungsbereichs der Erfindung ausgelassen werden.
Des Weiteren, obwohl in Ausführungsformen 1 und 2 der Einsatz, in dem die Stimmerkennungsvorrichtung 10 in einem Fahrzeug montiert ist, erklärt wird, kann die Stimmerkennungsvorrichtung für Einsätze, anders als der Fahrzeugeinsatz, genutzt werden.
INDUSTRIELLE ANWENDBARKEIT
Weil, wenn der Grad, zudem eine mit dem Erkennungsergebnis übereinstimmende Funktion ausgeführt werden kann gleich oder größer als die erste Referenz ist, führt die Stimmerkennungsvorrichtung nach der vorliegenden Erfindung die Funktion aus; ansonsten führt die Stimmerkennungsvorrichtung die Funktion nicht unmittelbar aus, wodurch vermieden wird, dass eine Fehlfusion auftritt, wobei die Stimmerkennungsvorrichtung für den Einsatz als Stimmerkennungsvorrichtung oder ähnlichem, die eine Stimme zu jeder Zeit erkennt, geeignet ist.
Bezugszeichenliste
1 Mikrofon, 2 Lautsprecher, 3 Anzeige, 4 Tastfeld, 10 Stimmerkennungsvorrichtung, 11 und 11a Stimmerkennungseinheit, 12 Funktionsausführungseinheit, 13 und 13a Leistungsgradberechnungseinheit, 14 und 14a Leistungsgraddefinitionsspeichereinheit, 15 und 15a Steuereinheit, 16 und 16a Anfragesteuereinheit, 17 Bestimmungseinheit, 18 Benutzeridentifizierungseinheit, 101 Prozessor, 102 Speicher, 103 Eingabevorrichtung und 104 Ausgabevorrichtung.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 200814818 [0003]

Claims

Stimmerkennungsvorrichtung mit: einer Stimmerkennungseinheit, um eine von einem Benutzer geäußerten Stimme zu erkennen; einer Funktionsausführungseinheit, um eine Funktion in Übereinstimmung mit einem von der Stimmerkennungseinheit bereitgestellten Erkennungsergebnis auszuführen; einer Leistungsgradberechnungseinheit, um einen Grad, zu dem die Funktionsausführungseinheit die mit dem Erkennungsergebnis übereinstimmende Funktion ausführen kann, berechnet; und einer Steuereinheit, um die Funktionsausführungseinheit zu veranlassen, wenn der von der Leistungsgradberechnungseinheit berechnete Grad gleich oder größer als eine vorbestimmte erste Referenz ist, die mit dem Erkennungsergebnis übereinstimmende Funktion auszuführen.
Die Stimmerkennungsvorrichtung nach Anspruch 1 weiter umfasst: eine Bestimmungseinheit, um die Anwesenheit oder Abwesenheit einer Betätigungsabsicht eines Benutzers, durch Nutzung des von der Stimmerkennungseinheit bereitgestellten Erkennungsergebnisses zu bestimmen; und eine Anfragesteuereinheit, um eine Anfrage an einen Benutzer zu machen, wobei, wenn der von der Leistungsgradberechnungseinheit berechnete Grad größer als eine vorbestimmte zweite Referenz ist, die kleiner als die erste Referenz ist, und kleiner als die erste Referenz ist, endet die Anfragesteuereinheit einen Inhalt der Anfrage in Übereinstimmung mit einem Bestimmungsergebnis, das von der Bestimmungseinheit bereitgestellt ist.
Die Stimmerkennungsvorrichtung nach Anspruch 2, wobei, wenn die Bestimmungseinheit bestimmt, dass es eine Betätigungsabsicht gibt, macht die Anfragesteuereinheit eine Anfrage über Information, die für die Funktionsausführungseinheit, zum Ausführen der Funktion benötigt wird.
Die Stimmerkennungsvorrichtung nach Anspruch 3, wobei die Steuereinheit veranlasst, dass die Funktionsausführungseinheit die Funktion ausführt, durch Nutzung von Information, die durch die Anfrage, die von der Anfragesteuereinheit gemacht wird, erfasst ist.
Die Stimmerkennungsvorrichtung nach Anspruch 2, wobei, wenn der von der Leistungsgradberechnungseinheit berechnete Grad größer als die zweite Referenz ist und kleiner als die erste Referenz ist und die Bestimmungseinheit bestimmt, dass es eine Betätigungsabsicht gibt, veranlasst die Steuereinheit, dass die Funktionsausführungseinheit die Funktion ausführt, und die Anfragesteuereinheit macht eine Anfrage ob die Funktion, die die Funktionsausführungseinheit ausführt, korrigiert werden soll, oder nicht.
Die Stimmerkennungsvorrichtung nach Anspruch 3 umfasst eine Benutzerindizierungseinheit, um einen Benutzer, der eine Äußerung abgegeben hat, zu identifizieren, wobei die Anfragesteuereinheit eine Interaktion mit einem Benutzer, den die Benutzeridentifizierungseinheit identifiziert hat, ausführt.
Die Stimmerkennungsvorrichtung nach Anspruch 6, wobei die Anfragesteuereinheit Stimminteraktion mit dem Benutzer, den die Benutzer Identifizierungseinheit identifiziert hat, ausführt.
Die Stimmerkennungsvorrichtung nach Anspruch 6, wobei die Stimmerkennungseinheit an den Benutzer angepasste Erkennung ausführt, den die Benutzeridentifizierungseinheit identifiziert hat.
Die Stimmerkennungsvorrichtung nach Anspruch 2, wobei, wenn die Bestimmungseinheit bestimmt, dass es keine Betätigungsabsicht gibt, präsentiert die Anfragesteuereinheit Kandidaten für eine Funktion, die auf dem Erkennungsergebnis basiert und die die Funktionsausführungseinheit ausführen kann.
Die Stimmerkennungsvorrichtung nach Anspruch 9, wobei die Anfragesteuereinheit eine Anfrage über Information macht, die benötigt ist, um eine Funktion auszuführen, die von dem Benutzer aus den präsentierten Funktionskandidaten ausgewählt ist.
Die Stimmerkennungsvorrichtung nach Anspruch 9, wobei die Steuereinheit veranlasst, dass die Funktionsausführungseinheit eine Funktion ausführt, die von dem Benutzer aus den Funktionskandidaten, die von der Anfrage Steuereinheit präsentiert werden, ausgewählt ist.
Die Stimmerkennungsvorrichtung nach Anspruch 1, wobei die Stimmerkennungseinheit eine geäußerte Stimme erkennt, die während eines vorbestimmten Stimmerfassungszeitraums erfasst wird.
Die Stimmerfassungseinheit nach Anspruch 2, wobei, wenn der durch die Leistungsgradberechnungseinheit berechnete Grad gleich oder größer als die zweite Referenz ist, verhindert die Steuereinheit, dass die mit dem Erkennungsergebnis übereinstimmende Funktion ausgeführt wird.