DE112015006887B4

DE112015006887B4 - Fahrzeug-Spracherkennungsvorrichtung und Fahrzeugausrüstung

Info

Publication number: DE112015006887B4
Application number: DE112015006887.2T
Authority: DE
Inventors: Takayoshi Chikuri
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-09-09
Filing date: 2015-09-09
Publication date: 2020-10-08
Anticipated expiration: 2035-09-10
Also published as: WO2017042906A1; JP6227209B2; DE112015006887T5; JPWO2017042906A1; CN107949880A; US20180130467A1

Abstract

Fahrzeug-Spracherkennungsvorrichtung umfassend:
eine Spracherkennungseinheit (11, 11a) zur Erkennung von Sprache und zur Ausgabe eines Erkennungsergebnisses;
eine Bestimmungseinheit (12), zur Bestimmung, ob die Anzahl der Sprecher in einem Fahrzeug eins oder größer als eins ist, und zum Ausgeben eines Bestimmungsergebnisses; und
eine Erkennungssteuereinheit (13, 13a), die auf Grundlage der von der Spracherkennungseinheit (11, 11a) und der Bestimmungseinheit (12) ausgegebenen Ergebnisse ein Erkennungsergebnis mit Bezug auf eine Sprachäußerung übernimmt,
die nach einem Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wird, wenn die Anzahl der Sprecher als größer als eins bestimmt wird, und,
wobei die Erkennungssteuereinheit (13,13a), wenn die Anzahl der Sprecher als eins bestimmt wird, ein Erkennungsergebnis unabhängig davon übernimmt,
ob sich das Erkennungsergebnis auf eine Sprachäußerung bezieht, nachdem ein Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wurde, oder
ob sich das Erkennungsergebnis auf eine Sprachäußerung in einem Fall bezieht, in dem der Hinweis, dass eine Äußerung unmittelbar bevorsteht, nicht empfangen wird.

Description

TECHNISCHES GEBIET
Die Erfindung betrifft eine Fahrzeug-Spracherkennungsvorrichtung zur Erkennung einer Äußerung durch einen Sprecher, und Fahrzeugausrüstung, die als Antwort auf ein Erkennungsergebnis arbeitet.
STAND DER TECHNIK
Wenn eine Vielzahl von Sprechern in einem Fahrzeug vorhanden ist, muss vermieden werden, dass eine Spracherkennungsvorrichtung fälschlicherweise eine Äußerung, die von einem bestimmten Sprecher an einen anderen Sprecher gegeben wurde, als eine Äußerung, die der Vorrichtung gegeben wurde, erkennt. Zu diesem Zweck wartet z.B. eine in der Patentliteratur 1 offenbarte Spracherkennungsvorrichtung darauf, dass ein Benutzer eine spezifische Äußerung äußert oder einen spezifischen Betrieb durchführt, und beginnt, einen Befehl für zu bedienende Betriebseinrichtungen zu erkennen, nachdem er die spezifische Äußerung oder ähnliches erkannt hat.
JP 2008-250 236 A beschreibt eine Spracherkennungsvorrichtung und -methode welche die Erkennungspräzision einer Äußerung erhöhen soll.
US 2013/0 095 805 A1 beschreibt das automatische Beobachten einer Spracheingabe basierend auf einem Kontext.
ZITIERUNGSLISTE
PATENTLITERATUR
Patentliteratur 1: Japanische Patentanmeldung Veröffentlichungsnr. 2013-80015
ZUSAMMENFASSUNG DER ERFINDUNG
TECHNISCHES PROBLEM
Mit der herkömmlichen Spracherkennungsvorrichtung kann eine Situation vermieden werden, in der die Spracherkennungsvorrichtung eine Äußerung als Befehl erkennt, entgegen der Intention des Sprechers, und somit eine Fehlbedienung der zu bedienenden Vorrichtungen verhindert werden. Weiterhin ist es bei einem Einer-zu-Vielen-Dialog zwischen Menschen natürlich, dass der Sprecher nach der Angabe eines Adressaten spricht, indem er ihn mit seinem Namen oder ähnlichem anspricht, so dass ein natürlicher Dialog zwischen dem Redner und der Vorrichtung durch das Aussprechen eines Befehls nach dem Aussprechen einer bestimmten Äußerung oder ähnlichem erreicht werden kann, wie z.B. das Ansprechen von Bemerkungen an die Spracherkennungsvorrichtung.
In der Spracherkennungsvorrichtung, die in der Patentliteratur 1 beschrieben wird, empfindet es der Sprecher jedoch als mühsam, die spezifische Äußerung oder ähnliches zu äußern, bevor er einen Befehl ausspricht, selbst in einer Situation, in der der Fahrer der einzige Sprecher in einem Raum im Fahrzeug ist, und es ist offensichtlich, dass eine Äußerung ein Befehl ist, der für die Vorrichtung bestimmt ist. Außerdem ähnelt der Dialog mit der Spracherkennungsvorrichtung in dieser Situation einem Eins-zu-Eins-Dialog mit einer Person, und deshalb besteht das Problem darin, dass es für den Sprecher unangenehm ist, die spezifische Äußerung oder ähnliches zu äußern, um die Spracherkennung anzusprechen.
Das heißt, in der herkömmlichen Spracherkennungsvorrichtung muss der Sprecher die spezifische Äußerung äußern oder die spezifische Bedienung in Bezug auf die Spracherkennungsvorrichtung durchführen, unabhängig von der Anzahl der Personen im Fahrzeug, und als Folge davon gibt es ein Problem der Bedienbarkeit, da der Sprecher den Dialog als unangenehm und mühsam empfindet.
Die Erfindung wurde entworfen um die vorher genannten Probleme zu lösen und ein Ziel der Erfindung ist es fehlerhafte Erkennung zu verhindern während die Bedienbarkeit verbessert wird.
LÖSUNG DES PROBLEMS
Eine Fahrzeug-Spracherkennungsvorrichtung gemäß der Erfindung umfasst eine Spracherkennungseinheit zur Erkennung von Sprache und zur Ausgabe eines Erkennungsergebnisses, eine Bestimmungseinheit, zur Bestimmung, ob die Anzahl der Sprecher in einem Fahrzeug eins oder größer als eins ist, und um ein Bestimmungsergebnis auszugeben, und eine Erkennungssteuereinheit, die auf einer Grundlage der von der Spracherkennungseinheit und der Bestimmungseinheit ausgegebenen Ergebnisse ein Erkennungsergebnis in Bezug auf eine Sprachäußerung übernimmt, die nach einem Hinweis, dass eine Äußerung im Begriff ist, zu beginnen, empfangen wird, wenn die Anzahl der Sprecher als größer als eins bestimmt wird, und wenn die Anzahl der Sprecher als eins bestimmt wird, die Übernahme eines Erkennungsergebnisses unabhängig davon, ob sich das Erkennungsergebnis auf eine Sprachäußerung bezieht, nachdem ein Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wurde, oder das Erkennungsergebnis bezieht sich auf die Sprachäußerung in einem Fall, in dem der Hinweis, dass eine Äußerung unmittelbar bevorsteht, nicht empfangen wird.
VORTEILHAFTE EFFEKTE DER ERFINDUNG
Gemäß der Erfindung wird das Erkennungsergebnis, das sich auf die Sprachäußerung bezieht, die nach Erhalt des Hinweises, dass eine Äußerung im Begriff ist, zu beginnen, übernommen, wenn eine Mehrzahl von Sprechern im Fahrzeug anwesend ist, und somit eine Situation, in der eine Äußerung, die von einem bestimmten Sprecher an einen anderen Sprecher gegeben wurde, irrtümlich als Befehl erkannt wird, vermieden werden kann. Im Gegensatz dazu, wenn nur ein Sprecher im Fahrzeug anwesend ist, unabhängig davon, ob sich das Erkennungsergebnis auf die Sprachäußerung bezieht, die nach Erhalt des Hinweises, dass eine Äußerung beginnen wird, oder das Erkennungsergebnis sich auf die Sprachäußerung bezieht, die in einem Fall, in dem der Hinweis, dass eine Äußerung beginnen wird, nicht empfangen wird, wird das Erkennungsergebnis übernommen, und daher braucht der Sprecher keinen Hinweis geben, dass eine Äußerung vor der Äußerung des Befehls beginnen wird. Als Ergebnis kann ein unangenehmer und mühsamer Dialog ausgeschlossen werden, wodurch eine Verbesserung der Bedienbarkeit ermöglicht wird.
Figurenliste

1 zeigt ein Blockdiagramm, das eine Beispielkonfiguration von Fahrzeugausrüstung gemäß Ausführungsbeispiel 1 der Erfindung darstellt.
2 zeigt ein Ablaufdiagramm, das Verarbeitung darstellt, die von der Fahrzeugausrüstung gemäß Ausführungsbeispiel 1 ausgeführt wird, um erkanntes Vokabular einer Spracherkennungseinheit umzuschalten, in Abhängigkeit, ob die Anzahl Sprecher in einem Fahrzeug eins oder größer als eins ist.
3 zeigt ein Ablaufdiagramm, das Verarbeitung darstellt, die von der Fahrzeugausrüstung gemäß Ausführungsbeispiel 1 ausgeführt wird, um Sprachäußerung von einem Sprecher zu erkennen und eine Bedienung entsprechend des Erkennungsergebnis auszuführen.
4 zeigt ein Blockdiagramm, das eine Beispielkonfiguration von Fahrzeugausrüstung gemäß Ausführungsbeispiel 2 der Erfindung darstellt.
5A und 5B sind Ablaufdiagramme, die Verarbeitung darstellen, die von der Fahrzeugausrüstung gemäß Ausführungsbeispiel 2 durchgeführt wird, wobei 5A Verarbeitung zeigt, die ausgeführt wird, wenn die Zahl der Sprecher in dem Fahrzeug als größer als eins bestimmt wurde, und 5B zeigt Verarbeitung, die ausgeführt wird, wenn die Zahl der Sprecher in dem Fahrzeug als eins bestimmt wurde.
6 ist eine Ansicht, die eine Konfiguration der Haupt-Hardware der Fahrzeugausrüstung und deren Peripherieausrüstung darstellt, gemäß den entsprechenden Ausführungsbeispielen der Erfindung.

BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
Ausführungsbeispiele der Erfindung werden anhand der beigefügten Zeichnungen detailliert beschrieben.
Ausführungsbeispiel 1
1 zeigt ein Blockdiagramm, das ein Beispiel der Konfiguration von Fahrzeugausrüstung 1 gemäß Ausführungsbeispiel 1 der Erfindung darstellt. Die Fahrzeugausrüstung 1 umfasst eine Spracherkennungseinheit 11, eine Bestimmungseinheit 12, eine Erkennungssteuereinheit 13 und eine Steuereinheit 14. Die Spracherkennungseinheit 11, die Bestimmungseinheit 12 und die Erkennungssteuereinheit 13 bilden eine Spracherkennungsvorrichtung 10. Außerdem sind eine Spracheingabeeinheit 2, eine Kamera 3, ein Drucksensor 4, eine Anzeigeneinheit 5 und ein Lautsprecher 6 mit der Fahrzeugausrüstung 1 verbunden.
Im in 1 dargestellten Beispiel, ist die Spracherkennungsvorrichtung 10 in der Fahrzeugausrüstung 1 integriert, aber die Spracherkennungsvorrichtung 10 kann auch unabhängig von der Fahrzeugausrüstung 1 konfiguriert sein.
Wenn die Anzahl der Sprecher im Fahrzeug größer als eins ist, arbeitet die Fahrzeugausrüstung 1 auf der Grundlage der Ausgabe des Spracherkennungsvorrichtung 10 entsprechend dem Inhalt einer Äußerung, nachdem sie einen bestimmten Hinweis des Sprechers erhalten hat. Im Gegensatz dazu, wenn die Zahl der Sprecher im Fahrzeug eins ist, arbeitet die Fahrzeugausrüstung 1 gemäß dem Inhalt einer Äußerung des Sprechers, unabhängig von Vorhandensein oder Nichtvorhandensein des Hinweises.
Die Fahrzeugausrüstung 1 ist Ausrüstung die an einem Fahrzeug befestigt ist, z. B. ein Navigationsgerät oder eine Audiovorrichtung.
Die Anzeigeneinheit 5 ist z. B. ein Flüssigkristallbildschirm (LCD), ein organischer Leuchtdioden Bildschirm (OLED) oder dergleichen. Außerdem kann die Anzeigeneinheit 5 ein Display-integriertes Touch-Panel sein, das aus einem LCD oder OLED und einem Touch-Sensor besteht, oder ein Head-Up Display.
Die Spracheingabeeinheit 2 empfängt Sprachäußerungen des Sprechers, implementiert A/D-Umwandlung (Analog/Digital) der Sprachäußerung z. B. mittels PCM (engl. Pulse Code Modulation) und gibt die umgewandelte Äußerung in die Spracherkennungsvorrichtung 10 ein.
Die Spracherkennungseinheit 11 umfasst „einen Befehl zur Bedienung der Fahrzeugausrüstung“ (im Folgenden „ein Befehl“ genannt) und „eine Kombination aus Schlüsselwort und Befehl“ als erkanntes Vokabular und schaltet das erkannte Vokabular basierend auf einer Anweisung der Erkennungssteuereinheit 13 um, die im Folgenden beschrieben wird. „Ein Befehl“ umfasst erkanntes Vokabular wie z. B. „Setze einen Bestimmungsort“, „Suche eine Einrichtung“ und „Radio“.
Das „Schlüsselwort“ dient dazu, der
Spracherkennungsvorrichtung 10 zu verdeutlichen, dass ein Befehl im Begriff ist, von dem Sprecher ausgesprochen zu werden. In Ausführungsbeispiel 1, entspricht Äußerung des Schlüsselworts durch den Sprecher dem vorher genannten „spezifischen Hinweis vom Sprecher“. Das „Schlüsselwort“ kann im Voraus, wenn die Spracherkennungsvorrichtung 10 entworfen wird, oder durch den Sprecher in der Spracherkennungsvorrichtung 10 festgelegt werden. Zum Beispiel, wenn „Mitsubishi“ als „Schlüsselwort“ eingestellt ist, wäre die „Kombination aus Schlüsselwort und Befehl“ „Mitsubishi, setze einen Bestimmungsort“.
Es ist zu beachten, dass die Spracherkennungseinheit 11 erkennen kann, wenn entsprechende Befehle auf andere Weise ausgesprochen werden. Zum Beispiel, können „Bitte setze einen Bestimmungsort“, „Ich möchte einen Bestimmungsort setzen“ und so weiter als andere Weisen für „Setze einen Bestimmungsort“ erkannt werden.
Die Spracherkennungseinheit 11 empfängt digitalisierte Sprachdaten von der Spracheingabeeinheit 2. Die Spracherkennungseinheit 11 erfasst anschließend aus den Sprachdaten eine Sprachzone (nachfolgend als
„Äußerungszone“ bezeichnet) entsprechend dem geäußerten Inhalt durch den Sprecher. Anschließend wird eine charakteristische Menge der Sprachdaten in der Äußerungszone extrahiert. Die Spracherkennungseinheit 11 implementiert dann Erkennungsverarbeitung für die charakteristische Menge, unter Verwendung des erkannten Vokabulars, das von der Erkennungssteuereinheit 13 vorgegeben wird, wie nachfolgend erläutert wird, als ein Erkennungsziel, und gibt ein Erkennungsergebnis an die Erkennungssteuereinheit 13 aus. Ein typisches Verfahren, wie z.B. ein HMM-Verfahren (Hidden Markov Model), kann als Erkennungsverfahren verwendet werden, so dass auf eine detaillierte Beschreibung verzichtet wird.
Außerdem erfasst die Spracherkennungseinheit 11 die Äußerungszone in den Sprachdaten, die von der Spracheingabeeinheit 2 empfangen werden, und implementiert das Erkennungsverfahren innerhalb einem voreingestellten Zeitraum. Der „voreingestellte Zeitraum‟ umfasst z.B. einen Zeitraum, in dem die Fahrzeugausrüstung 1 aktiviert wird, einen Zeitraum, der von einem Zeitpunkt, in dem die Spracherkennungsvorrichtung 10 aktiviert oder reaktiviert wird, bis zu einem Zeitpunkt reicht, in dem die Spracherkennungsvorrichtung 10 deaktiviert oder gestoppt wird, einen Zeitraum, in dem die Spracherkennungseinheit 11 aktiviert wird, und so weiter. In Ausführungsbeispiel 1 wird angenommen, dass die Spracherkennungseinheit 11 die vorher beschriebene Verarbeitung im Zeitraum von der Aktivierung der Spracherkennungsvorrichtung 10 bis zum Zeitpunkt der Deaktivierung der Spracherkennungsvorrichtung 10.
Es ist zu beachten, dass in Ausführungsbeispiel 1 das von der Spracherkennungseinheit 11 ausgegebene Erkennungsergebnis als eine spezifische Zeichenfolge wie z.B. ein Befehlsname beschrieben wird, aber solange die Befehle unterschieden werden können, kann das ausgegebene Erkennungsergebnis jede Form annehmen, wie z. B. eine ID, die durch Ziffern repräsentiert wird. Dies gilt ähnlich für die nachfolgenden Ausführungsbeispiele.
Die Bestimmungseinheit 12 bestimmt, ob die Anzahl der Sprecher im Fahrzeug eins oder größer als eins ist und gibt das Bestimmungsergebnis an die Erkennungssteuereinheit 13 wie nachfolgend beschrieben aus.
In Ausführungsbeispiel 1 wird „Sprecher“ auch als etwas bezeichnet, das dazu führen kann, dass das Spracherkennungsvorrichtung 10 und die Fahrzeugausrüstung 1 irrtümlich durch Sprache arbeiten und Babys, Tiere und dergleichen eingeschlossen sind.
Die Bestimmungseinheit 12 erhält z.B. Bilddaten, die von der am Fahrzeug befestigten Kamera 3 erfasst werden, und ermittelt durch Auswertung der Bilddaten, ob die Anzahl der Passagiere im Fahrzeug eins oder größer als eins ist. Alternativ kann die Bestimmungseinheit 12 Druckdaten für jeden Sitz erhalten, die von dem in jedem Sitz vorgesehenen Drucksensor 4 erfasst werden, und bestimmen, ob die Anzahl der Passagiere im Fahrzeug eins oder größer als eins ist, indem sie basierend auf den Druckdaten bestimmt, ob ein Fahrgast auf jedem Sitz sitzt oder nicht. Die Bestimmungseinheit 12 bestimmt die Anzahl der Passagiere als die Anzahl der Sprecher.
Als Bestimmungsverfahren kann bekannte Technologie verwendet werden, weshalb auf eine detaillierte Beschreibung des Verfahrens verzichtet wird. Es ist zu beachten, dass das Bestimmungsverfahren nicht auf das vorher genannte Verfahren beschränkt ist. Darüber hinaus zeigt 1 eine Konfiguration in der die Kamera 3 sowie der Drucksensor 4 verwendet werden, aber es kann z. B. auch eine Konfiguration übernommen werden, in der nur die Kamera 3 verwendet wird.
Außerdem kann die Bestimmungseinheit 12, wenn die Anzahl der Passagiere im Fahrzeug größer als eins ist, aber die Anzahl der möglichen Sprecher eins ist, bestimmen, dass die Anzahl der Sprecher eins ist.
Beispielsweise, analysiert die Bestimmungseinheit 12 die von der Kamera 3 bezogenen Bilddaten, bestimmt ob die Passagiere Bilddaten sind oder schlafen und zählt die Anzahl der wachen Passagiere als die Anzahl der Sprecher. Im Gegensatz dazu ist es unwahrscheinlich, dass Passagiere, die schlafen, Worte aussprechen, und dementsprechend zählt die Bestimmungseinheit 12 die schlafenden Passagiere nicht zur Anzahl der Sprecher.
Wenn das von der Bestimmungseinheit 12 empfangene Bestimmungsergebnis „größer als eins“ ist weist die Erkennungssteuereinheit 13 die Spracherkennungseinheit 11 an, das erkannte Vokabular als „eine Kombination aus Schlüsselwort und Befehl“ einzustellen. Im Gegensatz dazu, wenn das Bestimmungsergebnis „eins“ ist weist die Erkennungssteuereinheit 13 die Spracherkennungseinheit 11 an, das erkannte Vokabular sowohl als „einen Befehl“ als auch „eine Kombination aus Schlüsselwort und Befehl“ einzustellen.
Wenn die Spracherkennungseinheit 11 „eine Kombination aus Schlüsselwort und Befehl“ als das erkannte Vokabular verwendet, und Sprachäußerungen der Kombination von Schlüsselwort und Befehl entsprechen, wurde eine Erkennung erfolgreich durchgeführt, und im Gegensatz dazu, wenn die Sprachäußerungen nicht der Kombination aus Schlüsselwort und Befehl entsprechen, endet die Erkennung in einem Fehler. Ferner, wenn die Spracherkennungseinheit 11 „einen Befehl“ als das erkannte Vokabular verwendet, und Sprachäußerungen nur dem Befehl entsprechen, wurde eine Erkennung erfolgreich durchgeführt, und im Gegensatz dazu, wenn die Sprachäußerungen nicht dem Befehl entsprechen, endet die Erkennung in einem Fehler.
Wenn also im Fahrzeug nur ein Sprecher vorhanden ist und der Sprecher entweder einen Befehl allein oder eine Kombination aus Schlüsselwort und Befehl ausspricht, erkennt die Spracherkennungsvorrichtung 10 die Äußerung erfolgreich, woraufhin die Fahrzeugausrüstung 1 einen dem Befehl entsprechenden Betrieb ausführt. Ferner, wenn eine Vielzahl von Sprechern im Fahrzeug ist, und einer der Sprecher eine Kombination aus Schlüsselwort und Befehl äußert, erkennt die Spracherkennungsvorrichtung 10 die Äußerung erfolgreich, woraufhin die Fahrzeugausrüstung 1 einen Betrieb, entsprechend des Befehls, durchführt, aber wenn einer der Sprecher einen Befehl allein äußert, erkennt die Spracherkennungsvorrichtung 10 nicht die Äußerung und die Fahrzeugausrüstung 1 führt keinen Betrieb entsprechend des Befehls aus.
Es ist zu beachten, dass in der nachfolgenden Beschreibung angenommen wird, dass die Erkennungssteuereinheit 13 die Spracherkennungseinheit 11 anweist, das erkannte Vokabular in der vorher beschrieben Weise einzustellen, aber stattdessen weist die Erkennungssteuereinheit 13 die Spracherkennungseinheit 11 an, wenigstens „einen Befehl“ zu erkennen, wenn das Bestimmungsergebnis von der Bestimmungseinheit 12 „eins“ ist.
Anstatt die Spracherkennungseinheit 11 wie vorher beschrieben zu konfigurieren, d. h wenn das Bestimmungsergebnis „eins“ ist, wird „ein Befehl“ und „eine Kombination aus Schlüsselwort und Befehl“ als erkanntes Vokabular verwendet, wobei wenigstens „ein Befehl“ erkannt werden kann, so kann die Spracherkennungseinheit 11 mit bekannter Technologie wie z.B. Word-Spotting konfiguriert werden, sodass aus einer Äußerung mit „einem Befehl“ allein der „Befehl“ als Erkennungsergebnis ausgegeben wird.
In einem Fall, in dem das von der Bestimmungseinheit 12 empfangene Bestimmungsergebnis „größer als eins“ ist, übernimmt die Erkennungssteuereinheit 13 nach Empfang des Erkennungsergebnisses von der Spracherkennungseinheit 11 das Erkennungsergebnis, das sich auf die Sprachäußerung nach dem „Schlüsselwort“ bezieht und angibt, dass ein Befehl geäußert werden wird. Im Gegensatz dazu, in einem Fall, in dem das von der Bestimmungseinheit 12 empfangene Bestimmungsergebnis „eins“ ist, übernimmt die Erkennungssteuereinheit 13 nach Empfang des Erkennungsergebnisses von der Spracherkennungseinheit 11 das Erkennungsergebnis, das sich auf die Sprachäußerung bezieht egal, ob das „Schlüsselwort“, das angibt, dass ein Befehl geäußert werden wird, genannt wurde oder nicht. „Übernehmen“ bedeutet hier, dass ein bestimmtes Erkennungsergebnis an die Steuereinheit 14 als „ein Befehl“ ausgegeben wird.
Genauer gesagt, wenn das Erkennungsergebnis, das von der Spracherkennungseinheit 11 empfangen wurde, das „Schlüsselwort“ enthält, löscht die Erkennungssteuereinheit 13 den Teil, der dem „Schlüsselwort“ entspricht aus dem Erkennungsergebnis und gibt den Teil der nach dem „Schlüsselwort“ geäußert wurde und dem „Befehl“ entspricht an die Steuereinheit 14 aus. Im Gegensatz dazu, wenn das Erkennungsergebnis nicht das „Schlüsselwort“ enthält gibt die Erkennungssteuereinheit 13 das Erkennungsergebnis, das dem „Befehl“ entspricht, so wie es ist an die Steuereinheit 14 aus.
Die Steuereinheit 14 führt einen Betrieb entsprechend des Erkennungsergebnisses, das von der Erkennungssteuereinheit 13 empfangen wurde, aus und gibt ein Ergebnis des Betriebs an die Anzeigeneinheit 5 oder durch den Lautsprecher 6 aus. Zum Beispiel, wenn das Erkennungsergebnis, das von der Erkennungssteuereinheit 13 empfangen wurde, „Suche nach einem Lebensmittelgeschäft“ lautet, dann sucht die Steuereinheit 14 mittels Kartendaten nach einem Lebensmittelgeschäft in der Umgebung einer Trägerfahrzeugposition, zeigt ein Suchergebnis auf der Anzeigeneinheit 5 an und gibt über den Lautsprecher 6 Orientierungshilfe aus, dass ein Lebensmittelgeschäft gefunden wurde. Es wird angenommen, dass eine Korrespondenzbeziehung zwischen dem als Erkennungsergebnis dienenden „Befehl“ und dem Betrieb im Voraus in der Steuereinheit 14 eingestellt wird.
Als nächstes wird ein Betrieb der Fahrzeugausrüstung 1 gemäß Ausführungsbeispiel 1 beschrieben, unter Verwendung von Ablaufdiagrammen, dargestellt in 2 und 3, und spezifischen Beispielen. Es ist zu beachten, dass in der nachfolgenden Beschreibung „Mitsubishi“ als „Schlüsselwort“ eingestellt ist, aber das „Schlüsselwort“ ist nicht darauf beschränkt. Ferner wird angenommen, dass die Fahrzeugausrüstung 1 die Verarbeitung der Ablaufdiagramme, dargestellt in 2 und 3, wiederholt ausführt während die Spracherkennungsvorrichtung 10 aktiviert ist.
2 zeigt ein Ablaufdiagramm, implementiert, um das erkannte Vokabular in der Spracherkennungseinheit 11, in Abhängigkeit, ob die Anzahl Sprecher in dem Fahrzeug eins oder größer als eins ist, umzuschalten.
Als erstes bestimmt die Bestimmungseinheit 12 die Anzahl der Sprecher im Fahrzeug, basierend auf Informationen, die von der Kamera 3 oder den Drucksensoren 4 (Schritt ST01) bezogen werden und gibt anschließend das Bestimmungsergebnis an die Erkennungssteuereinheit 13 aus (Schritt ST02).
Als nächstes weist die Erkennungssteuereinheit 13 die Spracherkennungseinheit 11 an, „einen Befehl“ und „eine Kombination aus Schlüsselwort und Befehl“ als erkanntes Vokabular einzustellen, wenn das Bestimmungsergebnis, das von der Bestimmungseinheit 12 empfangen wurde, „eins“ ist („JA“ in Schritt ST03), um sicherzustellen, dass die Fahrzeugausrüstung 1 betrieben werden kann, egal ob der spezifische Hinweis vom Sprecher empfangen wurde oder nicht (Schritt ST04). Im Gegensatz dazu, weist die Erkennungssteuereinheit 13 die Spracherkennungseinheit 11 an, „eine Kombination aus Schlüsselwort und Befehl“ als erkanntes Vokabular einzustellen, wenn das Bestimmungsergebnis, das von der Bestimmungseinheit 12 empfangen wurde, „größer als eins“ ist („NEIN“ in Schritt ST03), um sicherzustellen, dass die Fahrzeugausrüstung 1 nur betrieben werden kann, wenn der spezifische Hinweis vom Sprecher empfangen wurde (Schritt ST05).
3 zeigt ein Ablaufdiagramm, implementiert um Sprachäußerungen vom Sprecher zu erkennen und einen Betrieb entsprechend dem Erkennungsergebnis durchzuführen.
Als erstes empfängt die Spracherkennungseinheit 11 Sprachdaten, die generiert werden, wenn Sprachäußerungen vom Sprecher durch die Spracheingabeeinheit 2 empfangen wurden, und diese werden einer A/D-Umwandlung unterzogen (Schritt ST11). Als nächstes implementiert die Spracherkennungseinheit 11 Erkennungsverfahren an den Sprachdaten, die von der Spracheingabeeinheit 2 empfangen wurden und gibt das Erkennungsergebnis an die Erkennungssteuereinheit 13 aus (Schritt ST12) . Wenn die Erkennung erfolgreich durchgeführt wurde, gibt die Spracherkennungseinheit 11 die erkannte Zeichenfolge oder dergleichen als das Erkennungsergebnis aus. Wenn die Erkennung nicht erfolgreich durchgeführt wurde, gibt die Spracherkennungseinheit 11 eine Nachricht aus, die den Fehlschlag, als Erkennungsergebnis, anzeigt.
Als nächstes empfängt die Erkennungssteuereinheit 13 das Erkennungsergebnis von der Spracherkennungseinheit 11 (Schritt ST13). Die Erkennungssteuereinheit 13 bestimmt dann, ob die Spracherkennung erfolgreich durchgeführt wurde oder nicht, basierend auf dem Erkennungsergebnis und wenn bestimmt wurde, dass die Spracherkennung durch die Spracherkennungseinheit 11 nicht erfolgreich durchgeführt wurde („NEIN“ in Schritt ST14) führt die Erkennungssteuereinheit 13 nichts aus.
Es wird z. B. angenommen, dass eine Vielzahl von Sprechern im Fahrzeug anwesend ist und „Herr A., suche nach einem Lebensmittelgeschäft“ geäußert wurde. In diesem Fall wird während der Verarbeitung der 2, die Anzahl der Sprecher im Fahrzeug als größer als eins bestimmt und da das erkannte Vokabular, das von der Spracherkennungseinheit 11 verwendet wird, auf „eine Kombination aus Schlüsselwort und Befehl“, z. B. „Mitsubishi, Suche nach einem Lebensmittelgeschäft“, gesetzt ist, wird die Spracherkennung durch die Spracherkennungseinheit 11 nicht erfolgreich durchgeführt. Daher bestimmt die Erkennungssteuereinheit 13 „Missglückte Erkennung“, basierend auf dem Erkennungsergebnis, das von der Spracherkennungseinheit 11 empfangen wurde („NEIN“ in Schritt ST14), und als Ergebnis führt die Fahrzeugausrüstung 1 keinen Betrieb aus.
Wenn z.B. aus der bisherigen Entwicklung des Dialogs ersichtlich ist, dass der Adressat des Sprechers Herr A. ist, und der Sprecher sagt „Suche nach einem Lebensmittelgeschäft“, ohne „Herr A.“ zu erwähnen, wird auch die Spracherkennung durch die Spracherkennungseinheit 11 nicht erfolgreich durchgeführt. Daher führt die Fahrzeugausrüstung 1 keinen Betrieb aus.
Im Gegensatz dazu, wenn basierend auf dem von der Spracherkennungseinheit 11 erhaltenen Erkennungsergebnis bestimmt wird, dass die Spracherkennung durch die Spracherkennungseinheit 11 erfolgreich durchgeführt wurde („JA“ in Schritt ST14), bestimmt die Erkennungssteuereinheit 13, ob das Erkennungsergebnis das Schlüsselwort enthält oder nicht (Schritt ST15). Wenn das Erkennungsergebnis das „Schlüsselwort“ enthält („JA“ in Schritt ST15) löscht die Erkennungssteuereinheit 13 das Schlüsselwort aus dem Erkennungsergebnis und gibt das Erkennungsergebnis an die Steuereinheit 14 aus (Schritt ST16).
Als nächstes empfängt die Steuereinheit 14 das Erkennungsergebnis, aus dem das Schlüsselwort gelöscht wurde, von der Erkennungssteuereinheit 13 und führt einen Betrieb entsprechend des empfangenen Erkennungsergebnis aus (Schritt ST17).
Es wird z. B. angenommen, dass eine Vielzahl von Sprechern im Fahrzeug anwesend ist und „Mitsubishi, suche nach einem Lebensmittelgeschäft“ geäußert wurde. In diesem Fall wird während der Verarbeitung der 2, die Anzahl der Sprecher im Fahrzeug als größer als eins bestimmt und das erkannte Vokabular, das von der Spracherkennungseinheit 11 verwendet wird, auf „eine Kombination aus Schlüsselwort und Befehl“ gesetzt ist. Somit erkennt die Spracherkennungseinheit 11 erfolgreich die vorherige Äußerung inklusive des Schlüsselworts und die Erkennungssteuereinheit 13 bestimmt „Erfolgreiche Erkennung“, basierend auf dem Erkennungsergebnis, das von der Spracherkennungseinheit 11 empfangen wurde („JA“ in Schritt ST14) .
Die Erkennungssteuereinheit 13 gibt dann „Suche nach einem Lebensmittelgeschäft“, das durch Löschung des „Schlüsselworts“ „Mitsubishi“ aus dem empfangenen Erkennungsergebnis, nämlich „Mitsubishi, Suche nach einem Lebensmittelgeschäft“, erhalten wird, an die Steuereinheit 14 als einen Befehl aus („JA“ in Schritt ST15, Schritt ST16). Die Steuereinheit 14 sucht dann mittels der Kartendaten nach einem Lebensmittelgeschäft in der Umgebung der Trägerfahrzeugposition, zeigt das Suchergebnis auf der Anzeigeneinheit 5 an und gibt über den Lautsprecher 6 Orientierungshilfe aus, dass ein Lebensmittelgeschäft gefunden wurde (Schritt ST17).
Im Gegensatz dazu, wenn das Erkennungsergebnis nicht das „Schlüsselwort“ („NEIN“ in Schritt ST15) enthält, gibt die Erkennungssteuereinheit 13 das Erkennungsergebnis so wie es ist als Befehl an die Steuereinheit 14 aus. Eine Steuereinheit 14 führt dann eine Operation, die dem von der Erkennungssteuereinheit 13 empfangenen Erkennungsergebnis entspricht, aus (Schritt ST18).
Es wird z. B. angenommen, dass nur ein Sprecher im Fahrzeug ist und „Suche nach einem Lebensmittelgeschäft“ geäußert wurde. In diesem Fall wird während der Verarbeitung der 2, die Anzahl der Sprecher im Fahrzeug als eins bestimmt und das erkannte Vokabular, das von der Spracherkennungseinheit 11 verwendet wird, sowohl auf „ein Befehl“ und „eine Kombination aus Schlüsselwort und Befehl“ gesetzt ist. Somit wird das Erkennungsverfahren durch die Spracherkennungseinheit 11 erfolgreich durchgeführt und daher bestimmt die Erkennungssteuereinheit 13 „Erfolgreiche Erkennung“, basierend auf dem Erkennungsergebnis, das von der Spracherkennungseinheit 11 empfangen wurde („JA“ in Schritt ST14) . Die Erkennungssteuereinheit 13 gibt dann das empfangene Erkennungsergebnis, nämlich „Suche nach einem Lebensmittelgeschäft“ an die Steuereinheit 14 aus. Die Steuereinheit 14 sucht dann mittels der Kartendaten nach einem Lebensmittelgeschäft in der Umgebung der Trägerfahrzeugposition, zeigt das Suchergebnis auf der Anzeigeneinheit 5 an und gibt über den Lautsprecher 6 Orientierungshilfe aus, dass ein Lebensmittelgeschäft gefunden wurde (Schritt ST17).
Ferner wird z.B. angenommen, dass nur ein Sprecher im Fahrzeug ist und „Mitsubishi, Suche nach einem Lebensmittelgeschäft“ geäußert wurde. In diesem Fall wird während der Verarbeitung der 2, die Anzahl der Sprecher im Fahrzeug als eins bestimmt und da das erkannte Vokabular, das von der Spracherkennungseinheit 11 verwendet wird, sowohl auf „ein Befehl“ und „eine Kombination aus Schlüsselwort und Befehl“ gesetzt ist, wird das Erkennungsverfahren durch die Spracherkennungseinheit 11 erfolgreich durchgeführt. Dementsprechend bestimmt die Erkennungssteuereinheit 13 „Erfolgreiche Erkennung“, basierend auf dem Erkennungsergebnis, das von der Spracherkennungseinheit 11 empfangen wurde („JA“ in Schritt ST11 bis Schritt ST14). In diesem Fall umfasst das Erkennungsergebnis das Schlüsselwort zusätzlich zu einem Befehl, und deshalb löscht die Erkennungssteuereinheit 13 das unnötige „Mitsubishi“ aus dem empfangenen Erkennungsergebnis, nämlich „Mitsubishi, Suche nach einem Lebensmittelgeschäft“, und gibt „Suche nach einem Lebensmittelgeschäft“ an die Steuereinheit 14 aus.
Gemäß Ausführungsbeispiel 1, wie vorher beschrieben, ist die Spracherkennungsvorrichtung 10 konfiguriert, um die Spracherkennungseinheit 11, zur Erkennung von Sprache und Ausgabe des Erkennungsergebnis, die Bestimmungseinheit 12, zur Bestimmung, ob die Anzahl der Sprecher im Fahrzeug eins oder größer als eins ist, und um das Bestimmungsergebnis auszugeben, und die Erkennungssteuereinheit 13, die auf der Grundlage der von der Spracherkennungseinheit 11 und der Bestimmungseinheit 12 ausgegebenen Ergebnisse ein Erkennungsergebnis in Bezug auf die Sprachäußerung übernimmt, die nach dem Hinweis, dass die Äußerung im Begriff ist, zu beginnen, empfangen wird, wenn die Anzahl der Sprecher als größer als eins bestimmt wird, und ein Erkennungsergebnis übernimmt, wenn die Anzahl der Sprecher als eins bestimmt wird, unabhängig davon, ob sich das Erkennungsergebnis auf die Sprachäußerung bezieht, nachdem der Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wurde, oder das Erkennungsergebnis sich auf die Sprachäußerung in einem Fall bezieht, in dem der Hinweis, dass die Äußerung beginnen wird, nicht empfangen wurde, zu umfassen. Somit kann eine Situation, in der eine Äußerung, die von einem bestimmten Sprecher an einen anderen Sprecher gegeben wurde, irrtümlich als Befehl erkannt wird, vermieden werden, wenn eine Vielzahl von Sprechern im Fahrzeug gegenwärtig sind. Darüber hinaus, wenn nur ein Sprecher im Fahrzeug gegenwärtig ist, muss der Sprecher nicht eine spezifische Äußerung vor einem Befehl aussprechen wodurch unangenehmer und mühsamer Dialog vermieden werden kann, was zu einer Verbesserung der Bedienbarkeit führt. Dadurch kann ein natürlicher Dialog ähnlich einem Dialog zwischen Menschen erreicht werden.
Ferner ist die Fahrzeugausrüstung 1 gemäß dem Ausführungsbeispiel 1 konfiguriert, die Spracherkennungsvorrichtung 10 und die Steuereinheit 14 zur Durchführung eines Betriebs entsprechend dem Erkennungsergebnis, das von der Spracherkennungsvorrichtung 10 übernommen wurde, zu umfassen, und somit kann eine Situation, in der ein Betrieb fälschlicherweise als Reaktion auf eine Äußerung, die von einem bestimmten Sprecher an einen anderen Sprecher gegeben wird, wenn mehrere Sprecher im Fahrzeug gegenwärtig sind, durchgeführt wird, vermieden werden. Darüber hinaus, wenn nur ein Sprecher im Fahrzeug gegenwärtig ist, muss der Sprecher nicht eine spezifische Äußerung vor einem Befehl aussprechen wodurch unangenehmer und mühsamer Dialog vermieden werden kann, was zu einer Verbesserung der Bedienbarkeit führt.
Darüber hinaus bestimmt die Bestimmungseinheit 12 gemäß Ausführungsbeispiel 1, dass die Anzahl der Sprecher eins ist, wenn die Anzahl der Passagiere im Fahrzeug größer als eins ist, aber die Anzahl der möglichen Sprecher eins ist, und daher kann der Fahrer die Fahrzeugausrüstung 1 bedienen, ohne eine bestimmte Äußerung zu äußern, wenn beispielsweise andere Passagiere als der Fahrer schlafen.
Ausführungsbeispiel 2
4 zeigt ein Blockdiagramm, das eine Beispielkonfiguration der Fahrzeugausrüstung 1 gemäß Ausführungsbeispiel 2 der Erfindung darstellt. Es ist zu beachten, dass Konfigurationen, die mit denen aus Ausführungsbeispiel 1 identisch sind, mit identischen Referenznummern versehen sind und auf eine weitere Erläuterung derer wird daher verzichtet.
In Ausführungsbeispiel 2 wird der „spezifische Hinweis‟, der verdeutlicht, dass der Sprecher einen Befehl äußern wird, als „ein manueller Vorgang, der anzeigt, dass ein Befehl ausgesprochen werden wird“ eingestellt. Wenn die Anzahl der Sprecher im Fahrzeug größer als eins ist, arbeitet die Fahrzeugausrüstung 1 als Reaktion auf den Inhalt, der nach einer manuellen Betätigung geäußert wurde, die anzeigt, dass der Sprecher einen Befehl aussprechen wird. Im Gegensatz dazu, wenn die Zahl der Sprecher im Fahrzeug eins ist, arbeitet die Fahrzeugausrüstung 1 als Reaktion auf den Inhalt einer Äußerung durch den Sprecher, egal ob ein manueller Betrieb durchgeführt wird oder nicht.
Eine Hinweiseingabeeinheit 7 empfängt einen Hinweis, der manuell vom Sprecher eingegeben wird. Der Hinweis erfolgt z.B. mit einem Schalter auf einer Hardware, einem in eine Anzeige integrierten Touchsensor oder einer Erkennungsvorrichtung, das einen Hinweis erkennt, der vom Sprecher über eine Fernbedienung eingegeben wird.
Die Hinweiseingabeeinheit 7 gibt bei Empfang eines Eingabehinweis, der anzeigt, dass ein Befehl geäußert werden wird, den Hinweis, dass eine Äußerung bevorsteht, an eine Erkennungssteuereinheit 13a aus.
In einem Fall, in dem das von der Bestimmungseinheit 12 empfangene Bestimmungsergebnis „größer als eins“ ist, benachrichtigt die Erkennungssteuereinheit 13a, nach Empfang des Hinweises von der Hinweiseingabeeinheit 7, dass ein Befehl geäußert werden wird, eine Spracherkennungseinheit 11a, dass ein Befehl geäußert werden wird.
Nach Empfang des Hinweises, dass ein Befehl geäußert werden wird, von der Hinweiseingabeeinheit 7 übernimmt die Erkennungssteuereinheit 13a das Erkennungsergebnis, dass von der Spracherkennungseinheit 11a empfangen wurde, und gibt das Erkennungsergebnis an die Steuereinheit 14 aus. Im Gegensatz dazu, wenn der Hinweis, dass ein Befehl geäußert werden wird nicht von der Hinweiseingabeeinheit 7 empfangen wird, verwirft die Erkennungssteuereinheit 13a das Erkennungsergebnis, das von der Spracherkennungseinheit 11a ausgegeben wird, anstatt das Erkennungsergebnis zu übernehmen. Das heißt, die Erkennungssteuereinheit 13a gibt nicht das Erkennungsergebnis an die Steuereinheit 14 aus.
In einem Fall, in dem das von der Bestimmungseinheit 12 empfangene Bestimmungsergebnis „eins“ ist, übernimmt die Erkennungssteuereinheit 13a das von der Spracherkennungseinheit 11a empfangene Erkennungsergebnis und gibt das Erkennungsergebnis an die Steuereinheit 14 aus, unabhängig davon, ob von der Hinweiseingabeeinheit 7 der Hinweis, dass eine Äußerung bevorsteht, empfangen wurde oder nicht.
Die Spracherkennungseinheit 11a verwendet „einen Befehl“ als erkanntes Vokabular, unabhängig davon, ob die Anzahl der Sprecher im Fahrzeug eins oder größer als eins ist, implementiert das Erkennungsverfahren beim Empfang von Sprachdaten von der Spracheingabeeinheit 2 und gibt das Erkennungsergebnis an die Erkennungssteuereinheit 13a aus. In einem Fall, in dem das Bestimmungsergebnis der Bestimmungseinheit 12 „größer als eins“ ist, zeigt die Benachrichtigung der Erkennungssteuereinheit 13a deutlich an, dass ein Befehl geäußert werden wird und somit eine Erkennungsrate der Spracherkennungseinheit 11a verbessert werden kann.
Als nächstes wird ein Betrieb der Fahrzeugausrüstung 1 gemäß Ausführungsbeispiel 2 beschrieben, unter Verwendung von Ablaufdiagrammen, dargestellt in 5A und 5B. Es ist zu beachten, dass in Ausführungsbeispiel 2 angenommen wird, dass die Bestimmungseinheit 12 bestimmt ob die Anzahl der Sprecher im Fahrzeug größer als eins ist oder nicht und das Bestimmungsergebnis an die Erkennungssteuereinheit 13a ausgibt während die Spracherkennungsvorrichtung 10 aktiviert ist. Außerdem wird angenommen, dass während die Spracherkennungsvorrichtung 10 aktiviert ist, die Spracherkennungseinheit 11 Erkennungsverfahren an den von der Spracheingabeeinheit 2 empfangenen Sprachdaten implementiert und das Erkennungsergebnis an die Erkennungssteuereinheit 13a ausgibt, egal ob Hinweise dass ein Befehl geäußert werden wird vorhanden sind oder nicht.
5A zeigt ein Ablaufdiagramm, dass Verarbeitung darstellt, die in einem Fall durchgeführt wird, in dem die Bestimmungseinheit 12 bestimmt, dass die Anzahl der Sprecher im Fahrzeug größer als eins ist. Es wird angenommen, dass die Fahrzeugausrüstung 1 die Verarbeitung des Ablaufdiagramms, dargestellt in 5A, wiederholt ausführt, während die Spracherkennungsvorrichtung 10 aktiviert ist.
Als erstes benachrichtigt die Erkennungssteuereinheit 13a, nach Empfang des Hinweises, dass ein Befehl geäußert werden wird, von der Hinweiseingabeeinheit 7 („JA“ in Schritt ST21), die Spracherkennungseinheit 11a, dass ein Befehl geäußert werden wird (Schritt ST22). Als nächstes empfängt die Erkennungssteuereinheit 13a das Erkennungsergebnis von der Spracherkennungseinheit 11a (Schritt ST23) und bestimmt ob Spracherkennung erfolgreich durchgeführt wurde, basierend auf dem Erkennungsergebnis (Schritt ST24) .
Nachdem „Erfolgreiche Erkennung“ bestimmt wurde („JA“ in Schritt ST24) gibt die Erkennungssteuereinheit 13a das Erkennungsergebnis an die Steuereinheit 14 aus. Die Steuereinheit 14 führt dann einen Betrieb durch, der dem von der Erkennungssteuereinheit 13a empfangenen Erkennungsergebnis entspricht (Schritt ST25) . Im Gegensatz dazu, nachdem „Missglückte Erkennung“ bestimmt wurde („NEIN“ in Schritt ST24), führt die Erkennungssteuereinheit 13a nichts aus.
Wenn der Hinweis, dass ein Befehl geäußert werden wird, nicht von der Hinweiseingabeeinheit 7 empfangen wird („NEIN“ in Schritt ST21), verwirft die Erkennungssteuereinheit 13a das Erkennungsergebnis, selbst wenn das Erkennungsergebnis von der Spracherkennungseinheit 11a empfangen wird. Das heißt, selbst wenn die Spracherkennungsvorrichtung 10 die Sprachäußerung des Sprechers erkennt, führt die Fahrzeugausrüstung 1 keinen Betrieb aus.
5B zeigt ein Ablaufdiagramm, dass Verarbeitung darstellt, die in einem Fall durchgeführt wird, in dem die Bestimmungseinheit 12 bestimmt, dass die Anzahl der Sprecher im Fahrzeug eins ist. Es wird angenommen, dass die Fahrzeugausrüstung 1 die Verarbeitung des Ablaufdiagramms, dargestellt in 5B, wiederholt ausführt, während die Spracherkennungsvorrichtung 10 aktiviert ist.
Als erstes empfängt die Erkennungssteuereinheit 13a das Erkennungsergebnis von der Spracherkennungseinheit 11a (Schritt ST31). Als nächstes bestimmt die Erkennungssteuereinheit 13a ob Spracherkennung erfolgreich durchgeführt wurde, basierend auf dem Erkennungsergebnis (Schritt ST32), und gibt das Erkennungsergebnis an die Steuereinheit 14 aus („JA“ in Schritt ST32), wenn „Erfolgreiche Erkennung“ bestimmt wurde. Die Steuereinheit 14 führt dann einen Betrieb durch, der dem von der Erkennungssteuereinheit 13a empfangenen Erkennungsergebnis entspricht (Schritt ST33).
Im Gegensatz dazu, nachdem „Missglückte Erkennung“ bestimmt wurde („NEIN“ in Schritt ST32), führt die Erkennungssteuereinheit 13a nichts aus.
Gemäß Ausführungsbeispiel 2, wie vorher beschrieben, ist die Spracherkennungsvorrichtung 10 konfiguriert, um die Spracherkennungseinheit 11a, zur Erkennung von Sprache und Ausgabe des Erkennungsergebnis, die Bestimmungseinheit 12, zur Bestimmung, ob die Anzahl der Sprecher im Fahrzeug eins oder größer als eins ist, und um das Bestimmungsergebnis auszugeben, und die Erkennungssteuereinheit 13a, die auf der Grundlage der von der Spracherkennungseinheit 11a und der Bestimmungseinheit 12 ausgegebenen Ergebnisse ein Erkennungsergebnis in Bezug auf die Sprachäußerung übernimmt, die nach dem Hinweis, dass die Äußerung im Begriff ist, zu beginnen, empfangen wird, wenn die Anzahl der Sprecher als größer als eins bestimmt wird, und ein Erkennungsergebnis übernimmt, wenn die Anzahl der Sprecher als eins bestimmt wird, unabhängig davon, ob sich das Erkennungsergebnis auf die Sprachäußerung bezieht, nachdem der Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wurde, oder das Erkennungsergebnis sich auf die Sprachäußerung in einem Fall bezieht, in dem der Hinweis, dass die Äußerung beginnen wird, nicht empfangen wurde, zu umfassen. Somit kann eine Situation, in der eine Äußerung, die von einem bestimmten Sprecher an einen anderen Sprecher gegeben wurde, irrtümlich als Befehl erkannt wird, vermieden werden, wenn eine Vielzahl von Sprechern im Fahrzeug gegenwärtig sind. Darüber hinaus, wenn nur ein Sprecher im Fahrzeug gegenwärtig ist, muss der Sprecher nicht eine spezifische Bedienung vor einem Befehl aussprechen wodurch unangenehme und mühsame Äußerungen vermieden werden können, was zu einer Verbesserung der Bedienbarkeit führt. Dadurch kann ein natürlicher Dialog, der einen einem Dialog zwischen Menschen nachahmt, erreicht werden.
Ferner ist die Fahrzeugausrüstung 1 gemäß Ausführungsbeispiel 2 konfiguriert, die Spracherkennungsvorrichtung 10 und die Steuereinheit 14 zur Durchführung eines Betriebs entsprechend dem Erkennungsergebnis, das von der Spracherkennungsvorrichtung 10 übernommen wurde, zu umfassen, und somit kann eine Situation, in der ein Betrieb fälschlicherweise als Reaktion auf eine Äußerung, die von einem bestimmten Sprecher an einen anderen Sprecher gegeben wird, wenn mehrere Sprecher im Fahrzeug gegenwärtig sind, durchgeführt wird, vermieden werden. Darüber hinaus, wenn nur ein Sprecher im Fahrzeug gegenwärtig ist, muss der Sprecher nicht eine spezifische Bedienung vor einem Befehl aussprechen, wodurch unangenehmer und mühsamer Dialog vermieden werden kann, was zu einer Verbesserung der Bedienbarkeit führt.
Darüber hinaus kann die Bestimmungseinheit 12 gemäß Ausführungsbeispiel 2, ähnlich wie Ausführungsbeispiel 1, bestimmen, dass die Anzahl der Sprecher eins ist, wenn die Anzahl der Passagiere im Fahrzeug größer als eins ist, aber die Anzahl der möglichen Sprecher eins ist, und daher kann der Fahrer die Fahrzeugausrüstung 1 bedienen, ohne einen bestimmten Betrieb durchzuführen, wenn beispielsweise andere Passagiere als der Fahrer schlafen.
Als nächstes wird ein modifiziertes Beispiel der Spracherkennungsvorrichtung 10 beschrieben.
In der in 1 dargestellten Spracherkennungsvorrichtung 10 erkennt die Spracherkennungseinheit 11 Sprachäußerungen mittels „eines Befehls“ und „einer Kombination aus Schlüsselwort und Befehl“ als erkanntes Vokabular, egal ob die Zahl der Sprecher im Fahrzeug eins oder größer als eins ist. Die Spracherkennungseinheit 11 gibt den „Befehl“ alleine als das Erkennungsergebnis aus oder gibt das „Schlüsselwort“ und den „Befehl“ als das Erkennungsergebnis aus, oder gibt eine Nachricht aus, die missglückte Erkennung als das Erkennungsergebnis anzeigt.
In einem Fall, in dem das von der Bestimmungseinheit 12 empfangene Bestimmungsergebnis „größer als eins“ ist, übernimmt die Erkennungssteuereinheit 13 nach Empfang des Erkennungsergebnisses von der Spracherkennungseinheit 11 das Erkennungsergebnis, das sich auf die Sprachäußerung nach dem „Schlüsselwort“ bezieht.
Das heißt, wenn das Erkennungsergebnis, das von der Spracherkennungseinheit11 empfangen wurde, das „Schlüsselwort“ und auch „einen Befehl“ enthält, löscht die Erkennungssteuereinheit 13 den Teil, der dem „Schlüsselwort“ entspricht aus dem Erkennungsergebnis und gibt den Teil der nach dem „Schlüsselwort“ geäußert wurde und dem „Befehl“ entspricht an die Steuereinheit 14 aus. Im Gegensatz dazu, wenn das Erkennungsergebnis, das von der Erkennungssteuereinheit 11 empfangen wurde, nicht das „Schlüsselwort“ enthält, verwirft die Erkennungssteuereinheit 13 das Erkennungsergebnis, ohne das Erkennungsergebnis zu übernehmen und gibt das Erkennungsergebnis nicht an die Steuereinheit 14 aus.
Ferner führt die Erkennungssteuereinheit 13 nichts aus, wenn Erkennung durch die Spracherkennungseinheit 11 missglückt.
In einem Fall, in dem das von der Bestimmungseinheit 12 empfangene Bestimmungsergebnis „eins“ ist, übernimmt die Erkennungssteuereinheit 13 nach Empfang des Erkennungsergebnisses von der Spracherkennungseinheit 11 das Erkennungsergebnis, das sich auf die Sprachäußerung bezieht egal, ob das „Schlüsselwort“ genannt wurde oder nicht.
Das heißt, wenn das Erkennungsergebnis, das von der Spracherkennungseinheit 11 empfangen wurde, das „Schlüsselwort“ und auch „einen Befehl“ enthält, löscht die Erkennungssteuereinheit 13 den Teil, der dem „Schlüsselwort“ entspricht aus dem Erkennungsergebnis und gibt den Teil der nach dem „Schlüsselwort“ geäußert wurde und dem „Befehl“ entspricht an die Steuereinheit 14 aus. Im Gegensatz dazu, wenn das Erkennungsergebnis, das von der Spracherkennungseinheit 11 empfangen wurde, nicht das „Schlüsselwort“ enthält gibt die Erkennungssteuereinheit 13 das Erkennungsergebnis, das dem „Befehl“ entspricht, so wie es ist an die Steuereinheit 14 aus.
Ferner führt die Erkennungssteuereinheit 13 nichts aus, wenn Erkennung durch die Spracherkennungseinheit 11 missglückt.
Als nächstes wird eine Beispielkonfiguration der Haupt-Hardware der Fahrzeugausrüstung 1, gemäß den Ausführungsbeispielen 1 und 2 der Erfindung, sowie deren Peripherieausrüstung erläutert. 6 ist eine Ansicht, die eine Konfiguration der Haupt-Hardware der Fahrzeugausrüstung 1 darstellt, gemäß den entsprechenden Ausführungsbeispielen der Erfindung, sowie deren Peripherieausrüstung.
Entsprechende Funktionen der Spracherkennungseinheiten 11, 11a, der Bestimmungseinheit 12, der Erkennungssteuereinheiten 13, 13a und der Steuereinheit 14, die in der Fahrzeugausrüstung 1 vorgesehen sind, werden durch einen Verarbeitungskreislauf erreicht. Konkret umfasst die Fahrzeugausrüstung 1 einen Verarbeitungskreislauf zur Bestimmung, ob die Zahl der Sprecher im Fahrzeug eins oder größer als eins ist, zur Übernahme des Erkennungsergebnisses, das sich auf die Sprachäußerung bezieht, nachdem der Hinweis empfangen wurde, dass eine Äußerung bevorsteht, wenn die Anzahl an Sprechern als größer als eins bestimmt wurde, zur Übernahme des Erkennungsergebnisses, das sich auf die Sprachäußerung bezieht, egal ob der Hinweis empfangen wurde, dass eine Äußerung bevorsteht oder nicht, wenn die Anzahl an Sprechern als eins bestimmt wurde, und zur Durchführung eines Betriebs, entsprechend dem übernommenen Erkennungsergebnis. Der Verarbeitungskreislauf ist ein Prozessor 101, der ein Programm ausführt, das in einem Speicher 102 gespeichert ist. Der Prozessor 101 ist eine CPU (engl. Central Processing Unit), eine Verarbeitungsvorrichtung, eine Berechnungsvorrichtung, ein Mikroprozessor, ein Mikrocomputer, ein DSP (engl. Digital Signal Processor) oder dergleichen. Es ist zu beachten, dass entsprechende Funktionen der Fahrzeugausrüstung 1 mittels einer Vielzahl von Prozessoren 101 erreicht werden können.
Die entsprechenden Funktionen der Spracherkennungseinheiten 11, 11a, der Bestimmungseinheit 12, der Erkennungssteuereinheiten 13, 13a und der Steuereinheit 14, werden durch Software, Firmware oder eine Kombination aus Software und Firmware erreicht. Die Software oder Firmware wird als Programme beschrieben und in dem Speicher 102 gespeichert. Der Prozessor 101 erfüllt die Funktionen der jeweiligen Einheiten durch Lesen und Ausführen der Programme die im Speicher 102 gespeichert sind. Genauer gesagt, enthält die Fahrzeugeinrichtung 1 den Speicher 102, der zur Speicherung der Programme dient, die, wenn sie vom Prozessor 101 ausgeführt werden, die in 2 und 3 gezeigten Schritte oder die in 5 gezeigten Schritte entsprechend ausführen lassen können. Die Programme können auch einen Computer Vorgänge oder Verfahren der Spracherkennungseinheiten 11, 11a, der Bestimmungseinheit 12, der Erkennungssteuergeräte 13, 13a und der Steuereinheit 14 ausführen lassen. Der Speicher 102 kann z. B. ein Nichtflüchtiger oder ein flüchtiger Halbleiterspeicher wie ein Speicher mit wahlfreiem Zugriff, ein Nurlese-Speicher, ein Flash-Speicher, ein EPROM oder ein EEPROM, eine magnetische Platte wie eine Festplatte oder eine flexible Platte oder eine optische Disk wie eine Minidisc, eine CD oder DVD sein.
Eine Eingabevorrichtung 103 dient als die Spracheingabeeinheit 2, die Kamera 3, der Drucksensor 4 und die Hinweiseingabeeinheit 7. Eine Ausgabevorrichtung 104 dient als die Anzeigeneinheit 5 und die Lautsprecher 6.
Es ist zu beachten, dass im Rahmen der Erfindung die jeweiligen Ausführungsbeispiele der Erfindung frei miteinander kombiniert werden können und dass alle Bestandteile jedes Ausführungsbeispiels modifiziert oder weggelassen werden können.
INDUSTRIELLE ANWENDBARKEIT
Die Spracherkennungsvorrichtung gemäß der Erfindung übernimmt das Erkennungsergebnis, das sich auf die Sprachäußerung bezieht, nachdem der Hinweis empfangen wurde, dass eine Äußerung bevorsteht, wenn die Anzahl der Sprecher größer als eins ist, und übernimmt das Erkennungsergebnis, das sich auf die Sprachäußerung bezieht, egal ob der Hinweis empfangen wurde, wenn die Anzahl der Sprecher eins ist, und ist deshalb geeignet als eine Fahrzeug-Spracherkennungsvorrichtung oder dergleichen, die Äußerungen, die von Sprechern geäußert werden, jeder Zeit zu erkennen.
Bezugszeichenliste

1: Fahrzeugbordausstattung
2: Spracheingabeeinheit
3: Kamera
4: Drucksensor
5: Anzeigeneinheit
6: Lautsprecher
7: Hinweiseingabeeinheit
10: Spracherkennungsvorrichtung
11, 11a: Spracherkennungseinheit
12: Bestimmungseinheit
13, 13a: Erkennungssteuereinheit
14: Steuereinheit
101: Prozessor
102: Speicher
103: Eingabevorrichtung
104: Ausgabevorrichtung

Claims

Fahrzeug-Spracherkennungsvorrichtung umfassend: eine Spracherkennungseinheit (11, 11a) zur Erkennung von Sprache und zur Ausgabe eines Erkennungsergebnisses; eine Bestimmungseinheit (12), zur Bestimmung, ob die Anzahl der Sprecher in einem Fahrzeug eins oder größer als eins ist, und zum Ausgeben eines Bestimmungsergebnisses; und eine Erkennungssteuereinheit (13, 13a), die auf Grundlage der von der Spracherkennungseinheit (11, 11a) und der Bestimmungseinheit (12) ausgegebenen Ergebnisse ein Erkennungsergebnis mit Bezug auf eine Sprachäußerung übernimmt, die nach einem Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wird, wenn die Anzahl der Sprecher als größer als eins bestimmt wird, und, wobei die Erkennungssteuereinheit (13,13a), wenn die Anzahl der Sprecher als eins bestimmt wird, ein Erkennungsergebnis unabhängig davon übernimmt, ob sich das Erkennungsergebnis auf eine Sprachäußerung bezieht, nachdem ein Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wurde, oder ob sich das Erkennungsergebnis auf eine Sprachäußerung in einem Fall bezieht, in dem der Hinweis, dass eine Äußerung unmittelbar bevorsteht, nicht empfangen wird.
Fahrzeug-Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Bestimmungseinheit (12) bestimmt, dass die Anzahl der Sprecher eins ist, wenn die Anzahl der Passagiere im Fahrzeug größer als eins ist, aber die Zahl der möglichen Sprecher eins ist.
Fahrzeug-Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Bestimmungseinheit (12) bestimmt, ob die Passagiere im Fahrzeug wach sind oder schlafen, und die Passagiere, die wach sind, als mögliche Sprecher zählt.
Fahrzeugausrüstung umfassend: eine Spracherkennungseinheit (11, 11a) zur Erkennung von Sprache und zur Ausgabe eines Erkennungsergebnisses; eine Bestimmungseinheit (12), zur Bestimmung, ob die Anzahl der Sprecher in einem Fahrzeug eins oder größer als eins ist, und zum Ausgeben eines Bestimmungsergebnisses; eine Erkennungssteuereinheit (13, 13a), die auf Grundlage der von der Spracherkennungseinheit (11, 11a) und der Bestimmungseinheit (12) ausgegebenen Ergebnisse ein Erkennungsergebnis mit Bezug auf eine Sprachäußerung übernimmt, die nach einem Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wird, wenn die Anzahl der Sprecher als größer als eins bestimmt wird, und wobei die Erkennungssteuereinheit (13,13a), wenn die Anzahl der Sprecher als eins bestimmt wird, ein Erkennungsergebnis unabhängig davon übernimmt, ob sich das Erkennungsergebnis auf eine Sprachäußerung bezieht, nachdem der Hinweis, dass eine Äußerung im Begriff ist zu beginnen, empfangen wurde, oder ob sich das Erkennungsergebnis auf eine Sprachäußerung in einem Fall bezieht, in dem der Hinweis, dass eine Äußerung unmittelbar bevorsteht, nicht empfangen wird; und eine Steuereinheit (14) zum Durchführen einer Operation, die dem von der Erkennungssteuereinheit (13, 13a) übernommenen Erkennungsergebnis entspricht.