-
Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug. In dem Fahrzeug sind Daten gespeichert, die eine Vielzahl von Informationen und datentechnisch gespeicherte Steuerbefehle, mit denen Fahrzeugeinrichtungen steuerbar sind, umfassen. Die Erfindung betrifft ferner ein Fahrzeug mit einer solchen Sprachschnittstelle.
-
Sprachschnittstellen kommen zunehmend in Fahrzeugen zum Einsatz, um den Nutzungskomfort der zahlreichen Fahrzeugeinrichtungen zu verbessern, wie beispielsweise das Bedienen eines Navigationssystem, einer Telekommunikationseinrichtung oder einer Infotainmenteinrichtung. Dabei wird der Aufruf einer bestimmten Fahrzeugfunktion mittels eines Sprachkommandos ermöglicht, indem ein erfasstes Sprachkommando einem Steuerbefehl zugeordnet wird, durch dessen Auslösen die dazugehörige Fahrzeugfunktion ausgeführt wird. Die akustische Spracheingabe wird dazu zunächst in ein datentechnisches digitales Signal umgewandelt und durch einen Algorithmus einem ebenfalls datentechnisch gespeicherten Steuerbefehl zugeordnet, der wiederum in der Regel über einen elektrischen Steuerimpuls in ein physikalisches Signal umgewandelt wird. Über verschiedene Wandler können so insbesondere mechanische, akustische oder optische Ausgangsgrößen der verschiedenen Fahrzeugeinrichtungen gesteuert werden.
-
Bei Sprachschnittstellen ergibt sich das Problem, dass nicht eindeutige Sprachkommandos oder phonetisch mehrdeutige Spracheingaben auftreten können. Neben unvollständigen oder mehrdeutigen Eingaben seitens des Nutzers, z.B. ein mehrdeutiges Navigationsziel, kommt in einem Fahrzeug noch dazu, dass durch den erhöhten Geräuschpegel im Fahrzeuginnern Spracheingaben auch systemseitig nicht immer korrekt erfasst werden. Bei solchen Mehrdeutigkeiten wird dem Nutzer oft ein Dialog mit dem Sprachcomputer angeboten, beispielsweise ein graphischer Dialog auf einer Anzeigefläche, von der er mögliche Treffer manuell auswählen kann.
-
Die Informationsmenge und die Funktionsvielfalt in Fahrzeugen ist in den letzten Jahren stark angestiegen. Neben einer stetig steigenden Anzahl von datentechnisch gespeicherten Bedienmenüs zum Steuern von diversen Fahrzeugeinrichtungen, z.B. Navigationssystem oder Klimabedienung, ist insbesondere die Funktionsvielfalt in modernen Infotainmenteinrichtungen stark angestiegen. Dem Nutzer muss es ermöglicht werden, im Fahrzeug auch ohne Kenntnisse der Informationsarchitektur zielsicher eine Datei oder Funktion auffinden oder auslösen zu lassen. Dies ist insbesondere wichtig, wenn es sich bei dem Nutzer um den Fahrer des Fahrzeugs handelt, damit dieser durch die Bedienaktionen nicht vom Straßenverkehr abgelenkt wird.
-
Die
US 7 216 080 B2 beschreibt ein Verfahren zur Sprachsteuerung von tragbaren Kleinstcomputern, sogenannten PDAs (Personal Digital Assistants), bei dem zu einer Spracheingabe zunächst ein Kontext ermittelt wird und einer konkreten Funktionsmenge zugeordnet wird, z.B. Kalender, Adressbuch oder Aufgabenliste. Die Spracheingaben können in eine andere Form transformiert werden, beispielsweise als Text dargestellt werden. Eine Spracheingabe kann grammatikalisch und semantisch analysiert werden und in einen Befehl zum Ausführen einer Funktion umgewandelt werden. Spracheingaben können einer Kategorie zugeteilt werden und ggf. disambiguiert werden.
-
Die
WO 00/11571 A1 beschreibt ein Verfahren zum Betreiben einer Sprachschnittstelle, bei dem Spracheingaben semantisch interpretiert und in einen Befehl zum Ausführen einer Maschinenfunktion umgewandelt werden.
-
Die
US 2008/0177541 A1 beschreibt eine Spracherkennungsvorrichtung, bei welcher die Spracheingabe einer Domäne zugeordnet wird.
-
Es ist die Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug der eingangs genannten Art anzugeben, die einen hohen Nutzungskomfort für den Nutzer bieten und ein bequemes und intuitives Bedienen auch ohne genauere Kenntnisse der Informations- und Funktionsvielfalt der Fahrzeugeinrichtungen ermöglichen.
-
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie einer Vorrichtung mit den Merkmalen des Anspruchs 8 gelöst. Vorteilhafte Aus- und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.
-
Bei dem erfindungsgemäßen Verfahren wird eine Spracheingabe erfasst, die Spracheingabe wird analysiert und basierend auf dem Analyseergebnis wird die Spracheingabe einer Kategorie zugeordnet. Dabei wird die Spracheingabe einer ersten Kategorie zugeordnet, wenn die Spracheingabe als Funktionseingabe zum Steuern einer Fahrzeugeinrichtung identifiziert wurde, oder sie wird einer zweiten Kategorie zugeordnet, wenn die Spracheingabe als Sucheingabe zum Suchen in der Vielzahl von Informationen identifiziert wurde. Der Inhalt der Spracheingabe wird mit den datentechnisch gespeicherten Steuerbefehlen verglichen, wenn die Spracheingabe der ersten Kategorie zugeordnet wurde, und der Inhalt der Spracheingabe wird mit den gespeicherten Informationen verglichen, wenn die Spracheingabe der zweiten Kategorie zugeordnet wurde. In Abhängigkeit von der zugeordneten Kategorie und dem Vergleichsergebnis wird eine Treffermenge aus den gespeicherten Daten ermittelt. Die Unterscheidung zwischen einer Suche nach Informationen und einem Befehl zur Funktionsausführung einer Fahrzeugeinrichtung hat den Vorteil, dass die Intention des Nutzers automatisch systemseitig erkannt wird und der Nutzer somit diese vorher nicht erst explizit eingeben muss. Auf diese Weise kann der Sprachdialog vereinheitlicht und vereinfacht werden, so dass dem Nutzer überflüssige Rückfragen erspart bleiben. Diese effiziente Dialogführung verringert die Gefahr, dass der Nutzer, falls es sich dabei um den Fahrer des Fahrzeugs handelt, vom Straßenverkehr abgelenkt wird.
-
Die im Fahrzeug gespeicherten Daten umfassen einerseits datentechnisch gespeicherte Steuerbefehle sowie Informationen. Einzelne Steuerbefehle können mit wenigstens einem Teil der Informationen in Bezug stehen. So gehören zu jeder ausführbaren Funktion nicht nur ein Steuerbefehl zum Ansteuern eines physikalischen Geräts, sondern auch ein dazugehöriger Parametersatz oder assoziierte Informationen oder Datensätze, die typischerweise in einer Zuordnungstabelle abgespeichert sind. Beispielsweise wird ein Telefonanruf auf Basis eines Datensatzes „Telefonbuch“ oder das Ermitteln einer Fahrtroute auf Basis eines Datensatzes „Navigationsinformationen“ durchgeführt. Außerdem können einzelne Datensätzen Medientypen zugeordnet sein, z.B. Text, Audio oder Video, und dazugehörigen spezifischen Funktionen zugeordnet sein, z.B. „Anzeigen“ oder „Abspielen“. Ferner sind die Steuerbefehle selber häufig nicht nur als Steuerbefehle, sondern außerdem als recherchierbare Information, z.B über ein datentechnisch abgelegtes Benutzermenü, verfügbar.
-
Unter Fahrzeugeinrichtungen werden im Sinne der Erfindung alle datentechnisch ansteuerbaren Geräte im Fahrzeug verstanden. Insbesondere sind dies ein Navigationssystem, eine Kommunikationseinrichtung, eine Infotainmenteinrichtung zum Wiedergeben diverser Medientypen, z.B. Radio- und CD-Spieler (CD= Compact Disk), DVD-Spieler (DVD = Digital Versatile Disk), die Klimatisierungsanlage im Fahrzeug insbesondere mit Temperatur- und Lüftungsreglern, sowie weiterer Fahrzeugsteuerungen, z.B. Licht, Scheibenwischer oder elektrischer Fensterheber oder Türöffner.
-
Die Zuordnung der Spracheingabe zu einer Kategorie kann insbesondere bei längeren Spracheingaben in einem iterativen Prozess erfolgen. Dabei wird die Spracheingabe in Fragmente zerlegt, auf Basis derer die Zuordnung der jeweiligen Kategorie durchgeführt wird und bei jeder Iteration mit einem neuen Fragment überprüft wird. Fragmente können beispielsweise Einzelwörter, Wortgruppen oder Halbsätze sein. Vorteilhafterweise werden in der Spracheingabe Schlüsselwörter und/oder grammatikalische Konstruktionen ermittelt und/oder analysiert, um die Spracheingabe der ersten Kategorie oder der zweiten Kategorie zuzuordnen.
-
Falls die Spracheingabe der ersten Kategorie zugeordnet wurde, kann idealer Weise ein eindeutiger Steuerbefehl gefunden werden. Dieser kann entweder per se eindeutig sein, wie z.B. „Radio Aus“ oder „Kofferraum Zu“, oder aber aus dem jeweiligen Kontext zu einer eindeutig ausführbaren Funktion führen, z.B. „Licht An“, wenn gleichzeitig das Fahrzeug in einen Tunnel einfährt und das Einschalten des Abblendlichtes die einzig sinnvolle Funktion darstellt. Der Inhalt der Spracheingabe kann aber in diesem Falle zusätzlich mit Daten, die den identifizierten Steuerbefehlen zugeordnet sind, verglichen werden. Dies ist insbesondere dann sinnvoll, wenn zu einem erkannten Steuerbefehl im konkreten Kontext mehrere Funktionsausführungen möglich sind.
-
Vorteilhafterweise wird, wenn zu der Spracheingabe der ersten Kategorie ein Datensatz ermittelt wurde, der einen eindeutigen Steuerbefehl zum Ausführen einer zugeordneten Funktion einer Fahrzeugeinrichtung darstellt, dieser Steuerbefehl unmittelbar automatisch ausgeführt. Auf diese Weise erübrigt sich die nochmalige Bestätigung seitens des Nutzers, wodurch die Dialogeffizienz erhöht wird, und man eine schnellere Funktionsausführung erhält. Dies ist im Fahrzeug deshalb wichtig, um einerseits die Ablenkung des Fahrers, falls er der Nutzer ist, vom Straßenverkehr zu vermeiden, andererseits können sicherheitsrelevante Funktionen, z.B das Bedienen von Lichtfunktionen, schneller ausgeführt werden, welches zur erhöhten Sicherheit im Straßenverkehr beiträgt.
-
Wenn der Inhalt der Spracheingabe der ersten Kategorie mehrdeutig ist, so dass die Treffermenge mehr als einen Datensatz umfasst und/oder die Spracheingabe der zweiten Kategorie zugeordnet wird, ist es zweckmäßig, zunächst eine Trefferliste anzuzeigen. Die Trefferliste wird beispielsweise auf einer Anzeigefläche angezeigt, die von Fahrer und/oder Beifahrer bequem einzusehen ist.
-
Die Trefferliste kann nach an sich bekannter Art erstellt werden. Insbesondere sind Trefferlisten geläufig, die eine bestimmte Anzahl an Treffern anzeigen, sogenannte N-Best-Listen. Alternativ oder auch zusätzlich ist es möglich, falls kein exakter Treffer gefunden wurde, dass systemseitig ein Vorschlag gemacht wird, beispielsweise durch einen Eintrag „Meinten Sie ..?“.
-
Es kann dazu ferner vorgesehen sein, dass zu der angezeigten Trefferliste eine weitere Nutzereingabe erfasst wird, durch welche ein Eintrag aus der Trefferliste ausgewählt wird, wobei, falls der ausgewählte Treffer einen eindeutigen Steuerbefehl zum Ausführen einer zugeordneten Funktion einer Fahrzeugeinrichtung darstellt, dieser Steuerbefehl unmittelbar auf diese weitere Nutzereingabe ausgeführt wird. Die weitere Nutzereingabe kann z.B. eine manuelle Eingabe sein, die von dem Nutzer über ein Bedienelement, z.B. einen Drehdrücksteller zum Auswählen von Einträgen auf der Anzeigefläche, eingegeben wird. Die Anzeigefläche kann auch mit einer berührungsempfindlichen Oberfläche ausgestattet sein, so dass der Nutzer den betreffenden Eintrag in der Trefferliste direkt auf der Anzeigefläche antippen kann. Die weitere Nutzereingabe kann auch durch eine weitere Spracheingabe oder eine andere Modalität erfasst werden.
-
In der Regel wird es aufgrund der semantischen Analyse der Spracheingabe möglich sein, zwischen einer Sucheingabe und einer Funktionseingabe zu differenzieren Erfindungsgemäß wird jedoch , falls die Spracheingabe keiner Kategorie eindeutig zugeordnet werden kann, die Spracheingabe der zweiten Kategorie, die die Spracheingabe als Sucheingabe identifiziert, zugeordnet. Hierdurch wird der Sprachdialog weiter vereinfacht.
-
Das erfindungsgemäße Verfahren kann so ausgestaltet sein, dass die Zuordnung der Spracheingabe zu einer Kategorie unabhängig von der Art der Aktivierung der Sprachschnittstelle ist. Dadurch wird eine einheitliche Aktivierung des Sprachdialogs durch eine einzige Taste und eine einheitliche graphische Repräsentation des Sprachdialogs ermöglicht
-
Die erfindungsgemäße Vorrichtung zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug umfasst eine Schnittstelle zu Fahrzeugeinrichtungen und einen Datenspeicher, in welchem Daten gespeichert sind, die eine Vielzahl von Informationen und datentechnisch gespeicherte Steuerbefehle, mit denen Funktionen der Fahrzeugeinrichtungen steuerbar sind, umfassen. Sie umfasst des Weiteren Mittel zum Erfassen einer Spracheingabe, Analysemittel zum Analysieren und Zuordnen der Spracheingaben in wenigstens zwei Kategorien und eine Steuereinheit, die mit dem Datenspeicher, der Schnittstelle und den Analysemitteln gekoppelt ist. Bei der erfindungsgemäßen Vorrichtung zum Bereitstellen einer Sprachschnittstelle ist mittels den Analysemitteln wenigstens zwischen einer Funktionseingabe und einer Sucheingabe unterscheidbar und basierend auf dem Analyseergebnis ist die Spracheingabe einer ersten Kategorie zuordenbar, wenn die Spracheingabe als Funktionseingabe zum Steuern einer Fahrzeugeinrichtung identifiziert wurde, oder ist einer zweiten Kategorie zuordenbar, wenn die Spracheingabe als Sucheingabe zum Suchen in der Vielzahl von Informationen identifiziert wurde. Außerdem ist mittels der Steuereinheit ein Vergleich des Inhalts der Spracheingabe mit im Datenspeicher gespeicherten Daten durchführbar, wobei der Inhalt der Spracheingabe mit den datentechnisch gespeicherten Steuerbefehlen verglichen wird, wenn die Spracheingabe der ersten Kategorie zugeordnet wurde, und wobei der Inhalt der Spracheingabe mit den gespeicherten Informationen verglichen wird, wenn die Spracheingabe der zweiten Kategorie zugeordnet wurde. Mittels der Steuereinheit ist in Abhängigkeit von der zugeordneten Kategorie und dem Vergleichsergebnis eine Treffermenge aus den gespeicherten Daten ermittelbar. Optional umfasst die Vorrichtung des Weiteren eine Anzeigefläche zum Anzeigen einer graphischen Dialogrepräsentation, insbesondere zum Anzeigen einer Trefferliste. Die erfindungsgemäße Vorrichtung ist insbesondere zum Durchführen des erfindungsgemaßen Verfahrens geeignet. Sie weist somit auch die Vorteile des erfindungsgemäßen Verfahrens auf.
-
Erfindungsgemäß ist des Weiteren ein Fahrzeug mit einer solchen Vorrichtung zum Bereitstellen einer Sprachschnittstelle ausgestattet.
-
Die Erfindung wird nun anhand eines Ausführungsbeispiels mit Bezug zu den Figuren näher erläutert.
- 1 zeigt schematisch den Aufbau eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung zum Bereitstellen einer Sprachschnittstelle und
- 2 zeigt ein Flussdiagramm zum Ausführen eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens zum Bereitstellen einer Sprachschnittstelle.
-
In 1 ist schematisch der Aufbau eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung zum Bereitstellen einer Sprachschnittstelle dargestellt. Eine Anzeigefläche 1 in einem Fahrzeug ist über eine Steuereinheit 4 mit einem Tastschalter 2A zur manuellen Aktivierung der Sprachschnittstelle (eine sogenannte Push-To-Talk-Taste, kurz PTT-Taste) verbunden. Die Steuereinheit 4 ist ferner mit Mitteln 3 zum Erfassen einer Spracheingabe und dem Datenbus 6 im Fahrzeug verbunden, über den sie Zugriff auf eine oder mehrere Datenbanken 7, 7A, 7B hat. Dies kann eine übergreifende Datenbank 7 sein, in der alle im Fahrzeug anfallenden Daten und datentechnisch gespeicherten Steuerbefehle der diversen Fahrzeugeinrichtungen 8A, 8B abrufbar sind. Jede Fahrzeugeinrichtung 8A, 8B kann zusätzlich eine eigene Datenbank 7A, 7B umfassen, in der die zu der jeweiligen Fahrzeugeinrichtung 8A, 8B spezifischen Daten und datentechnisch gespeicherten Steuerbefehle gespeichert sind. Es sind beispielhaft zwei Fahrzeugeinrichtungen 8A, 8B dargestellt, es kann sich aber auch um nur eine oder eine Vielzahl solcher Einrichtungen handeln. Es handelt sich beispielsweise um eine Telefonanlage, ein Navigationssystem, eine Infotainmenteinrichtung oder die Klimatisierungsanlage im Fahrzeug.
-
Die Mittel 3 zum Erfassen einer Spracheingabe umfassen ein Mikrophon zum Empfang akustischer Signale, ein Softwaremodul zur Sprachaktivitätserkennung sowie einen adaptiven Filter zur Störgeräuschunterdrückung. Die Sprachaktivitätserkennung und der adaptive Filter können alternativ auch in anderer Hardware lokalisiert sein und beispielsweise über die Steuereinheit 4 mit den Mitteln 3 zum Erfassen der Spracheingabe in Verbindung stehen. Die Anzeigefläche 1 ist im gezeigten Beispiel ganz oder bereichsweise mit einer berührungsempfindlichen Oberfläche 2B ausgestattet, so dass über die Anzeigefläche 1 manuelle Eingaben getätigt werden können. Beispielsweise könnte auf einem Teilbereich der Anzeigefläche 10 eine Push-To-Talk-Taste (nicht dargestellt) als Schaltfläche angezeigt werden, sodass der Nutzer durch Berühren der entsprechenden Stelle auf der Anzeigefläche 1 die Sprachschnittstelle aktivieren kann.
-
Auf der Anzeigefläche 1 können verschiedene Informationen graphisch dargestellt werden. Insbesondere handelt es sich bei den Informationen um eine graphische Repräsentation des Sprachdialogs, die nach dem weiter unten noch im Detail beschriebenen erfindungsgemäßen Verfahren eine einheitliche Darstellungsform aufweist, unabhängig davon, ob der Nutzer eine Funktionseingabe zum Ausführen einer Fahrzeugfunktion oder eine Sucheingabe tätigen möchte. Durch die Darstellung einer virtuellen PTT-Taste als Schaltfläche auf der Anzeigefläche 1 kann sich der Nutzer beim Bedienen während des gesamtem Sprachdialogs räumlich auf die Anzeigefläche 1 konzentrieren.
-
Die graphische Repräsentation des Sprachdialogs umfasst einen einheitlichen Textprompt 10, der die zuletzt erfolgte Spracheingabe bzw. die zuletzt erfolgten Spracheingaben, falls es sich um mehrere zueinander gehörige, sich ergänzende oder sich korrigierende Spracheingaben handelt, auf der Anzeigefläche 1 anzeigt. Des Weiteren kann, falls der Spracheingabe eine eindeutige Funktionseingabe zugeordnet wurde, die graphische oder textliche Rückmeldung angezeigt werden, welche Funktion gerade ausgeführt wird, z.B. „Musiktitel XY wird abgespielt“ (nicht dargestellt). Falls der Spracheingabe keine eindeutige Funktionseingabe zugeordnet werden konnte, wird eine Trefferliste 11 angezeigt Die Trefferliste 11 kann einen konkreten Vorschlag 11A für ein systemseitig wahrscheinlich erscheinendes Suchergebnis umfassen. Ferner können die Einträge der Trefferliste 11 in verschiedene Klassen 11B, 11C eingeteilt und dargestellt werden, wobei Einträge verschiedener Klassen 11B, 11C beispielsweise zu verschiedene Funktionsgruppen oder Datentypen, z.B. zu verschiedenen Medientypen, gehören. Ferner kann, falls die Trefferliste 11 nicht komplett auf der Anzeigefläche 1 angezeigt werden kann, ein Rollbalken 12 angezeigt werden, über den der Nutzer den angezeigten Teil der Trefferliste 11 verändern kann.
-
Die Steuereinheit 4 umfasst Analysemittel 5, deren Funktionsweise in Zusammenhang mit dem erfindungsgemäßen Verfahren weiter unten näher erläutert wird. Sie umfasst beispielsweise einen Prozessor zum Ausführen eines Programms zur Durchführung einer Analyse von Spracheingaben und deren Zuordnung zu einer ersten Kategorie, falls die Spracheingabe als Funktionseingabe zum Ausführen einer Fahrzeugfunktion identifiziert wurde, und zu einer zweiten Kategorie, falls die Spracheingabe als eine Sucheingabe identifiziert wurde Die Steuereinheit 4 umfasst ferner einen Datenspeicher zum Speichern der Ergebnisse der Analyse sowie zum Speichern einer Trefferliste, die sich aus dem Vergleich zwischen der Spracheingabe und den in den Datenspeichern 7, 7A und/oder 7B gespeicherten Daten ergibt.
-
Das erfindungsgemäße Verfahren wird nun anhand eines Flussdiagramms eines Ausführungsbeispiels mit Bezug zu der 2 generisch näher erläutert und anschließend mit Fallbeispielen unterlegt.
-
In einem Schritt 20 findet die Initiierung des Sprachdialogs über eine PTT-Taste oder eine PTT-Schaltfläche statt, durch deren Auslösung die Mittel 3 zum Erfassen von Spracheingaben eingeschaltet werden Daraufhin wird in einem Schritt 21 die einheitliche Eingabemaske der graphischen Repräsentation des Sprachdialogs auf der Anzeigefläche 1 angezeigt. Diese kann neben dem zuvor erwähnten Textprompt 10 auch eine Auswahlliste vorheriger Suchbegriffe umfassen Außerdem können beispielsweise Mittel zum Steuern der Eingabemodalitäten angezeigt werden, indem z.B. eine Schaltfläche zum Wechsel in einen Tastaturmodus und/oder in einen Handschriftmodus zur Eingabe von freihändigen Texteingaben per Handschrift auf der Anzeigefläche 1 angezeigt wird. Während in dem Schritt 22 eine Spracheingabe erfasst wird, kann auf der Eingabemaske eine graphische Signalisierung des Empfangs eines Sprachsignals visualisiert werden, um dem Nutzer die Rückmeldung zu geben, dass die Spracheingabe akustisch erfasst wurde Für den Fall, dass die Spracheingabe systemseitig nicht störungsfrei empfangen werden konnte, z.B. wenn die Signalqualitat mangelhaft war, kann dies dem Nutzer in einem Schritt 23 auf der Anzeigefläche 1 angezeigt werden In diesem Falle wird der Nutzer zur erneuten Spracheingabe im Schritt 21 aufgefordert.
-
Falls die Spracheingabe systemseitig akustisch empfangen werden konnte, wird diese nun zunächst zur weiteren datentechnischen Verarbeitung digitalisiert und im Schritt 24 mittels der Steuereinheit 4 an die Analysemittel 5 weitergeleitet. Dort wird basierend auf der empfangenen Spracheingabe die Dialogintention geprüft. Dabei wird die Spracheingabe entweder der Kategorie „Funktionseingabe“ zum Steuern einer Fahrzeugeinrichtung zugeordnet oder sie wird der Kategorie „Sucheingabe“ zum Suchen einer Informationen zugeordnet. Dazu wird in der Spracheingabe nach Schlüsselwörtern gesucht, die auf eine der beiden Kategorien hinweisen. Zusätzlich oder insbesondere in Verbindung mit den Schlüsselwörtern kann in der Spracheingabe nach grammatikalischen Konstruktionen gesucht werden, z B. Imperativformen. Die Analysemittel 5 zerlegen dabei die Spracheingabe in Fragmente und überprüfen in einem iterativen Prozess, welche der beiden Kategorien wahrscheinlicher ist. Dabei kann in einem zwei- oder mehrstufigen Prozess eine Hypothese aufgestellt werden, die in der darauffolgenden Iteration bestätigt oder verworfen werden kann. Es kann beispielsweise ein Punkte- oder Penalty-System eingerichtet sein, indem für bestimmte Merkmale in der Spracheingabe Plus- oder Minuspunkte vergeben werden und oberhalb eines bestimmten Grenzwerts eine Entscheidung für eine der beiden Kategorien getroffen wird. Insbesondere ist es zweckmäßig, nur für solche Fälle, in denen eindeutig ein Befehl zur Funktionsausführung erkannt wurde, die Spracheingabe als „Funktionseingabe“ zu kategorisieren, und andernfalls die Spracheingabe als „Sucheingabe“ zu werten. Funktionseingaben werden anschließend mit den in den Datenspeichern 7, 7A, 7B gespeicherten Steuerbefehlen im Fahrzeug verglichen, während Sucheingaben mit den in den Datenspeichern 7, 7A, 7B gespeicherten Informationen im Fahrzeug verglichen werden.
-
Konnte auf diese Weise der Spracheingabe ein eindeutiger Steuerbefehl zugeordnet werden, so erfolgt im Schritt 30 unmittelbar darauf automatisch die dazugehörige Funktionsausführung.
-
Für den Fall, dass die Spracheingabe eindeutig als Funktionseingabe erkannt wurde, aber noch nicht eindeutig einem Steuerbefehl zugeordnet werden konnte, kann im Schritt 25 eine Trefferliste auf der Anzeigefläche 1 angezeigt werden, aus der der Nutzer in einem Schritt 26 durch eine weitere Nutzereingabe, über Sprache oder über eine andere Modalität, z.B. durch Antippen eines auf der Trefferliste angezeigten Treffers, den gewünschten Treffer auswählen kann. Daraufhin erfolgt im Schritt 30 unmittelbar automatisch die dazugehörige Funktionsausführung.
-
Wurde die Spracheingabe als Sucheingabe interpretiert, so wird ausgehend vom Schritt 24 zunächst im Schritt 25 eine Trefferliste angezeigt. Die Trefferliste kann auch Verweise auf mogliche Steuerbefehle zur Ausführung von Funktionen umfassen, die im Rahmen der Suche ermittelt werden konnten. Der Nutzer hat nun die Möglichkeit, durch die Auswahl eines Treffers im Schritt 26 wie zuvor beschrieben zur direkten Funktionsausführung im Schritt 30 zu gelangen. Alternativ hat er die Möglichkeit, durch eine weitere Spracheingabe im Schritt 22 das Verfahren iterativ zu durchlaufen. Dabei werden dann der Inhalt beider oder, im Falle weiterer Iterationen, der Inhalt mehrerer Spracheingaben von den Analysemitteln 5 auf die Nutzerintention analysiert und der Schritt 24 sowie gegebenenfalls die Schritte 25 und 26 nochmals durchlaufen.
-
Falls es sich bei der Spracheingabe nur um eine Sucheingabe gehandelt hatte, zu der keine weitere unmittelbare Aktion ausgelöst werden sollte, so kann auf die Anzeige der Trefferliste im Schritt 25 das Verfahren auch mit dem Schritt 40 abgebrochen werden, wobei beispielsweise die Sprachschnittstelle wieder deaktiviert wird.
-
Fallbeispiel 1:
-
Der Fahrer des Fahrzeugs möchte einen Telefonanruf über die Freisprecheinrichtung seines Mobilfunkgeräts tätigen. Er aktiviert im Schritt 20 die PTT-Taste, woraufhin im Schritt 21 die Dialogmaske der graphischen Sprachdialogrepräsentation angezeigt wird. Er sagt daraufhin im Schritt 22 „Anna Müller anrufen“. Die Spracheingabe wird im Schritt 24 von den Analysemitteln 5 als eindeutige Funktionseingabe identifiziert und der Telefonanruf im Schritt 30 unmittelbar und automatisch ausgeführt.
-
Fallbeispiel 2:
-
Wie im Fallbeispiel 1 möchte der Fahrer des Fahrzeugs einen Telefonanruf tätigen. Die Spracheingabe wird im Schritt 24 von den Analysemitteln 5 zwar eindeutig als Funktionseingabe identifiziert, allerdings werden systemseitig mehrere mögliche Steuerbefehle gefunden. Beispielsweise findet das System zwei „Anna Müller“ oder für „Anna Müller“ eine private, eine geschäftliche und eine mobile Telefonnummer. Daraufhin wird im Schritt 25 eine entsprechende Trefferliste auf der Anzeigefläche 1 angezeigt, aus der der Fahrer im Schritt 26 durch Berühren des entsprechenden Anzeigebereichs den gewünschten Treffer auswählen kann Daraufhin wird der Telefonanruf im Schritt 30 unmittelbar und automatisch ausgeführt.
-
Fallbeispiel 3:
-
Wie im Fallbeispiel 1 möchte der Fahrer des Fahrzeugs einen Telefonanruf tätigen. Die Spracheingabe im Schritt 22 umfasst diesmal jedoch nur den Eigennamen „Bärbel“, der jedoch aufgrund von Störgeräuschen nicht fehlerfrei erfasst wurde. Die Analysemittel 5 können im Schritt 24 keine Intention seitens des Fahrers erkennen und ordnen die Spracheingabe einer Sucheingabe zu. Daraufhin werden alle möglichen Informationen, die mit der Spracheingabe in Zusammenhang stehen könnten, in den verschiedenen Datenbanken 7, 7A, 7B durchsucht und eine Treffermenge erstellt, von denen im Schritt 25 eine Teilmenge angezeigt wird. Die angezeigte Teilmenge umfasst als ersten Eintrag einen konkreten Vorschlag (z.B. Meinten Sie „Penny“?) und nachfolgend weitere Datensätze, die möglicherweise durch die Spracheingabe gesucht werden sollten. Der Fahrer gibt daraufhin in einer Iteration eine weitere Spracheingabe im Schritt 22 ein, indem er den Nachnamen „Müller“ hinzufügt. Beim weiteren Durchlaufen der Iterationsschleife werden nun von den Analysemitteln beide Spracheingaben berücksichtigt In einer erneuten Anzeige einer Trefferliste im Schritt 25 kann nun der Fahrer den gewünschten Dateneintrag heraussuchen oder gegebenenfalls in weiteren Iterationsschleifen weitere Spracheingaben machen. Je nachdem, was seine wahre Intention war, kann er entweder einen Datensatz zu „Bärbel Müller“ anzeigen lassen, oder eine Anruf oder Navigationsfunktion, die mit dieser Person assoziiert ist, ausführen lassen.
-
Die gezeigten Fallbeispiele konzentrieren sich auf das Thema Telefonieren im Fahrzeug. Ohne die Erfindung hierauf zu beschränken, können ebenso andere Fahrzeugfunktionen hiermit bedient werden, wie z.B. das Bedienen eines Navigationsgeräts, eines Medienabspielgeräts und/oder einer Klimaanlage im Fahrzeug. Dabei wird eine Spracheingabe zunächst nicht in einem bestimmten Kontext behandelt und nicht auf eine einzelne Fahrzeugeinrichtung beschränkt. Der Nutzer muss vorher nicht explizit eine Fahrzeugeinrichtung auswählen. Dies erhöht den Nutzungskomfort und trägt zur Sicherheit beim Bedienen von Fahrzeugeinrichtungen in einem Fahrzeug bei.
-
Bezugszeichenliste
-
- 1
- Anzeigefläche
- 2A
- Tastschalter
- 2B
- berührungsempfindliche Oberfläche
- 3
- Mittel zum Erfassen einer Spracheingabe
- 4
- Steuereinheit
- 5
- Analysemittel
- 6
- Datenbus im Fahrzeug
- 7
- Datenspeicher
- 7A,B
- Datenspeicher in den jeweiligen Fahrzeugeinrichtungen
- 8A,B
- Fahrzeugeinrichtungen
- 10
- Textprompt
- 11
- Trefferliste
- 11A
- Vorschlag
- 11 B,C
- Treffer verschiedener Klassen
- 12
- Rollbalken
- 20
- Initiierung des Sprachdialogs
- 21
- Anzeige der Startmaske
- 22
- Spracheingabe
- 23
- Rückfrage bei mangelhaftem Sprachempfang
- 24
- Analyse der Spracheingabe
- 25
- Anzeige einer Trefferliste
- 26
- Auswahl aus der Trefferliste
- 30
- automatische Funktionsausführung
- 40
- Dialogabbruch