-
Die Erfindung betrifft ein Verfahren zur kontextbezogenen Informationsabfrage über eine Spracheingabe, insbesondere auch zur Nutzung in einem Kraftfahrzeug.
-
Durch die immer stärkere Internet-Connectivity von Kraftfahrzeugen ergeben sich stetig weitere Möglichkeiten, aktuelle Informationen aller Art aus dem Internet bzw. der sogenannten „Cloud” ins Fahrzeug zu holen. Fahrer von Kraftfahrzeugen möchten heute daher auch im Kraftfahrzeug, insbesondere auch während des Fahrens, Funktionen nutzen um Informationen abzufragen. Dies muss jedoch möglichst ablenkungsfrei erfolgen.
-
Bekannte Benutzerschnittstellen im Fahrzeug verwenden daher bereits Sprachbedienungskonzepte, wie zum Beispiel das unter dem Markennamen „Linguatronic” eingesetzte Konzept zur Steuerung und zum Abruf verschiedener Funktionen einer Telematikeinheit bzw. des Infotainmentsystems eines Fahrzeugs, die zum Beispiel Navigation, Radio, Telefon umfassen können.
-
Sprachbediensysteme im Fahrzeug werden vor allem zur Nutzung eines Mobiltelefons im Auto eingesetzt und sind Teil einer Freisprecheinrichtung, die Originalzubehör und gegebenenfalls Teil des Infotainmentsystems oder nachgerüstet sein kann und mit der das Mobiltelefon gekoppelt wird. Kernpunkte der Sprachbediensysteme sind die Sprachsignalverarbeitung, die Spracherkennung, die Dialogentwicklung und die Systemintegration.
-
Eine sprecherunabhängige Spracherkennung erlaubt die Nutzung der Sprachbediensysteme durch verschiedene Benutzer und kann ohne eine vorhergehende Trainingsphase durch den Benutzer eingesetzt werden, allerdings ist der Wortschatz begrenzt.
-
Sprecherabhängige Spracherkenner hingegen werden vom Benutzer vor der Verwendung auf die charakteristischen Merkmale seiner Aussprache trainiert. Die sprecherabhängige Spracherkennung ist daher bei häufig wechselnden Benutzern ungeeignet, hingegen ist der Wortschatz im Vergleich zu der sprecherunabhängigen Erkennung deutlich größer.
-
Zum Telefonieren beispielsweise kann der Benutzer Nummern oder Namen oder auch vorbestimmte Kommandos angeben, die von der Spracherkennung erfasst werden. Zur Verwendung der Namenswahl zum Telefonieren wird von dem Sprachbediensystem, etwa der Freisprechanlage, ein internes Telefonbuch eingerichtet und verwaltet.
-
Die modernen Infotainmentsysteme integrieren eine Vielzahl von Kommunikationsdiensten sowie Informations- und Entertainmentquellen (Telefon, Navigation, Radio, TV, CD, DVD, Internet etc.) und können außer mit einer haptisch-grafischen Schnittstelle auch mit einer Sprachbedienung ausgestattet sein, so dass Auswahl und Steuerung der Dienste und Produkte des Infotainmentsystems durch den Fahrer auch während der Fahrt komfortabel und sicher erfolgen kann.
-
Neben dem Telefon wird bislang hauptsächlich die Navigationsapplikation mittels Sprachbedienung durch Eingabe von Orts- und Straßennamen, bekannten Zielen oder Routen oder von Points of Interest gesteuert. So können bislang mit der Sprachbedienung nur die im Fahrzeug vorhandenen Multimediaquellen gesteuert werden und Multimediadienste aktiviert werden.
-
Ausgehend von diesem Stand der Technik ist es Aufgabe der vorliegenden Erfindung, eine sprachbasierte Informationsabfrage für ein Fahrzeug zu schaffen, mittels der ein Fahrer eines Fahrzeugs gezielt Informationen aus einer externen Quelle abrufen kann.
-
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.
-
Eine entsprechende Vorrichtung wird mit den Merkmalen des Anspruchs 9 offenbart.
-
Weiterbildungen des Verfahrens und der Vorrichtung sind in den jeweiligen Unteransprüchen ausgeführt.
-
Das erfindungsgemäße Verfahren zur sprachbasierten Informationsabfrage durch einen Nutzer in einem Kraftfahrzeug verwendet ein Kraftfahrzeug-Infotainmentsystem sowie eine Spracherkennungs- und Verarbeitungseinheit. Der Nutzer kann gezielt Informationen aus externen Quellen abrufen, die über das Kraftfahrzeug-Infotainmentsystem erreicht werden können.
-
Dabei sieht das Verfahren zunächst in einem Schritt a) das Erfassen von Schlagwörtern, die mit Informationsprodukten verbunden sind, aus den externen Quellen vor. Dabei kann es sich etwa um Überschriften von Meldungen handeln, so dass auch mehrere Schlagwörter mit einem Informationsprodukt, nämlich der Meldung, verknüpft sein können. Die Schlagwörter werden dann derart aufbereitet, dass diese Schlagwörter bei natürlichsprachlicher Eingabe, die von dem Nutzer getätigt wird, von der Spracherkennungs- und Verarbeitungseinheit erkannt werden können. Die Daten zu den aufbereiteten Schlagwörtern werden in einer Datenbank gespeichert, die mit der Spracherkennungs- und Verarbeitungseinheit verbunden ist. Die Datenbank muss dabei nicht auf einem Speichermodul im Fahrzeug vorliegen, die Spracherkennungs- und Verarbeitungseinheit kann auch mittels des Infotainmentsystems auf eine über das Internet in der Cloud bereitgestellte Datenbank zugreifen. So wird ein Grundstock an Schlagwörtern aus den externen Quellen eingerichtet. Auf dieses Basiswording kann dann bei Informationsabfrage durch den Benutzer zurückgegriffen werden.
-
Um ein Informationsprodukt aus einer externen Quelle abzurufen, gibt der Nutzer natürlichsprachig eine Informationsabfrage in einem Schritt b) in die Spracherkennungs- und Verarbeitungseinheit ein. Die Informationsabfrage umfasst zumindest ein Schlagwort in einem entsprechenden Kontext der natürlichen Spracheingabe. Das Schlagwort in der Informationsabfrage wird durch die Spracherkennungs- und Verarbeitungseinheit anhand der in der Datenbank gespeicherten aufbereiteten Schlagwörter erkannt (Schritt c) und es wird eine Zuordnung des Schlagworts zu zumindest einem damit verbundenen Informationsprodukt einer externen Quelle, die das Schlagwort aufweist, hergestellt.
-
Abschließend wird in Schritt d) das abgefragte Informationsprodukt, das das Schlagwort aufweist, ausgegeben. Dies erfolgt vorzugsweise als Sprachinformation, da so der Nutzer, der insbesondere der Fahrer des Fahrzeugs sein kann, am wenigsten gestört wird.
-
Mit oder nach Schritt c) werden in Schritt e) Informationsabfragedaten, die das zumindest eine Schlagwort in seinem Kontext umfassen, in der Datenbank gespeichert, die mit der Spracherkennungs- und Verarbeitungseinheit verbunden ist. Damit wird die Datenbank mit jeder Informationsabfrage erweitert und die Vernetzung, respektive Zuordnung wird verfeinert, um so einen verbesserten kontextbasierten Zuordnungsgrad zu Informationsprodukten externer Quellen für Folge-Informationsabfragen zu schaffen.
-
Damit ist die Basisimplementierung für eine verfeinerte und gegebenenfalls sogar schlagwortunabhängige sprachbasierte Informationsabfrage durch den Nutzer als eine Folge-Informationsabfrage geschaffen, die sich auf eine vorangegangene Informationsabfrage bezieht.
-
Diese sprachbasierte Folge-Informationsabfrage umfasst die folgenden Schritte, die von den obigen Schritten abweichen:
Außer den erfassten Schlagwörtern können in Schritt a1) Kontextphrasen, die aus einem oder mehreren Wörtern bestehen können, erfasst werden, die einen Bezug zu einer vorangegangenen Informationsabfrage anzeigen, d. h. im Kontext mit der vorausgegangenen Informationsabfrage bzw. dem daraus resultierenden Abfrageergebnis stehen. Dazu werden auch die Kontextphrasen derart aufbereitet, dass sie bei natürlichsprachlicher Eingabe durch den Nutzer in die Spracherkennungs- und Verarbeitungseinheit erkennbar sind. Die aufbereiteten Kontextphrasen werden ebenfalls in der Datenbank, die mit der Spracherkennungs- und Verarbeitungseinheit verbunden ist, gespeichert.
-
Nach Schritt b1), der natürlichsprachigen Eingabe einer Folge-Informationsabfrage, die zumindest ein zweites Schlagwort im Kontext der Erst-Informationsabfrage und/oder eine Kontextphrase umfasst, durch den Nutzer in die Spracherkennungs- und Verarbeitungseinheit, erfolgt in Schritt c1) das Erkennen des natürlichsprachig eingegebenen zweiten Schlagworts in seinem Kontext und/oder der Kontextphrase durch die Spracherkennungs- und Verarbeitungseinheit anhand der in der Datenbank gespeicherten aufbereiteten Schlagwörter und Kontextphrasen. Basierend auf dem in seinem Kontext erkannten Schlagwort bzw. der Kontextphrase wird ein Bezug des zweiten Schlagworts und/oder der Kontextphrase der Folge-Informationsabfrage zu zumindest einer der Informationsabfragen, deren Informationsabfragedaten in der Datenbank gespeichert sind, hergestellt, so dass die Folge-Informationsabfrage bzw. das zweite Schlagwort und/oder die Kontextphrase unter Berücksichtigung der Informationsabfragedaten der Informationsabfrage, auf die sich die Folge-Informationsabfrage bezieht, zu zumindest einem Informationsprodukt einer externen Quelle zugeordnet werden kann, das auf dem zweiten Schlagwort und/oder der Kontextphrase im Kontext mit der ersten Informationsabfrage basiert. Dann kommt es in Schritt d1) zur Ausgabe des Informationsprodukts der Folge-Informationsabfrage.
-
Nun kann in Schritt e1) das Speichern der Folge-Informationsabfragedaten, die das zumindest zweite Schlagwort in seinem Kontext und/oder die Kontextphrase umfassen, in der Datenbank unter Verknüpfung mit den Informationsabfragedaten zur Erweiterung der Datenbank und zur Bereitstellung eines verbesserten kontextbasierten Zuordnungsgrades zu Informationsprodukten externer Quellen, für noch weitere Folge-Informationsabfragen geleistet werden.
-
Dabei kann die Folge-Informationsabfrage zu einem beliebigen anderen Zeitpunkt getätigt werden; sie kann etwa dieselbe Frage an jedem Freitagabend sein, etwa zum Aktienkurs.
-
Es kann sich aber auch um eine sprachbasierte Informationsabfrage durch den Nutzer handeln, die zeitlich unmittelbar auf eine vorangehende Erst-Informationsabfrage oder auf eine Folge-Informationsabfrage folgt, wobei sich beispielsweise jede der nachfolgenden Abfragen auf die vorangegangenen Antwort bezieht.
-
Auf das Eingeben einer solchen auf eine Folge-Informationsabfrage folgende Abfrage, aus deren Schlagwort/-wörter und/oder Kontextphrasen sich der Zusammenhang mit zumindest einer der vorangehenden Informationsabfragen ergibt, als natürlichsprachige Eingabe in die Spracherkennungs- und Verarbeitungseinheit schließt sich dann auch hier anhand der erkannten Schlagwörter bzw. Kontextphrasen das Herstellen des Bezugs mit den vorangegangenen Informationsabfragen bzw. deren Schlagwörtern an, so dass entsprechende Informationsprodukte zugeordnet und ausgegeben werden können.
-
Mit jeder Informationsabfrage und Folge-Informationsabfrage wird die Datenbank erweitert, und der kontextbasierte Zuordnungsgrad zu Informationsprodukten externen Quellen für weitere Folge-Informationsabfragen wird kontinuierlich verbessert.
-
Sollte der Fall eintreten, dass in Schritt c) oder c1) das natürlichsprachig eingegebene Schlagwort in der Informationsabfrage durch die Spracherkennungs- und Verarbeitungseinheit anhand der in der Datenbank gespeicherten aufbereiteten Schlagwörter nicht erkannt wird, so kann in Schritt a) die Spracherkennung in einem iterativen Prozess auf weitere externe Quellen und/oder Informationsprodukte ausgedehnt werden.
-
Eine zur Durchführung des Verfahrens zur sprachbasierten Informationsabfrage durch einen Nutzer in einem Kraftfahrzeug aus fahrzeugexternen Quellen geeignete Vorrichtung ist mit einem Kraftfahrzeug-Infotainmentsystem gekoppelt bzw. stellt einen Teil desselben dar, und weist eine Ausgabevorrichtung für Informationsprodukte, eine Spracherkennungs- und Verarbeitungseinheit und eine Spracheingabevorrichtung auf. Weitere erforderliche Komponenten sind ein Erfassungsmodul zum Erfassen von Schlagwörtern, die mit Informationsprodukten verbunden sind, aus den externen Quellen, und ein mit dem Erfassungsmodul gekoppeltes Aufbereitungsmodul zum Aufbereiten der Schlagwörter derart, dass diese Schlagwörter bei natürlichsprachlicher Eingabe durch den Nutzer in die Spracherkennungs- und Verarbeitungseinheit erkennbar sind. Das Erfassungsmodul kann zum Beispiel Nachrichtenüberschriften oder Substantive daraus als Schlagwörter selektieren, während das Aufbereitungsmodul deren Umwandlung in eine Form vornimmt, in der das Spracherkennungs- und Verarbeitungsmodul die aus den externen Quellen extrahierten Schlagwörter mit den nach sprachlicher Eingabe erkannten vergleichen kann.
-
Weiterhin weist die Vorrichtung ein mit der Spracherkennungs- und Verarbeitungseinheit verbundenes Speichermodul auf, das eine Datenbank umfasst, zum Speichern der aufbereiteten Schlagwörter in der Datenbank. Das Speichermodul kann beispielsweise in der Head Unit des Fahrzeugs umfasst sein, es kann aber auch ein virtuelles Speichermodul im Internet sein, wobei die Vorrichtung auf die Datenbank über das Infotainmentsystem zugreifen kann. Das Speichermodul ist dabei konfiguriert, Informationsabfragedaten, die das oder die Schlagwörter in ihrem Kontext umfassen, in der Datenbank zu speichern.
-
Ferner umfasst die Vorrichtung ein Erkennungs- und Zuordnungsmodul, das Teil der Spracherkennungs- und Verarbeitungseinheit ist und zum Erkennen des natürlichsprachig eingegebenen Schlagworts in seinem Kontext und zum Zuordnen des Schlagworts zu zumindest einem damit verbundenen Informationsprodukt einer externen Quelle, das das Schlagwort aufweist, vorgesehen ist.
-
Weitere Konfigurationen des Erfassungsmoduls, des Aufbereitungsmoduls, des Speichermoduls und des Erkennungs- und Zuordnungsmoduls stehen im Zusammenhang mit den Folge-Informationsabfragen und dienen der Erfassung von Kontextbezugsphrasen, dem Aufbereiten der Kontextbezugsphrasen, dem Speichern der Kontextbezugsphrasen in der Datenbank und dem Erkennen der Kontextbezugsphrasen, dem Herstellen eines Bezugs des Schlagworts und/oder der Kontextbezugsphrase der Folge-Informationsabfrage zu zumindest einer der Informationsabfragen, deren Informationsabfragedaten in der Datenbank gespeichert sind, sowie dem Zuordnen des Schlagworts und/oder der Kontextbezugsphrase zu zumindest einem Informationsprodukt einer externen Quelle, das auf dem zweiten Schlagwort und/oder der Kontextbezugsphrase in Bezug zu den Informationsabfragedaten basiert. Weiter ist das Speichermodul konfiguriert, Folge-Informationsabfragedaten, die das Schlagwort in seinem Kontext und/oder die Kontextbezugsphrase umfassen, in der Datenbank zu speichern.
-
So kann im Gegensatz zur bisher üblichen Art der Informationsabfrage über die direkten Inhalte von Infotainmentprodukten, die etwa Unterhaltungsprodukte wie Lieder, Hörspiele, aber auch Nachrichten einschließlich Verkehrsinformationen und Weiteres sein können, der Anwender nun Informationen natürlichsprachlich abfragen und auch Informationen abfragen, die in Beziehung zu seinen vorherigen Anfragen stehen können.
-
Dies kommt der natürlichen menschlichen Denkweise sehr nahe, erfordert aber die vorangegangene Implementierung. Dazu werden in Schritt a) aus verschiedenen externen Quellen, etwa über das Infotainmentsystem des Kraftfahrzeugs, das über die Head-Unit mit dem Internet verbunden sein kann und dieses daher als Quelle für Informationen einsetzt, aktuelle Schlagwörter, die etwa Überschriften von Nachrichten sein können, erfasst und derart aufbereitet, dass diese Überschriften bzw. Schlagwörter mittels der natürlichsprachlichen Eingabe in Schritt b) erkennbar sind.
-
Der Nutzer kann dann eine Informationsabfrage als natürliche Sprache eingeben, etwa ”Was gibt es Neues in Griechenland?”
-
Nun ist es erforderlich, das in der Datenbank bereits die Schlagwörter „Griechenland” und „Neues” vorliegen, also implementiert worden sind, so dass das System Infotainmentprodukte aus Quellen suchen kann, die auf diese Schlagwörter bezogen sind. Durch die Schlagwort-Kombination „Neues” und „Griechenland” können in diesem Kontext als relevante externe Quellen Nachrichtenquellen erkannt werden.
-
Als Ergebnis der Informationsabfrage erhält der Fahrer Informationen aus den als relevant erkannten externen Quellen (”aus Spiegel-Online vor 20 Minuten: die Schuldenkrise in Griechenland ...”). Der Kontext dieser Abfrage wird gespeichert und steht für spätere Abfragen zur Verfügung.
-
Wird eine neue Informationsabfrage als Folgeabfrage durchgeführt, die sich auf die erste Informationsabfrage bezieht (”Was sagt die Kanzlerin dazu?”), wird dies aufgrund des gespeicherten vorangegangenen Kontexts erkannt und es erfolgt eine Informationsausgabe, die diesen gespeicherten Kontext berücksichtigt (”aus der TAZ vor 10 Minuten: Das Problem ist laut Angela Merkel ...”). In der Folgeabfrage stellt „Kanzlerin” das zweite Schlagwort dar, während die Phrase „dazu” den Kontext mit der vorgehenden Informationsabfrage herstellt. Hierbei leistet die Vorrichtung zudem noch eine Zuordnung des natürlichsprachlich eingegebenen Schlagworts „Kanzlerin” zu dem Schlagwort „Angela Merkel” in dem Informationsprodukt. Eine solche Zuordnung kann beispielsweise bei der Aufbereitung der Schlagwörter aus den externen Quellen stattfinden.
-
Die Informationsausgabe jeweils kann vorzugsweise über Sprache erfolgen.
-
So können durch die Verknüpfung der aufeinander folgend in einer Abfragesitzung oder -sequenz eingegebenen Kontexte auch kontextbezogene, relative Anfragen (Folge-Informationsabfragen) erfolgen, die in Bezug zu vorherigen Abfragen stehen.
-
Weitere Beispiele
-
Der Nutzer gibt als Informationsabfrage ein: „Wie ist der Aktienkurs von Daimler?” Mittels der aufbereiteten Schlagwörter können „Aktienkurs” und „Daimler” durch das System erkannt werden, so dass das System ein zugeordnetes Informationsprodukt ausgibt: „an der Frankfurter Börse lag der Aktienkurs von Daimler heute Mittag...”. Als Folge-Informationsabfrage wird durch den Nutzer beispielsweise eingegeben: „Wie war der gestrige Kurs?” Mit den Schlagwörtern „gestrige” und „Kurs” im Kontext mit der vorangegangenen Abfrage gibt das System als zugeordnetes Informationsprodukt aus: „der Schlusskurs der Daimler-Aktie lag gestern um 17 Uhr bei ...”.
-
Mit einer Informationsabfrage des Nutzers: „spiel mir was von Cat Stevens”, wird das System nach Erkennen der Schlagwörter „spiel” und „Cat Stevens” veranlasst, ein Musikstück von Cat Stevens aus der Cloud bzw. dem Internet downzuloaden und abzuspielen. Mit der Folge-Informationsabfrage des Nutzers: „was ist das?”, die in dieser Form eine Kontextphrase darstellt und sich auf ein aktuell ausgegebenes Infotainmentprodukt bezieht, wird als zugeordnetes Informationsprodukt des Systems ausgegeben: „das ist Father and Son von Cat Stevens.”
-
So sind erfindungsgemäß relationsbezogene Abfragen als natürlichsprachliche Anfragen möglich, die der menschlichen Denkweise sehr nahe kommen.
-
Dies wird durch die wachsende Internet-Connectivity der Fahrzeuge erleichtert, die es erlaubt, aus der „Cloud” die entsprechenden Informationen ins Fahrzeug zu holen. Damit auch der Fahrer beim Fahren solche Informationen möglichst ablenkungsfrei abrufen kann, wird die Technologie der Spracheingabe/Sprachausgabe/Sprachbedienung verwendet.
-
Seitens der Spracherkennungstechnologie werden daher erfindungsgemäß aus verschiedenen Informationsquellen in der Cloud aktuelle Headlines bzw. Schlagwörter detektiert (auf Erstabfragen hin) und für einen Spracherkenner in geeigneter Form aufbereitet, so dass diese Schlagwörter in Verbindung mit natürlichsprachlicher Eingabe erkannt werden können.
-
Sollte die Erkennung im ersten Schritt nicht zu befriedigenden Ergebnissen führen (was beispielsweise über Konfidenzen oder andere intelligente Faktoren festgestellt werden kann), kann als Verfeinerung in einem iterativen Prozess die Spracherkennung auf weitere Informationsquellen im Netz ausgedehnt werden.
-
Der erste Schritt im Dialogteil des Systems ist, dass sich das System den Kontext einer Anfrage/der Anfragen des Benutzers „merkt”. Dieses „Merken” ist ein kontinuierlicher, adaptiver Prozess, der die Daten in geeigneter Form ablegt, so dass später einfach und schnell wieder darauf zugegriffen werden kann. Eine Intelligenz, kontextuelle Bezüge zu erkennen (in der Fachwelt auch als „konversational Dialogues” bekannt), kann erfindungsgemäß vorab im Basissystem implementiert werden.
-
Als weiteres ist eine kontextbezogene Datenbank erforderlich, auf die Teile des Sprachdialogs Zugriff haben. Diese Datenbank/-en kann/können im Fahrzeug oder auch in der Cloud verfügbar sein.
-
In dieser Datenbank ist umfangreiches Kontextwissen in strukturierter Form enthalten, sogenanntes kontextuelles Weltwissen. Die Module des Sprachdialogs greifen auf diese Datenbank unter Verwendung der eigenen gespeicherten Kontextinformation zu und bereiten diese Informationen in geeigneter Form für eine Anfrage an die Cloud (ins Internet) auf.
-
Die Antwort auf die Anfrage aus der Cloud wird dann zum Schluss in eine Nutzer-geeignete Form gebracht, wobei der Nutzer hier der Fahrer sein kann, so dass die gewünschte Information kurz und knapp mit möglichst geringer Fahrerablenkung präsentiert werden kann, z. B. über Sprachausgabe.