DE102007042581A1

DE102007042581A1 - Verfahren zur Ausgabe von Informationen in natürlicher Sprache mittels eines künstlichen Sprachsystems und Kommunikationssystem

Info

Publication number: DE102007042581A1
Application number: DE102007042581A
Authority: DE
Inventors: Stefan Sellschopp; Valentin Nicolescu; Helmut Prof. Dr. Krcmar
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2007-09-07
Filing date: 2007-09-07
Publication date: 2009-03-12

Abstract

Die Erfindung betrifft ein Verfahren zur Ausgabe von Informationen in natürlicher Sprache mittels eines künstlichen Sprachsystems, wobei in eine durch Wörter formulierte Antwort des Sprachsystems zumindest ein Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses eingebunden und mitgeteilt wird. Die Erfindung betrifft auch ein Kommunikationssystem mit einem künstlichen Sprachsystem und einer natürlichen Person.

Description

Die Erfindung betrifft ein Verfahren zur Ausgabe von Informationen in natürlicher Sprache mittels eines künstlichen Sprachsystems sowie ein Kommunikationssystem mit einem derartigen künstlichen Sprachsystem, welches zur Kommunikation mit einer natürlichen Person ausgebildet ist, welche ebenfalls dem Kommunikationssystem zugeordnet ist.
Die Ausgabe von Antworten bei bekannten Kommunikationssystemen mittels eines künstlichen Sprachsystems sind gegenwärtig sehr eingeschränkt. Lediglich vorgefertigte Antwortstrukturen können somit quasi in statischer Weise wiedergegeben werden. Dadurch ist die Kommunikation und insbesondere auch die Informationsvermittlung durch das künstliche Sprachsystem relativ eingeschränkt.
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren sowie ein Kommunikationssystem zu schaffen, bei dem die Informationsvermittlung durch das künstliche Sprachsystem flexibler ermöglicht und darüber hinaus erweitert wird.
Diese Aufgabe wird durch ein Verfahren, welches die Merkmale nach Anspruch 1 aufweist, und ein Kommunikationssystem, welches die Merkmale nach Anspruch 10 aufweist, gelöst.
Bei dem erfindungsgemäßen Verfahren werden Informationen in natürlicher Sprache mittels eines künstlichen Sprachsystems ausgegeben. In eine durch Wörter formulierte Antwort des Sprachsystems wird zumindest ein Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses eingebunden. Durch eine derartige Vorgehensweise bei der Informationsvermittlung mit einem künstlichen Sprachsystem kann die Informationsdarbietung wesentlich erweitert werden und darüber hinaus die Informationsgenerierung flexibilisiert werden.
Vorzugsweise wird ein Wert eines Zustandsparameters durch einen Platzhalter in einer definierten in dem Sprachsystem hinterlegten Antwortstruktur eingebunden. Dadurch kann quasi vorab die Antwortstruktur bei der Erstellung und Modellierung einer Dialogstruktur für das Sprachsystem zugrunde gelegt werden und der Platzhalter an der gewünschten und für die richtige Antwort erforderlichen Stelle positioniert werden. Dies kann im Hinblick auf die jeweils erforderliche Sprachgrammatik somit individuell erfolgen.
Vorzugsweise wird bei einer zu generierenden Antwort des Sprachsystems ein gegebenenfalls zugeordneter Platzhalter spezifisch gesucht und bei einem Vorhandensein des Platzhalters der diesem Platzhalter zugeordnete Wert des Zustandsparameters angefordert. Dies ermöglicht eine hochfunktionelle und effiziente Vorgehensweise im Hinblick auf die Kommunikation.
Vorzugsweise wird erst während der Erstellung der Antwort nach einem Platzhalter gesucht, wodurch der vorab durchzuführende Aufwand bei einer Kommunikation relativ niedrig gehalten werden kann. Es kann jedoch auch vorgesehen sein, dass bereits mit der spezifischen Auswahl einer hinterlegten Antwort der zugeordnete Platzhalter identifiziert und angefordert wird. Durch diese Vorgehensweise kann besonders bei einer relativ aufwendigen und komplex zu generierenden Information, welche einem Platzhalter zugeordnet ist, ein zusätzlicher Zeitgewinn ermöglicht werden. Eine stockende Sprachausgabe aufgrund des noch fehlenden und nicht angeforderten bzw. erhaltenen Werts des Zustandsparameters des Platzhalters kann dadurch verhindert werden. Die flüssige Antwort durch das Sprachsystem kann damit ohne Unterbrechung und auch ohne Verzögerung ermöglicht werden.
Vorzugsweise erfolgt die Identifikation eines Platzhalters und/oder die Ermittlung des Werts des dem Platzhalter zugeordneten Zustandsparameters mittels einer zwischen das Gerät und dem Sprachsystem Informationen übermittelnden Schnittstellenkomponente. Dies ist besonders vorteilhaft, da die Schnittstellenkomponente spezifisch auf die gegebene Situation in der Kommunikationsstruktur angepasst werden kann.
Gerade bei einer relativ komplexen Struktur mit einer Vielzahl von Platzhaltern, einer Vielzahl von Antwortmöglichkeiten und einer Vielzahl von Geräten und/oder Ereignissen, welche jeweils einen oder mehrere Zustandsparameter aufweisen können, kann durch eine derartige Komponente die effiziente Datengenerierung und Bereitstellung für die Antwort gewährleistet werden.
Vorzugsweise wird die Abfrage des Werts eines dem Platzhalter zugeordneten Zustandsparameters und/oder die Weiterleitung des Werts des dem Platzhalter zugeordneten Zustandsparameters mittels einer zwischen das Gerät und dem Sprachsystem Informationen übermittelnden Schnittstellenkomponente durchgeführt. Die Schnittstellenkomponente fungiert somit als zentrale Station, welche quasi weiß wo es bestimmte Informationen bezüglich der Platzhalter anfragen und einfordern kann. Darüber hinaus kann durch diese Komponente auch die spezifische und somit auch sehr schnelle Weiterleitung des erhaltenen Werts ermöglicht werden. Auch dies trägt somit positiv zur schnellen und unterbrechungsfreien Erzeugung der Antwort einerseits und zur entsprechenden Ausgabe andererseits bei. Das künstliche Sprachsystem kann somit im Hinblick auf eine Sprachausgabe entsprechend einer natürlichen Person optimiert werden.
Vorzugsweise wird in eine bis auf den Platzhalter statisch vorliegende Antwort eine dynamisch veränderbare Information, welche mit dem Platzhalter verknüpft wird und welche situationsspezifisch abgefragt wird, dynamisch in die Antwort eingefügt. Situationsspezifisch erfolgt somit die Informationsgenerierung und Bereitstellung, wodurch die grundsätzlich erforderliche Basisstruktur des Dialogsystems wesentlich reduziert werden kann. Sowohl Komplexität der Dialogstruktur als auch die erforderliche gespeicherte Datenmenge können dadurch wesentlich reduziert werden. Nicht zuletzt kann durch diese Ausgestaltung auch die Geschwindigkeit des Systems wesentlich erhöht werden.
Darüber hinaus kann durch die dynamische Anfrage und Bereitstellung auch eine sehr zeitnahe Generierung und Bereitstellung eines Wertes ermöglicht werden, wodurch die Realitätsbezogenheit verbessert werden kann. Insbesondere kann somit dadurch verhindert werden, dass ein Wert angezeigt wird, welcher schon länger zurückliegt und zum Zeitpunkt der Anzeige bzw. der Ausgabe durch das Sprachsystem bereits nicht mehr aktuell ist. Auch dadurch können somit Fehleinschätzungen von mittels dem künstlichen Sprachsystem ausgegebenen Informationen vermieden werden.
Vorzugsweise ist das Gerät ein technisches Gerät in einem Fahrzeug. Insbesondere können hierbei unterschiedlichste Steuergeräte, Fahrerassistenzsysteme, Sensoren und dergleichen betrachtet werden. Auch das Bordsystem kann diesbezüglich genannt werden. Insbesondere können als Zustandsparameter derartiger Geräte die Geschwindigkeit des Fahrzeugs, die Temperatur von einzelnen Komponenten oder in dem Fahrzeug strömenden Fluiden, wie beispielsweise der Öltemperatur, dynamisch in die Antwort eingebunden und mitgeteilt werden.
Darüber hinaus können auch, wie bereits erwähnt, Zustandsparameter von Ereignissen eingebunden und mitgeteilt werden. In diesem Zusammenhang sollen beispielsweise als Ereignis Situationen in der Umgebung des Fahrzeugs genannt werden. So kann insbesondere die Umgebungstemperatur außerhalb des Fahrzeugs oder eine sonstige Wettersituation genannt werden. Darüber hinaus wird mit einem Zustandsparameter eines Ereignisses jedoch auch eine beliebige sonstige Begebenheit verstanden und es kann beispielsweise auch das Ergebnis eines Fußballspiels oder ein Aktienkurs genannt werden. Diese Aufzählung ist lediglich beispielhaft und keinesfalls abschließend zu verstehen. Es soll lediglich ansatzweise demonstriert werden, welche Ereignisse möglich sein könnten, die Zustandsparameter in Form von Daten aufweisen, die über das künstliche Sprachsystem vermittelt werden können.
Vorzugsweise ist das Sprachsystem einem Infotainmentsystem in einem Fahrzeug zugeordnet und zur Kommunikation mit einem Fahrzeuginsassen ausgebildet. Das Infotainmentsystem kann beispielsweise eine Rundfunkeinheit und/oder einen CD-Spieler und/oder einen DVD-Spieler und/oder eine Navigationseinrichtung und dergleichen aufweisen. Auch dies ist lediglich eine beispielhafte Aufzählung, die keinesfalls als abschließend zu verstehen ist.
Insbesondere kann die Schnittstellenkomponente auch mit einem Bussystem in einem Fahrzeug gekoppelt sein und darüber die Kommunikation im Hinblick auf die Anfrage von Werten von Platzhaltern ermöglicht sein.
Ein erfindungsgemäßes Kommunikationssystem umfasst ein künstliches Sprachsystem, welches zur Kommunikation mit einer natürlichen Person, welche ebenfalls dem Kommunikationssystem zugeordnet ist, ausgebildet, und zur Ausgabe einer Antwort konzipiert ist. In eine durch Wörter formulierte Antwort des Sprachsystems ist zumindest ein Wort eines Zustandsparameters eines Geräts und/oder eines Ereignisses eingebunden und durch die Antwort des Sprachsystems mitteilbar.
Vorzugsweise ist das Sprachsystem einem Infotainmentsystem in einem Fahrzeug zugeordnet und kann mit einem Fahrzeuginsassen kommunizieren. Eine Kommunikation kann in diesem Zusammenhang über akustische Signale, insbesondere Sprachsignale, und/oder durch textuelle Eingabe und/oder durch Gesten erfolgen.
Die Schnittstellenkomponente kann eine Hardwarekomponente sein. Insbesondere kann sie jedoch auch eine Softwarekomponente sein und vorzugsweise als Java-Applikation ausgebildet sein.
Während die Verarbeitung von Ereignissen des Bordsystems in einem Kraftfahrzeug, beispielsweise eines CAN-Busses, der multimodalen Eingabe des natürlichsprachlichen Sprachsystems zuzurechnen ist, kann der Zugriff auf Informationen aus den Bordinformationssystemen auch während der Generierung der Antwortalternative eine Rolle spielen. So können in Antworten aktuelle Werte und Stati des Fahrzeugs eingebunden werden, um Informationen akustisch auszugeben. Diese Eigenschaft kann insbesondere dann zum Tragen kommen, wenn ein physisches Anzeigeinstrument für die Ausgabe des entsprechenden Werts vorgesehen ist. Der Zugriff kann in Form des genannten Platzhalters in die Formulierung einer Antwort integriert werden, wobei bei der Verarbeitung einer derartigen Antwort ein entsprechender Platzhalter erkannt wird, der zu diesem Platzhalter gehörige Wert aus dem Bordinformationssystem ermittelt wird und dann entsprechend in die Antwort eingebunden wird. Dies kann sowohl innerhalb eines Antworttextes der Fall sein, als auch bereits bei der Auswahl einer Antwort erfolgen, wenn die Ausgabe einer Antwort mit einer spezifischen Bedingung verknüpft ist. Die Identifikation eines Platzhalters mit Zugriff auf zumindest ein Bordinformationssystems des Fahrzeugs und die Ermittlung des gewünschten technischen Werts sowie die Abfrage und Weiterleitung dieses Werts folgen insbesondere über die gesondert angeordnete und genannte Schnittstellenkomponente. Diese Komponente stellt den direkten Bezug zu den existierenden Bordsystemen her.
Vorteilhafte Ausgestaltungen des erfindungsgemäßen Verfahrens sind als vorteilhafte Ausgestaltungen des erfindungsgemäßen Kommunikationssystems anzusehen.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand schematischer Zeichnungen näher erläutert. Es zeigen:
1 eine schematische Darstellung eines natürlichsprachlichen Dialogs in einer graphischen Modellierung gemäß dem erfindungsgemäßen Verfahren;
2 eine schematische Darstellung einer Konvertierung von Kommunikationsregeln eines natürlichsprachlichen Kommunikationssystems in eine Sprachgrammatik;
3 eine schematische Darstellung einer Konvertierung von Informationen von einer Eingabemodalität zur Verarbeitung im Kommunikationssystem;
4 eine schematische Darstellung einer Integration der Steuerung von Ausspracheinformationen in Antworten des künstlichen Sprachsystems; und
5 eine schematische Darstellung eines Zugriffs auf Werte eines Bordinformationssystems eines Fahrzeugs bei der Abarbeitung von Antwortalternativen des künstlichen Sprachsystems.
In den Figuren werden gleiche oder funktionsgleiche Elemente mit den gleichen Bezugszeichen versehen.
In 1 ist in einer schematischen Darstellung eine Dialogstruktur 1 für ein künstliches Sprachsystem gezeigt, welches zur Kommunikation mit einer natürlichen Person mittels natürlicher Sprache ausgebildet ist.
Zur Entwicklung der Dialogstruktur 1 ist ein Verfahren vorgesehen, bei dem der Dialogstruktur 1 ein Modell zugrunde gelegt wird, durch welches definierte Kommunikationsregeln und Verbindungen zwischen den Kommunikationsregeln bei der Entwicklung der Dialogstruktur 1 graphisch dargestellt werden.
Die beispielhaft graphisch dargestellte Dialogstruktur 1 umfasst einen ersten Strukturteil 2, einen zweiten Strukturteil 3 und einen dritten Strukturteil 4. Der erste Strukturteil 2 umfasst eine oder mehrere Eingabealternativen 5, denen entwicklungsspezifisch eine oder mehrere Antwortalternativen 6 zugeordnet sind. Diese sind graphisch dargestellt bzw. beispielsweise durch Anklicken der dargestellten Balken aufrufbar.
Die Eingabealternativen 5 und die Antwortalternativen 6 sind zu einer Kommunikationsregel 7 verknüpft.
Darüber hinaus ist dem ersten Strukturteil 2 ein graphisch dargestellter Startpunkt 8 zugeordnet, welcher mit der ersten Kommunikationsregel 7 verknüpft ist.
Der erste Strukturteil 2 der Dialogstruktur 1 ist über eine erste Verbindung 9 mit dem zweiten Strukturteil 3 und über eine zweite Verbindung 10 mit dem dritten Strukturteil 4 verknüpft. Diese graphische Darstellung gewährleistet für die Entwicklung die schnelle Übersichtlichkeit und die gemäß dem Modell mögliche Ausgestaltung einer Kommunikation.
Das dritte Strukturteil 4 umfasst ein Szenario, welches lediglich eine Kommunikationsregel 11 aufweist, welche wiederum im Ausführungsbeispiel mehrere Eingabealternativen 12 sowie damit verbundene oder diesen zugeordnete Antwortalternativen 13 aufweist. Selbstverständlich kann vorgesehen sein, dass einem Szenario des dritten Strukturteils 4 auch mehrere Kommunikationsregeln zugeordnet sind, welche insbesondere auch miteinander verknüpft sein können.
Der dritte Strukturteil 4 und insbesondere die Kommunikationsregel 11 ist über eine weitere Verknüpfung 14 mit einem Endpunkt 15 der Dialogstruktur 1 verknüpft.
Der zweite Strukturteil 3 weist beispielhaft ebenfalls ein Szenario 16 auf, welchem wiederum lediglich eine Kommunikationsregel 17 zugeordnet ist. Auch dieses Szenario 16 kann eine Mehrzahl von Kommunikationsregeln umfassen, welche miteinander verknüpft sein können. Die Kommunikationsregel 17 weist ebenfalls beispielhaft mehrere Eingabealternativen 18 sowie diesen zugeordnete Antwortalternativen 19 auf.
Des Weiteren umfasst das zweite Strukturteil 3 weitere Szenarien 21, 22 und 23, welche über eine Verknüpfung 20 mit dem Szenario 16 verknüpft sind. Die Kommunikation ist somit sowohl von dem Szenario 16 mit einem oder mehreren der Szenarien 21 bis 23 möglich, als auch zwischen den Szenarien 21 bis 23.
Beispielhaft ist wiederum gezeigt, dass das Szenario 21 zumindest eine Kommunikationsregel 24 aufweist, welche beispielhaft eine Mehrzahl von Eingabealternativen 25 und diesen zugeordnet eine Mehrzahl von Antwortalternativen 26 aufweist.
Der zweite Strukturteil 3 und insbesondere die Szenarien 21 bis 23 sind über Verknüpfungen 27, 28 und 29 mit dem Endpunkt 15 verknüpft.
Die der Dialogstruktur 1 zugeordnete und zugrundegelegte Modellierung wird vollständig graphisch realisiert.
In einfacher und aufwandsarmer Weise ist es möglich, die komplexe Struktur darzustellen und einzelne Strukturteile 2 bis 4 und/oder Kommunikationsregeln und/oder Eingabealternativen und/oder Antwortalternativen an vielfältigen Positionen der Struktur anzuordnen und dadurch weitere Verknüpfungsmöglichkeiten und Änderungen im Hinblick auf die Entwicklung der Dialogstruktur 1 durchführen zu können. Stets kann die Übersichtlichkeit und unmittelbare Darstellung der geänderten Dialogstruktur 1 erkannt und nachvollzogen werden.
Natürlichsprachliche Dialoge in der Datenverarbeitung umfassen die Verarbeitung einer textuellen oder sprachlichen Eingabe in prosaischer Form. Auf Basis dieser Eingabe wird meist auf der Grundlage einzelner Fallunterscheidungen, welche in die Tausende gehen können, eine passende Antwort ausgegeben. Die Antwort kann dabei ebenfalls in textueller, sprachlicher oder bildlicher Form prosaischen Inhalts erfolgen. Die Kommunikationsregeln können miteinander in Verbindung gesetzt werden, um Gesprächsabläufe zu konzipieren. Zur übersichtlicheren und verbesserten Generierung solcher Dialoge werden diese und auch die damit einhergehenden Verbindungen und Verknüpfungen der Dialogstruktur 1 graphisch generiert. Dadurch können umfangreichere Dialoge erstellt werden, die mehr Formulierungs- und Antwortalternativen auf eine einfach Weise miteinander verbinden können.
Die graphische Modellierung beinhaltet die Bearbeitung einzelner Formulierungen sowie mehrerer Alternativen für die Eingabe als auch für die Ausgabe. Gruppen von Eingabe- und Anwortalternativen können zusammengesetzt werden, um eine Kommunikationsregel zu bilden. Die einzelnen Formulierungen können jeweils aus einem allgemeinen Verzeichnis für Eingaben als auch für Antworten gewählt werden. Mehrere Regeln, welche einen definierten Start- und Endpunkt haben können, können zu einem Szenario zusammengesetzt werden. Alle Szenarien stehen vorzugsweise damit im Zusammenhang. Abhängig vom erstellten Szenario können Eingabe- und Antwortalternativen mehrfach existieren, wobei sie durch die Zuordnung zu einem Szenario unterschieden werden können. Die Zuordnung zu einem Szenario kann auch dynamisch in die Antwort in Form einer Variablen aufgenommen werden. Ebenso kann diesbezüglich ein Platzhalter oder eine weitere Funktion dynamisch in die Antwort eingebunden werden. Ebenso kann die zuvor geäußerte Antwort des künstlichen Sprachsystems als Voraussetzung für das Verstehen einer nachfolgenden Eingabe herangezogen werden.
Innerhalb der Antworten kann auch ein expliziter Absprung in den Kontext eines anderen Szenarios enthalten sein. Auch lassen sich die bereits zu einem Szenario zusammengestellten Kommunikationsregeln kopieren, indem das gesamte Szenario umbenannt und in einen anderen Zusammenhang eingebunden wird.
Bei dem in 1 beispielhaft dargestellten Modell der Dialogstruktur 1 in seiner graphischen Darstellung sind die Szenarien innerhalb eines möglichen Regelwerks schematisch abgebildet. In 1 ist die Option von Absprüngen zwischen Szenarien nicht explizit dargestellt, kann jedoch ebenso vorgesehen sein.
In 2 ist in einer schematischen Darstellung die Konvertierung von Kommunikationsregeln 31 bis 34 eines natürlichsprachlichen Kommunikationssystems, welches ein künstliches Sprachsystem aufweist, das mit einer natürlichen Person mittels Sprache kommunizieren kann, in eine spezifische Sprachgrammatik gezeigt.
Zum Erzeugen der Sprachgrammatik für das künstliche Sprachsystem werden der Sprachgrammatik einzelne Worte und/oder Wortkombinationen zugrunde gelegt. Der Kommunikation wird ein Satz von Kommunikationsregeln mit jeweils einer Eingabe einer Person und einer korrespondierenden Ausgabe des Sprachsystems zugeordnet, und zumindest eine Eingabe der Person in das Sprachsystem wird einem der Sprachgrammatik zugrunde gelegten Wort und/oder einer Wortkombination zugeordnet.
Gemäß der Darstellung in 2 ist der Satz von Kommunikationsregeln 31 bis 34 durch ein Regelwerk 30 gebildet, welches dem künstlichen Sprachsystem zugrunde gelegt wird. Im Ausführungsbeispiel umfasst das Regelwerk 30 beispielhaft vier Kommunikationsregeln 31, 32, 33 und 34, welchen jeweils ein oder mehrere Eingabealternativen bzw. Benutzereingaben und dazu mögliche Antwortalternativen bzw. Antworten des Systems zugeordnet werden, wie dies durch die Blöcke dargestellt ist.
Die Zuordnung einer Eingabe zu einem Wort und/oder einer Wortkombination wird durch eine automatische Konvertierung durchgeführt und dadurch die Sprachgrammatik definiert. Diesbezüglich wird die automatische Konvertierung durch ein entsprechendes Konvertierungsverfahren durchgeführt, wie dies in 2 durch das Blockelement 35 angedeutet ist. Dieses Tool ist somit im Hinblick auf den Ablauf der automatischen Konvertierung zwischen dem Regelwerk 30 und der zu erzeugenden Sprachgrammatik 36 der Spracherkennung zwischengeschaltet.
Bei der erzeugten Sprachgrammatik 36 sind dann gemäß der beispielhaften Darstellungen in 2 mehrere Eingaben 37, 38, 39 und 40 als mögliche Benutzereingaben definiert.
Bei der automatischen Konvertierung werden einzelne Alternativen einer Eingabe analysiert und abhängig davon eine zu priorisierende Konvertierung und somit eine Zuordnung einer Alternative zu einem Wort und/oder einer Wortkombination durchgeführt. Die automatische Konvertierung kann insbesondere abhängig von einem Platzhalter und/oder einer Variablen und/oder zumindest einer Funktion in einer Alternative einer Eingabe durchgeführt werden. Ein Platzhalter kann diesbezüglich beispielsweise ein Füllwort wie „äh" oder dergleichen sein.
Ein Variable kann insbesondere durch einen Wert eines Betriebsparameters eines Geräts oder eines Systems oder durch einen sonstigen Ergebniswert definiert werden. Insbesondere können hier beispielsweise technische Geräte in einem Fahrzeug, wie Motor, Klimaanlage, Fahrerassistenzsysteme und dergleichen genannt werden.
Eine Funktion wird insbesondere durch eine Hilfefunktion und/oder eine Funktion zur Änderung eines Profils einer Kommunikationsregel oder einer Verknüpfung von Regeln zueinander definiert.
Die bereits erwähnten Kommunikationsregeln eines natürlichsprachlichen Kommunikationssystems bestehen aus einem Eingabeteil und einem Antwortteil. Der Eingabeteil kann dabei durch den Benutzer in textueller, sprachlicher oder sonstiger Form geäußert werden. Eine sprachliche Äußerung kann mit Hilfe einer Spracherkennung das akustische Signal erkennen und in maschinenlesbare Form konvertieren. Bekannte Wörter oder Wortkombinationen, so genannte Phrasen, werden als Sprachgrammatik bezeichnet und vor der Laufzeit der Spracherkennung erstellt und bereitgestellt. Da die einzelnen Phrasen der Sprachgrammatik inhaltlich den möglichen Benutzereingaben innerhalb des Regelwerks 30 des natürlichsprachlichen Kommunikationssystems entsprechen, bietet sich die automatische Konvertierung an. Bei dieser Konvertierung werden die einzelnen Eingabealternativen vorzugsweise analysiert und je nach Verwendung von Platzhaltern, Variablen und weiteren Funktionen konvertiert. Das Ergebnis der Konvertierung ist die Sprachgrammatik 36, die alle möglichen vom natürlichsprachlichen künstlichen Sprachsystem semantisch verstandenen Eingaben enthält. Dadurch ist die Spracherkennung in der Lage, all diese möglichen Eingaben mit einer höheren Sicherheit zu erkennen.
In 3 ist eine schematische Darstellung einer Konvertierung eines Signals von technischen Geräten und anderweitigen Eingabesignalen zur Verarbeitung im Kommunikationssystem gezeigt.
Ist das künstliche Sprachsystem derart ausgebildet, dass es abhängig von einem Erkennen einer Eingabe der natürlichen Person eine Antwort ausgeben kann, so ist hier insbesondere vorgesehen, dass das Sprachsystem neben einer akustischen und/oder textuellen Eingabe der Person zumindest eine weitere davon unterschiedliche Information als Eingabe erkennen kann.
Als weitere Information bezüglich einer Eingabe kann in diesem Zusammenhang eine Geste der Person und/oder eines Bedienelements durch die Person und/oder eine von dem Sprachsystem unterschiedlichen technischen Gerät generierte Information verstanden werden.
Das Kommunikationssystem 41 umfasst somit neben der natürlichen Person eine akustische Eingabemöglichkeit 42 sowie eine Eingabemöglichkeit 43, durch welche eine Texteingabe erfolgen kann.
Darüber hinaus sind technische Geräte vorgesehen, welche Informationen erzeugen können, die das Sprachsystem als Eingabe erkennen und verwerten kann. In diesem Zusammenhang können ein optischer Sensor 44 und/oder ein zur haptischen Eingabe ausgebildetes Gerät 45 und/oder ein Drucksensor 46 und/oder eine Einrichtung zur Akustikanalyse 47 und/oder ein Lasersensor 48 und/oder ein Radarsensor 49 vorgesehen sein. Dies sind lediglich beispielhafte technische Geräte, deren Aufzählung nicht abschließend zu verstehen ist. Eines oder mehrere dieser Geräte können beispielsweise einem Fahrerassistenzsystem eines Fahrzeugs oder einer anderweitigen Einrichtung im Fahrzeug zugeordnet sein.
Vorzugsweise ist vorgesehen, dass die durch die akustische Eingabe und/oder die textliche Eingabe erzeugten Signale direkt an das künstliche Sprachsystem 50 zur weiteren Verarbeitung übergeben werden. Insbesondere ist vorzugsweise vorgesehen, dass die von den Komponenten 44 bis 49 erzeugten Signale zunächst an eine Einheit zur Signalkonvertierung 51 übertragen werden, und diese dann ein Ausgangssignal an das künstliche Sprachsystem 50 übermittelt.
Der grundlegende Mechanismus einer Kommunikation zwischen einem künstlichen Sprachsystem 50 und einer natürlichen Person kann durch eine derartige Erweiterung wesentlich flexibler und mit mehr Informationsgehalt ermöglicht werden. Der grundlegende Mechanismus der fallbasierten Auswahl einer Antwort bzw. allgemein einer Reaktion kann bei Verwendung eines solchen Systems oder Systemteils gemäß der Darstellung in 3 in Kombination mit technischen Geräten zu weiteren Verarbeitungen genutzt werden. So können speziell im Fahrzeug beispielsweise neben der akustischen Eingabe durch den Fahrer auch die Bedienung eines Bedienelements oder die Erkennung einer Geste durch eine Kamera als Eingabe dem natürlichsprachlichen Sprachsystem 50 zugeführt werden. Als Reaktion auf diese Eingaben kann ebenso wie bei akustischer Eingabe auch eine entsprechende Antwort oder Reaktion erfolgen. Dabei werden die eingehenden Signale der angeschlossenen Geräte, wie Bedienelement oder Kamera oder dergleichen, in ein Format konvertiert, das durch das Sprachsystem 50 verarbeitet werden kann. Diese Konvertierung kann neben den beiden als Beispiel genannten Geräten auch weitere Elemente, wie Touchscreens, Tonlagen- und Stimmerkennungseinrichtungen sowie weitere Einheiten umfassen.
Vorzugsweise ist vorgesehen, dass bei einer derartig multifunktionalen Möglichkeit einer Erkennung unterschiedlichster Informationen durch das Sprachsystem 50 eine Sicherheit dahingehend eingeführt ist, dass beispielsweise in einem Fahrzeug ein Fahrzeuginsasse zunächst den Erkennungsmodus aktivieren kann. Dies kann beispielsweise durch spezifische manuelle Betätigung eines expliziten Bedienelements vorgesehen sein. Dadurch kann einem unerwünschten Aktivieren des Sprachsystems vorgebeugt werden, da somit verhindert wird, dass jegliche Bewegung oder sonstige Information von einem technischen Gerät bereits stets als Eingabe von dem Sprachsystem 50 erkannt wird, was üblicherweise nicht permanent erwünscht ist.
Es ist bei dem Kommunikationssystem 41 des Weiteren vorgesehen, dass zur Kommunikation zwischen einer natürlichen Person und einem künstlichen Sprachsystem 50, durch welches abhängig von einem Erkennen einer Eingabe der Person eine Antwort ausgegeben wird, zur Unterstützung der Ausgabe ein virtueller Avatar eingesetzt wird. Die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder die visuell dargestellte Umgebung des Avatars werden an die als Antwort durch das Sprachsystem 50 auszugebenden Informationen gekoppelt. Dies ist beispielhaft in einer schematischen Darstellung gemäß 4 gezeigt, welche eine Integration der Steuerung von Ausspracheinformationen in Antworten des Sprachsystems 50 zeigt.
Vorzugsweise werden die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder die visuell dargestellte Umgebung des Avatars von den als Antwort durch das Sprachsystem auszugebenden Informationen gesteuert, wobei insbesondere eine Synchronisierung, vorzugsweise eine automatische Synchronisierung, zwischen der Bewegung des Avatars und/oder der Gestaltung des Avatars und/oder der visuell dargestellten Umgebung des Avatars mit den als Antwort ausgegebenen Informationen durchgeführt wird.
Beim Einsatz des Kommunikationssystems 41 in einem Fahrzeug, bei dem das künstliche Sprachsystem 50 zur Sprachausgabe sowie zur Visualisierung des virtuellen Wesens, dem Avatar, ausgebildet ist, sind eine Vielzahl von Informationen bedeutend und notwendig. Für die korrekte Steuerung der Sprachausgabe sind diesbezüglich Informationen zu hinterlegen, wie genau ein bestimmtes Wort oder eine Wortkombination ausgesprochen werden soll. Dies spielt insbesondere bei der Verwendung von Fremdwörtern oder Eigennamen eine bedeutende Rolle, um die korrekte Aussprache gewährleisten zu können.
Die Visualisierung und Steuerung eines virtuellen Wesens erfordert die Abstimmung mit den Inhalten, die durch dieses Wesen vermittelt werden sollen. Aus diesem Grund ist es wichtig, dass das Aussehen und die Bewegung sowie das virtuelle Umfeld des virtuellen Wesens durch den auszugebenden Inhalt gesteuert werden. Dies kann insbesondere dann erfolgen, wenn die Antwortalternativen des Sprachsystems 50 bereits die Steuerinformationen sowohl für das virtuelle Wesen als auch die korrekte Aussprache von Wörtern integrieren. Dies ist in 4 dargestellt, wobei hier die Integration von zumindest einer Regel 31 des Regelwerks 30 gezeigt ist und eine Verknüpfung mit der Sprachausgabe 52 des Sprachsystems 50 sowie mit einer Steuerung 53 des Avatars und einer Steuerung 54 der virtuellen Umgebung des Avatars gezeigt ist.
Vorzugsweise wird eine Bewegung des Avatars oder eines Körperteils des Avatars mit einer Abfolge von durch das Sprachsystem 50 zu vermittelnden Informationen in einer Antwort abhängig von der Art der Informationen automatisch synchronisiert. Die korrekte phonetische Aussprache von Wörtern in dem Sprachsystem 50 wird vorzugsweise gespeichert und die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder die visuell dargestellte Umgebung des Avatars wird an die korrekte phonetische Aussprache spezifisch geknüpft. Dadurch kann stets eine realitätsnahe Darstellung einer Handlung und/oder einer Aussprache erreicht werden.
Vorzugsweise wird die Verknüpfung abhängig von einer von dem Sprachsystem 50 erkannten Eingabe automatisch durchgeführt und insbesondere abhängig von einer durch die natürliche Person durchgeführten Einstellung ermöglicht. Als Eingaben der Person können diesbezüglich spezifische Sprachen, wie Deutsch, Englisch oder dergleichen ausgewählt werden, wobei dann eine automatische Synchronisierung beispielsweise der Lippenbewegung des Avatars bei der Aussprache eines entsprechenden Wortes in dieser gewählten Sprache durchgeführt wird. Eine nicht zu der korrekten Aussprache eines Wortes passende Lippenbewegung des Avatars kann dadurch vermieden werden, wodurch eine wesentliche Verbesserung des Kommunikationssystems erreicht werden kann. Die Realitätsnähe kann dadurch wesentlich erhöht werden.
Neben einer einfachen Lippenbewegung kann diesbezüglich auch die Bewegung jeglicher anderer Körperteile des Avatars auf die situationsbezogen erforderliche Ausgabe synchronisiert werden.
Auch dann, wenn keine explizite Sprachausgabe erfolgen soll, sondern lediglich eine visuelle Darstellung von Handlungen oder Abläufen, kann auch diesbezüglich eine exakte Synchronisierung erfolgen. So kann in diesem Zusammenhang beispielsweise auch eine Wartungs- oder Instandsetzungsanleitung an einen Fahrzeugnutzer visuell ausgegeben werden, indem beispielsweise auf einem Bildschirm ein akustisch nicht hinterlegter Text angezeigt wird, welcher durch die Bewegungen und Handlungen des visuell dargestellten Avatars demonstriert wird. Auch diesbezüglich kann die korrekte Bewegung und Handlung des Avatars zeitgenau auf den spezifisch gezeigten Text synchronisiert werden. In diesem Zusammenhang können beispielsweise Einstellungen von Systemen im Fahrzeug, wie beispielsweise Radio, CD-Spieler und dergleichen, oder auch selbstdurchzuführende Wartungsarbeiten, wie Kontrolle des Ölstands, Kontrolle der Scheibenwaschflüssigkeit und dergleichen erläutert werden.
In diesem Zusammenhang kann dann auch die Synchronisierung des auf der Anzeigeeinheit dargestellten Umfelds des Avatars entsprechend angepasst werden und beispielsweise bei einer Erläuterung zur Füllstandskontrolle des Motoröls im Hintergrund des Avatars der Motorraum des spezifischen Fahrzeugtyps dargestellt, insbesondere relativ detailgetreu dargestellt, werden. Weitere Beispiele sind die Erläuterung der Durchführung eines Reifenwechsels oder eines Fremdstarts etc.. Dadurch kann für einen Nutzer bei relativ komplexen Abläufen oder Handlungen oder Einstellungen der rein textlichen und/oder akustischen Mitteilung auch die Darstellung in bewegten Bildern unterstützend ermöglicht werden, was sehr hilfreich sein kann.
In 5 ist in einer schematischen Darstellung der Zugriff auf Werte eines Bordinformationssystems in einem Fahrzeug bei der Abarbeitung von Antwortalternativen des Sprachsystems 50 gezeigt.
Durch diese Struktur wird die Ausgabe von Informationen natürlicher Sprache mittels eines künstlichen Sprachsystems 50 ermöglicht, wobei in einer durch Wörter formulierten Antwort des Sprachsystems 50 zumindest ein Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses eingebunden und mitgeteilt wird. Als Gerät können beispielsweise technische Geräte in einem Fahrzeug vorgesehen sein, deren Zustandsparameter beispielsweise Betriebsparameter darstellen. Als Ereignisse können anderweitige Dinge vorgesehen sein, welche beispielsweise die Umgebung des Fahrzeugs oder Sportveranstaltungen oder dergleichen betreffen können. So kann beispielsweise als Zustandsparameter eines Ereignisses die Temperatur in der Fahrzeugumgebung eingebunden und mitgeteilt werden. Ebenso kann jedoch auch beispielsweise der Spielstand eines gegenwärtig stattfindenden oder bereits beendeten Fußballspiels als Zustandsparameter eines Ereignisses eingebunden und mitgeteilt werden. Dies sind lediglich beispielhafte Nennungen für Ereignisse und zugeordnete mögliche Zustandsparameter, wodurch lediglich verdeutlicht werden soll, welche Fülle von derartigen Möglichkeiten vorliegen und berücksichtigt werden können.
Vorzugsweise wird ein Wert eines Zustandsparameters durch einen Platzhalter in einer definierten in dem Sprachsystem 50 hinterlegten Antwortstruktur eingebunden. Insbesondere wird bei einer zu generierenden Antwort des Sprachsystems 50 ein gegebenenfalls zugeordneter Platzhalter gesucht und bei einem Vorhandensein eines Platzhalters der diesem Platzhalter zugeordnete Wert des Zustandsparameters automatisch angefordert.
Während der Verarbeitung von Ereignissen des Bordsystems, beispielsweise eines Bussystems, in einem Fahrzeug, die der multimodalen Eingabe des natürlich sprachlichen Sprachsystems zuzurechnen ist, kann der Zugriff auf Informationen aus den Bordinformationssystemen auch während der Generierung der Antwortalternative eine Rolle spielen. So können in Antworten aktuelle Werte und Stati des Fahrzeugs oder von Teilkomponenten davon eingebunden werden, um Informationen akustisch auszugeben. Dies kann beispielsweise die Ansage der aktuellen Geschwindigkeit oder der Motortemperatur sein.
Diese Eigenschaft kann insbesondere dann zum Tragen kommen, wenn ein physisches Anzeigeinstrument im Fahrzeug für die Ausgabe eines entsprechenden Werts vorgesehen ist.
Wird bei der Verarbeitung einer derartigen Antwort ein entsprechender Platzhalter, welcher vorab definiert und hinterlegt wird, erkannt, wird der zu diesem Platzhalter gehörige Wert aus dem Bordinformationssystem ermittelt und eingebunden. Dies ist in 5 beispielhaft dargestellt. Dazu ist vorgesehen, dass dem Regelwerk 30 des natürlichsprachlichen Sprachsystems 50 zumindest eine Kommunikationsregel 55 zugeordnet ist, die wiederum zumindest eine Eingabealternative 56 sowie eine zugeordnete Antwortalternative 57 aufweist. Diese Antwortalternative 57 ist erweitert, indem ihr beispielsweise ein Platzhalter zugeordnet bzw. darin hinterlegt ist. Wird nun durch die natürliche Person eine entsprechende Benutzereingabe bzw. Eingabealternative 56 durchgeführt, so wird die zugeordnete Antwortalternative 57 generiert und erkannt, dass der erforderliche Platzhalter vorhanden ist. In diesem Zusammenhang wird der für den Platzhalter erforderliche Wert eines Zustandsparameters über eine Schnittstellenkomponente 58 abgefragt, welche wiederum mit dem Bordinformationssystem 59 kommuniziert und den entsprechenden Wert des Zustandsparameters für den Platzhalter abfragt und wieder für die Antwortausgabe weiterleitet.
Der Zugriff wird somit in Form eines Platzhalters in die Formulierung einer Antwort integriert. Die Einbindung des Werts des Platzhalters kann sowohl innerhalb eines Antworttextes der Fall sein, kann aber auch bereits bei der Auswahl einer Antwort erfolgen, wenn die Ausgabe einer Antwort mit einer spezifischen Bedingung verknüpft ist. Die Identifikation des Platzhalters mit dem Zugriff auf das Bordinformationssystem 59, die Ermittlung des gewünschten technischen Werts sowie die Abfrage und Weiterleitung dieses Werts erfolgen gemäß der Darstellung im Ausführungsbeispiel in 5 über die gesonderte Schnittstellenkomponente 58. Diese stellt den direkten Bezug zu den existierenden Bordsystemen her.
Die Schnittstellenkomponente 58 kann insbesondere auch als Softwareapplikation, beispielsweise als Java-Applikation, ausgebildet werden.
Die Schnittstellenkomponente 58 ist so spezifiziert, dass sie im Systemverbund genau weiß, wo bestimmte Informationen abgelegt bzw. abgefragt werden können und wohin sie diese spezifisch weiterübertragen soll. Die Schnittstellenkomponente 58 ist somit ein wesentlicher Teil im Hinblick auf die präzise Auffindung, Abfrage und Übermittlung des Werts der Zustandskomponente, welche dem Platzhalter zugeordnet ist.
Durch die erläuterte Vorgehensweise kann ermöglicht werden, dass in statische Komponenten einer Antwort dynamische Teile eingefügt werden können, die darüber hinaus dynamisch angefragt werden können.

Claims

Verfahren zur Ausgabe von Informationen in natürlicher Sprache mittels eines künstlichen Sprachsystems, dadurch gekennzeichnet, dass in eine durch Wörter formulierte Antwort des Sprachsystems zumindest ein Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses eingebunden und mitgeteilt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Wert eines Zustandsparameters durch einen Platzhalter in einer definierten in dem Sprachsystem hinterlegten Antwortstruktur eingebunden ist.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass bei einer zu generierenden Antwort des Sprachsystems ein gegebenenfalls zugeordneter Platzhalter gesucht wird und bei einem Vorhandensein des Platzhalters der diesem Platzhalter zugeordnete Wert des Zustandsparameters angefordert wird.
Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass erst während der Erstellung der Antwort nach einem Platzhalter gesucht wird oder bereits mit der spezifischen Auswahl einer hinterlegten Antwort der zugeordnete Platzhalter identifiziert und angefordert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Identifikation eines Platzhalters und/oder die Ermittlung des Werts des dem Platzhalter zugeordneten Zustandsparameters mittels einer zwischen das Gerät und dem Sprachsystem Informationen übermittelnden Schnittstellenkomponente erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Abfrage des Werts eines dem Platzhalter zugeordneten Zustandsparameters und/oder die Weiterleitung des Werts des dem Platzhalter zugeordneten Zustandsparameters mittels einer zwischen das Gerät und dem Sprachsystem Informationen übermittelnden Schnittstellenkomponente erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in eine bis auf den Platzhalter statisch vorliegende Antwort eine dynamisch veränderbare mit dem Platzhalter verknüpfte Information, welche situationsspezifisch abgefragt wird, dynamisch in die Antwort eingefügt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Gerät ein technisches Gerät in einem Fahrzeug ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Sprachsystem einem Infotainmentsystem in einem Fahrzeug zugeordnet wird und mit einem Fahrzeuginsassen kommunizieren kann.
Kommunikationssystem mit einer natürlichen Person und einem künstlichen Sprachsystem, welches zur Kommunikation mit der natürlichen Person und zur Ausgabe einer Antwort ausgebildet ist, dadurch gekennzeichnet, dass in eine durch Wörter formulierte Antwort des Sprachsystems zumindest ein Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses eingebunden ist und durch die Antwort des Sprachsystems mitteilbar ist.
Kommunikationssystem nach Anspruch 10, dadurch gekennzeichnet, dass das Sprachsystem einem Infotainmentsystem in einem Fahrzeug zugeordnet ist und mit einem Fahrzeuginsassen kommunizieren kann.