-
Die
Erfindung betrifft ein Verfahren zur Ausgabe von Informationen in
natürlicher
Sprache mittels eines künstlichen
Sprachsystems sowie ein Kommunikationssystem mit einem derartigen
künstlichen
Sprachsystem, welches zur Kommunikation mit einer natürlichen
Person ausgebildet ist, welche ebenfalls dem Kommunikationssystem
zugeordnet ist.
-
Die
Ausgabe von Antworten bei bekannten Kommunikationssystemen mittels
eines künstlichen Sprachsystems
sind gegenwärtig
sehr eingeschränkt.
Lediglich vorgefertigte Antwortstrukturen können somit quasi in statischer
Weise wiedergegeben werden. Dadurch ist die Kommunikation und insbesondere
auch die Informationsvermittlung durch das künstliche Sprachsystem relativ
eingeschränkt.
-
Es
ist Aufgabe der vorliegenden Erfindung, ein Verfahren sowie ein
Kommunikationssystem zu schaffen, bei dem die Informationsvermittlung
durch das künstliche
Sprachsystem flexibler ermöglicht
und darüber
hinaus erweitert wird.
-
Diese
Aufgabe wird durch ein Verfahren, welches die Merkmale nach Anspruch
1 aufweist, und ein Kommunikationssystem, welches die Merkmale nach
Anspruch 10 aufweist, gelöst.
-
Bei
dem erfindungsgemäßen Verfahren
werden Informationen in natürlicher
Sprache mittels eines künstlichen
Sprachsystems ausgegeben. In eine durch Wörter formulierte Antwort des
Sprachsystems wird zumindest ein Wert eines Zustandsparameters eines
Geräts
und/oder eines Ereignisses eingebunden. Durch eine derartige Vorgehensweise
bei der Informationsvermittlung mit einem künstlichen Sprachsystem kann
die Informationsdarbietung wesentlich erweitert werden und darüber hinaus
die Informationsgenerierung flexibilisiert werden.
-
Vorzugsweise
wird ein Wert eines Zustandsparameters durch einen Platzhalter in
einer definierten in dem Sprachsystem hinterlegten Antwortstruktur
eingebunden. Dadurch kann quasi vorab die Antwortstruktur bei der
Erstellung und Modellierung einer Dialogstruktur für das Sprachsystem
zugrunde gelegt werden und der Platzhalter an der gewünschten
und für
die richtige Antwort erforderlichen Stelle positioniert werden.
Dies kann im Hinblick auf die jeweils erforderliche Sprachgrammatik
somit individuell erfolgen.
-
Vorzugsweise
wird bei einer zu generierenden Antwort des Sprachsystems ein gegebenenfalls zugeordneter
Platzhalter spezifisch gesucht und bei einem Vorhandensein des Platzhalters
der diesem Platzhalter zugeordnete Wert des Zustandsparameters angefordert.
Dies ermöglicht
eine hochfunktionelle und effiziente Vorgehensweise im Hinblick
auf die Kommunikation.
-
Vorzugsweise
wird erst während
der Erstellung der Antwort nach einem Platzhalter gesucht, wodurch
der vorab durchzuführende
Aufwand bei einer Kommunikation relativ niedrig gehalten werden
kann. Es kann jedoch auch vorgesehen sein, dass bereits mit der
spezifischen Auswahl einer hinterlegten Antwort der zugeordnete
Platzhalter identifiziert und angefordert wird. Durch diese Vorgehensweise
kann besonders bei einer relativ aufwendigen und komplex zu generierenden
Information, welche einem Platzhalter zugeordnet ist, ein zusätzlicher
Zeitgewinn ermöglicht
werden. Eine stockende Sprachausgabe aufgrund des noch fehlenden
und nicht angeforderten bzw. erhaltenen Werts des Zustandsparameters des
Platzhalters kann dadurch verhindert werden. Die flüssige Antwort
durch das Sprachsystem kann damit ohne Unterbrechung und auch ohne
Verzögerung
ermöglicht
werden.
-
Vorzugsweise
erfolgt die Identifikation eines Platzhalters und/oder die Ermittlung
des Werts des dem Platzhalter zugeordneten Zustandsparameters mittels
einer zwischen das Gerät
und dem Sprachsystem Informationen übermittelnden Schnittstellenkomponente.
Dies ist besonders vorteilhaft, da die Schnittstellenkomponente
spezifisch auf die gegebene Situation in der Kommunikationsstruktur
angepasst werden kann.
-
Gerade
bei einer relativ komplexen Struktur mit einer Vielzahl von Platzhaltern,
einer Vielzahl von Antwortmöglichkeiten
und einer Vielzahl von Geräten und/oder
Ereignissen, welche jeweils einen oder mehrere Zustandsparameter
aufweisen können, kann
durch eine derartige Komponente die effiziente Datengenerierung
und Bereitstellung für
die Antwort gewährleistet
werden.
-
Vorzugsweise
wird die Abfrage des Werts eines dem Platzhalter zugeordneten Zustandsparameters
und/oder die Weiterleitung des Werts des dem Platzhalter zugeordneten
Zustandsparameters mittels einer zwischen das Gerät und dem
Sprachsystem Informationen übermittelnden
Schnittstellenkomponente durchgeführt. Die Schnittstellenkomponente fungiert
somit als zentrale Station, welche quasi weiß wo es bestimmte Informationen
bezüglich
der Platzhalter anfragen und einfordern kann. Darüber hinaus kann
durch diese Komponente auch die spezifische und somit auch sehr
schnelle Weiterleitung des erhaltenen Werts ermöglicht werden. Auch dies trägt somit
positiv zur schnellen und unterbrechungsfreien Erzeugung der Antwort
einerseits und zur entsprechenden Ausgabe andererseits bei. Das
künstliche Sprachsystem
kann somit im Hinblick auf eine Sprachausgabe entsprechend einer
natürlichen
Person optimiert werden.
-
Vorzugsweise
wird in eine bis auf den Platzhalter statisch vorliegende Antwort
eine dynamisch veränderbare
Information, welche mit dem Platzhalter verknüpft wird und welche situationsspezifisch
abgefragt wird, dynamisch in die Antwort eingefügt. Situationsspezifisch erfolgt
somit die Informationsgenerierung und Bereitstellung, wodurch die
grundsätzlich
erforderliche Basisstruktur des Dialogsystems wesentlich reduziert
werden kann. Sowohl Komplexität
der Dialogstruktur als auch die erforderliche gespeicherte Datenmenge
können
dadurch wesentlich reduziert werden. Nicht zuletzt kann durch diese
Ausgestaltung auch die Geschwindigkeit des Systems wesentlich erhöht werden.
-
Darüber hinaus
kann durch die dynamische Anfrage und Bereitstellung auch eine sehr
zeitnahe Generierung und Bereitstellung eines Wertes ermöglicht werden,
wodurch die Realitätsbezogenheit
verbessert werden kann. Insbesondere kann somit dadurch verhindert
werden, dass ein Wert angezeigt wird, welcher schon länger zurückliegt
und zum Zeitpunkt der Anzeige bzw. der Ausgabe durch das Sprachsystem
bereits nicht mehr aktuell ist. Auch dadurch können somit Fehleinschätzungen
von mittels dem künstlichen
Sprachsystem ausgegebenen Informationen vermieden werden.
-
Vorzugsweise
ist das Gerät
ein technisches Gerät
in einem Fahrzeug. Insbesondere können hierbei unterschiedlichste
Steuergeräte,
Fahrerassistenzsysteme, Sensoren und dergleichen betrachtet werden.
Auch das Bordsystem kann diesbezüglich genannt
werden. Insbesondere können
als Zustandsparameter derartiger Geräte die Geschwindigkeit des
Fahrzeugs, die Temperatur von einzelnen Komponenten oder in dem
Fahrzeug strömenden Fluiden,
wie beispielsweise der Öltemperatur,
dynamisch in die Antwort eingebunden und mitgeteilt werden.
-
Darüber hinaus
können
auch, wie bereits erwähnt,
Zustandsparameter von Ereignissen eingebunden und mitgeteilt werden.
In diesem Zusammenhang sollen beispielsweise als Ereignis Situationen
in der Umgebung des Fahrzeugs genannt werden. So kann insbesondere
die Umgebungstemperatur außerhalb
des Fahrzeugs oder eine sonstige Wettersituation genannt werden.
Darüber
hinaus wird mit einem Zustandsparameter eines Ereignisses jedoch auch
eine beliebige sonstige Begebenheit verstanden und es kann beispielsweise
auch das Ergebnis eines Fußballspiels
oder ein Aktienkurs genannt werden. Diese Aufzählung ist lediglich beispielhaft
und keinesfalls abschließend
zu verstehen. Es soll lediglich ansatzweise demonstriert werden,
welche Ereignisse möglich
sein könnten,
die Zustandsparameter in Form von Daten aufweisen, die über das
künstliche Sprachsystem
vermittelt werden können.
-
Vorzugsweise
ist das Sprachsystem einem Infotainmentsystem in einem Fahrzeug
zugeordnet und zur Kommunikation mit einem Fahrzeuginsassen ausgebildet.
Das Infotainmentsystem kann beispielsweise eine Rundfunkeinheit
und/oder einen CD-Spieler und/oder einen DVD-Spieler und/oder eine
Navigationseinrichtung und dergleichen aufweisen. Auch dies ist
lediglich eine beispielhafte Aufzählung, die keinesfalls als
abschließend
zu verstehen ist.
-
Insbesondere
kann die Schnittstellenkomponente auch mit einem Bussystem in einem
Fahrzeug gekoppelt sein und darüber
die Kommunikation im Hinblick auf die Anfrage von Werten von Platzhaltern ermöglicht sein.
-
Ein
erfindungsgemäßes Kommunikationssystem
umfasst ein künstliches
Sprachsystem, welches zur Kommunikation mit einer natürlichen
Person, welche ebenfalls dem Kommunikationssystem zugeordnet ist,
ausgebildet, und zur Ausgabe einer Antwort konzipiert ist. In eine
durch Wörter
formulierte Antwort des Sprachsystems ist zumindest ein Wort eines
Zustandsparameters eines Geräts
und/oder eines Ereignisses eingebunden und durch die Antwort des
Sprachsystems mitteilbar.
-
Vorzugsweise
ist das Sprachsystem einem Infotainmentsystem in einem Fahrzeug
zugeordnet und kann mit einem Fahrzeuginsassen kommunizieren. Eine
Kommunikation kann in diesem Zusammenhang über akustische Signale, insbesondere Sprachsignale,
und/oder durch textuelle Eingabe und/oder durch Gesten erfolgen.
-
Die
Schnittstellenkomponente kann eine Hardwarekomponente sein. Insbesondere
kann sie jedoch auch eine Softwarekomponente sein und vorzugsweise
als Java-Applikation ausgebildet sein.
-
Während die
Verarbeitung von Ereignissen des Bordsystems in einem Kraftfahrzeug,
beispielsweise eines CAN-Busses, der multimodalen Eingabe des natürlichsprachlichen
Sprachsystems zuzurechnen ist, kann der Zugriff auf Informationen
aus den Bordinformationssystemen auch während der Generierung der Antwortalternative
eine Rolle spielen. So können
in Antworten aktuelle Werte und Stati des Fahrzeugs eingebunden
werden, um Informationen akustisch auszugeben. Diese Eigenschaft
kann insbesondere dann zum Tragen kommen, wenn ein physisches Anzeigeinstrument
für die
Ausgabe des entsprechenden Werts vorgesehen ist. Der Zugriff kann in
Form des genannten Platzhalters in die Formulierung einer Antwort
integriert werden, wobei bei der Verarbeitung einer derartigen Antwort
ein entsprechender Platzhalter erkannt wird, der zu diesem Platzhalter
gehörige
Wert aus dem Bordinformationssystem ermittelt wird und dann entsprechend
in die Antwort eingebunden wird. Dies kann sowohl innerhalb eines
Antworttextes der Fall sein, als auch bereits bei der Auswahl einer
Antwort erfolgen, wenn die Ausgabe einer Antwort mit einer spezifischen
Bedingung verknüpft
ist. Die Identifikation eines Platzhalters mit Zugriff auf zumindest
ein Bordinformationssystems des Fahrzeugs und die Ermittlung des gewünschten
technischen Werts sowie die Abfrage und Weiterleitung dieses Werts
folgen insbesondere über
die gesondert angeordnete und genannte Schnittstellenkomponente.
Diese Komponente stellt den direkten Bezug zu den existierenden
Bordsystemen her.
-
Vorteilhafte
Ausgestaltungen des erfindungsgemäßen Verfahrens sind als vorteilhafte
Ausgestaltungen des erfindungsgemäßen Kommunikationssystems anzusehen.
-
Ein
Ausführungsbeispiel
der Erfindung wird nachfolgend anhand schematischer Zeichnungen näher erläutert. Es
zeigen:
-
1 eine
schematische Darstellung eines natürlichsprachlichen Dialogs in
einer graphischen Modellierung gemäß dem erfindungsgemäßen Verfahren;
-
2 eine
schematische Darstellung einer Konvertierung von Kommunikationsregeln
eines natürlichsprachlichen
Kommunikationssystems in eine Sprachgrammatik;
-
3 eine
schematische Darstellung einer Konvertierung von Informationen von
einer Eingabemodalität
zur Verarbeitung im Kommunikationssystem;
-
4 eine
schematische Darstellung einer Integration der Steuerung von Ausspracheinformationen
in Antworten des künstlichen
Sprachsystems; und
-
5 eine
schematische Darstellung eines Zugriffs auf Werte eines Bordinformationssystems
eines Fahrzeugs bei der Abarbeitung von Antwortalternativen des
künstlichen
Sprachsystems.
-
In
den Figuren werden gleiche oder funktionsgleiche Elemente mit den
gleichen Bezugszeichen versehen.
-
In 1 ist
in einer schematischen Darstellung eine Dialogstruktur 1 für ein künstliches
Sprachsystem gezeigt, welches zur Kommunikation mit einer natürlichen
Person mittels natürlicher
Sprache ausgebildet ist.
-
Zur
Entwicklung der Dialogstruktur 1 ist ein Verfahren vorgesehen,
bei dem der Dialogstruktur 1 ein Modell zugrunde gelegt
wird, durch welches definierte Kommunikationsregeln und Verbindungen
zwischen den Kommunikationsregeln bei der Entwicklung der Dialogstruktur 1 graphisch
dargestellt werden.
-
Die
beispielhaft graphisch dargestellte Dialogstruktur 1 umfasst
einen ersten Strukturteil 2, einen zweiten Strukturteil 3 und
einen dritten Strukturteil 4. Der erste Strukturteil 2 umfasst
eine oder mehrere Eingabealternativen 5, denen entwicklungsspezifisch
eine oder mehrere Antwortalternativen 6 zugeordnet sind.
Diese sind graphisch dargestellt bzw. beispielsweise durch Anklicken
der dargestellten Balken aufrufbar.
-
Die
Eingabealternativen 5 und die Antwortalternativen 6 sind
zu einer Kommunikationsregel 7 verknüpft.
-
Darüber hinaus
ist dem ersten Strukturteil 2 ein graphisch dargestellter
Startpunkt 8 zugeordnet, welcher mit der ersten Kommunikationsregel 7 verknüpft ist.
-
Der
erste Strukturteil 2 der Dialogstruktur 1 ist über eine
erste Verbindung 9 mit dem zweiten Strukturteil 3 und über eine
zweite Verbindung 10 mit dem dritten Strukturteil 4 verknüpft. Diese
graphische Darstellung gewährleistet
für die
Entwicklung die schnelle Übersichtlichkeit
und die gemäß dem Modell mögliche Ausgestaltung
einer Kommunikation.
-
Das
dritte Strukturteil 4 umfasst ein Szenario, welches lediglich
eine Kommunikationsregel 11 aufweist, welche wiederum im
Ausführungsbeispiel mehrere
Eingabealternativen 12 sowie damit verbundene oder diesen
zugeordnete Antwortalternativen 13 aufweist. Selbstverständlich kann
vorgesehen sein, dass einem Szenario des dritten Strukturteils 4 auch
mehrere Kommunikationsregeln zugeordnet sind, welche insbesondere
auch miteinander verknüpft
sein können.
-
Der
dritte Strukturteil 4 und insbesondere die Kommunikationsregel 11 ist über eine
weitere Verknüpfung 14 mit
einem Endpunkt 15 der Dialogstruktur 1 verknüpft.
-
Der
zweite Strukturteil 3 weist beispielhaft ebenfalls ein
Szenario 16 auf, welchem wiederum lediglich eine Kommunikationsregel 17 zugeordnet
ist. Auch dieses Szenario 16 kann eine Mehrzahl von Kommunikationsregeln umfassen,
welche miteinander verknüpft
sein können.
Die Kommunikationsregel 17 weist ebenfalls beispielhaft
mehrere Eingabealternativen 18 sowie diesen zugeordnete
Antwortalternativen 19 auf.
-
Des
Weiteren umfasst das zweite Strukturteil 3 weitere Szenarien 21, 22 und 23,
welche über
eine Verknüpfung 20 mit
dem Szenario 16 verknüpft
sind. Die Kommunikation ist somit sowohl von dem Szenario 16 mit
einem oder mehreren der Szenarien 21 bis 23 möglich, als
auch zwischen den Szenarien 21 bis 23.
-
Beispielhaft
ist wiederum gezeigt, dass das Szenario 21 zumindest eine
Kommunikationsregel 24 aufweist, welche beispielhaft eine
Mehrzahl von Eingabealternativen 25 und diesen zugeordnet
eine Mehrzahl von Antwortalternativen 26 aufweist.
-
Der
zweite Strukturteil 3 und insbesondere die Szenarien 21 bis 23 sind über Verknüpfungen 27, 28 und 29 mit
dem Endpunkt 15 verknüpft.
-
Die
der Dialogstruktur 1 zugeordnete und zugrundegelegte Modellierung
wird vollständig
graphisch realisiert.
-
In
einfacher und aufwandsarmer Weise ist es möglich, die komplexe Struktur
darzustellen und einzelne Strukturteile 2 bis 4 und/oder
Kommunikationsregeln und/oder Eingabealternativen und/oder Antwortalternativen
an vielfältigen
Positionen der Struktur anzuordnen und dadurch weitere Verknüpfungsmöglichkeiten
und Änderungen
im Hinblick auf die Entwicklung der Dialogstruktur 1 durchführen zu
können.
Stets kann die Übersichtlichkeit
und unmittelbare Darstellung der geänderten Dialogstruktur 1 erkannt
und nachvollzogen werden.
-
Natürlichsprachliche
Dialoge in der Datenverarbeitung umfassen die Verarbeitung einer
textuellen oder sprachlichen Eingabe in prosaischer Form. Auf Basis
dieser Eingabe wird meist auf der Grundlage einzelner Fallunterscheidungen,
welche in die Tausende gehen können,
eine passende Antwort ausgegeben. Die Antwort kann dabei ebenfalls
in textueller, sprachlicher oder bildlicher Form prosaischen Inhalts
erfolgen. Die Kommunikationsregeln können miteinander in Verbindung
gesetzt werden, um Gesprächsabläufe zu konzipieren.
Zur übersichtlicheren und verbesserten
Generierung solcher Dialoge werden diese und auch die damit einhergehenden
Verbindungen und Verknüpfungen
der Dialogstruktur 1 graphisch generiert. Dadurch können umfangreichere
Dialoge erstellt werden, die mehr Formulierungs- und Antwortalternativen
auf eine einfach Weise miteinander verbinden können.
-
Die
graphische Modellierung beinhaltet die Bearbeitung einzelner Formulierungen
sowie mehrerer Alternativen für
die Eingabe als auch für
die Ausgabe. Gruppen von Eingabe- und Anwortalternativen können zusammengesetzt
werden, um eine Kommunikationsregel zu bilden. Die einzelnen Formulierungen
können
jeweils aus einem allgemeinen Verzeichnis für Eingaben als auch für Antworten
gewählt
werden. Mehrere Regeln, welche einen definierten Start- und Endpunkt
haben können,
können
zu einem Szenario zusammengesetzt werden. Alle Szenarien stehen
vorzugsweise damit im Zusammenhang. Abhängig vom erstellten Szenario
können
Eingabe- und Antwortalternativen mehrfach existieren, wobei sie durch
die Zuordnung zu einem Szenario unterschieden werden können. Die
Zuordnung zu einem Szenario kann auch dynamisch in die Antwort in
Form einer Variablen aufgenommen werden. Ebenso kann diesbezüglich ein
Platzhalter oder eine weitere Funktion dynamisch in die Antwort
eingebunden werden. Ebenso kann die zuvor geäußerte Antwort des künstlichen
Sprachsystems als Voraussetzung für das Verstehen einer nachfolgenden
Eingabe herangezogen werden.
-
Innerhalb
der Antworten kann auch ein expliziter Absprung in den Kontext eines
anderen Szenarios enthalten sein. Auch lassen sich die bereits zu
einem Szenario zusammengestellten Kommunikationsregeln kopieren,
indem das gesamte Szenario umbenannt und in einen anderen Zusammenhang eingebunden
wird.
-
Bei
dem in 1 beispielhaft dargestellten Modell der Dialogstruktur 1 in
seiner graphischen Darstellung sind die Szenarien innerhalb eines
möglichen
Regelwerks schematisch abgebildet. In 1 ist die
Option von Absprüngen
zwischen Szenarien nicht explizit dargestellt, kann jedoch ebenso
vorgesehen sein.
-
In 2 ist
in einer schematischen Darstellung die Konvertierung von Kommunikationsregeln 31 bis 34 eines
natürlichsprachlichen
Kommunikationssystems, welches ein künstliches Sprachsystem aufweist, das
mit einer natürlichen
Person mittels Sprache kommunizieren kann, in eine spezifische Sprachgrammatik
gezeigt.
-
Zum
Erzeugen der Sprachgrammatik für
das künstliche
Sprachsystem werden der Sprachgrammatik einzelne Worte und/oder
Wortkombinationen zugrunde gelegt. Der Kommunikation wird ein Satz von
Kommunikationsregeln mit jeweils einer Eingabe einer Person und
einer korrespondierenden Ausgabe des Sprachsystems zugeordnet, und
zumindest eine Eingabe der Person in das Sprachsystem wird einem der
Sprachgrammatik zugrunde gelegten Wort und/oder einer Wortkombination
zugeordnet.
-
Gemäß der Darstellung
in 2 ist der Satz von Kommunikationsregeln 31 bis 34 durch
ein Regelwerk 30 gebildet, welches dem künstlichen Sprachsystem
zugrunde gelegt wird. Im Ausführungsbeispiel
umfasst das Regelwerk 30 beispielhaft vier Kommunikationsregeln 31, 32, 33 und 34,
welchen jeweils ein oder mehrere Eingabealternativen bzw. Benutzereingaben
und dazu mögliche
Antwortalternativen bzw. Antworten des Systems zugeordnet werden,
wie dies durch die Blöcke
dargestellt ist.
-
Die
Zuordnung einer Eingabe zu einem Wort und/oder einer Wortkombination
wird durch eine automatische Konvertierung durchgeführt und
dadurch die Sprachgrammatik definiert. Diesbezüglich wird die automatische
Konvertierung durch ein entsprechendes Konvertierungsverfahren durchgeführt, wie dies
in 2 durch das Blockelement 35 angedeutet ist.
Dieses Tool ist somit im Hinblick auf den Ablauf der automatischen
Konvertierung zwischen dem Regelwerk 30 und der zu erzeugenden
Sprachgrammatik 36 der Spracherkennung zwischengeschaltet.
-
Bei
der erzeugten Sprachgrammatik 36 sind dann gemäß der beispielhaften
Darstellungen in 2 mehrere Eingaben 37, 38, 39 und 40 als
mögliche
Benutzereingaben definiert.
-
Bei
der automatischen Konvertierung werden einzelne Alternativen einer
Eingabe analysiert und abhängig
davon eine zu priorisierende Konvertierung und somit eine Zuordnung
einer Alternative zu einem Wort und/oder einer Wortkombination durchgeführt. Die
automatische Konvertierung kann insbesondere abhängig von einem Platzhalter und/oder
einer Variablen und/oder zumindest einer Funktion in einer Alternative
einer Eingabe durchgeführt
werden. Ein Platzhalter kann diesbezüglich beispielsweise ein Füllwort wie „äh" oder dergleichen sein.
-
Ein
Variable kann insbesondere durch einen Wert eines Betriebsparameters
eines Geräts
oder eines Systems oder durch einen sonstigen Ergebniswert definiert
werden. Insbesondere können
hier beispielsweise technische Geräte in einem Fahrzeug, wie Motor,
Klimaanlage, Fahrerassistenzsysteme und dergleichen genannt werden.
-
Eine
Funktion wird insbesondere durch eine Hilfefunktion und/oder eine
Funktion zur Änderung eines
Profils einer Kommunikationsregel oder einer Verknüpfung von
Regeln zueinander definiert.
-
Die
bereits erwähnten
Kommunikationsregeln eines natürlichsprachlichen
Kommunikationssystems bestehen aus einem Eingabeteil und einem Antwortteil.
Der Eingabeteil kann dabei durch den Benutzer in textueller, sprachlicher
oder sonstiger Form geäußert werden.
Eine sprachliche Äußerung kann
mit Hilfe einer Spracherkennung das akustische Signal erkennen und
in maschinenlesbare Form konvertieren. Bekannte Wörter oder
Wortkombinationen, so genannte Phrasen, werden als Sprachgrammatik bezeichnet
und vor der Laufzeit der Spracherkennung erstellt und bereitgestellt.
Da die einzelnen Phrasen der Sprachgrammatik inhaltlich den möglichen
Benutzereingaben innerhalb des Regelwerks 30 des natürlichsprachlichen
Kommunikationssystems entsprechen, bietet sich die automatische
Konvertierung an. Bei dieser Konvertierung werden die einzelnen
Eingabealternativen vorzugsweise analysiert und je nach Verwendung
von Platzhaltern, Variablen und weiteren Funktionen konvertiert.
Das Ergebnis der Konvertierung ist die Sprachgrammatik 36,
die alle möglichen
vom natürlichsprachlichen künstlichen
Sprachsystem semantisch verstandenen Eingaben enthält. Dadurch
ist die Spracherkennung in der Lage, all diese möglichen Eingaben mit einer höheren Sicherheit
zu erkennen.
-
In 3 ist
eine schematische Darstellung einer Konvertierung eines Signals
von technischen Geräten
und anderweitigen Eingabesignalen zur Verarbeitung im Kommunikationssystem
gezeigt.
-
Ist
das künstliche
Sprachsystem derart ausgebildet, dass es abhängig von einem Erkennen einer
Eingabe der natürlichen
Person eine Antwort ausgeben kann, so ist hier insbesondere vorgesehen,
dass das Sprachsystem neben einer akustischen und/oder textuellen
Eingabe der Person zumindest eine weitere davon unterschiedliche
Information als Eingabe erkennen kann.
-
Als
weitere Information bezüglich
einer Eingabe kann in diesem Zusammenhang eine Geste der Person
und/oder eines Bedienelements durch die Person und/oder eine von
dem Sprachsystem unterschiedlichen technischen Gerät generierte
Information verstanden werden.
-
Das
Kommunikationssystem 41 umfasst somit neben der natürlichen
Person eine akustische Eingabemöglichkeit 42 sowie
eine Eingabemöglichkeit 43,
durch welche eine Texteingabe erfolgen kann.
-
Darüber hinaus
sind technische Geräte
vorgesehen, welche Informationen erzeugen können, die das Sprachsystem
als Eingabe erkennen und verwerten kann. In diesem Zusammenhang
können
ein optischer Sensor 44 und/oder ein zur haptischen Eingabe
ausgebildetes Gerät 45 und/oder
ein Drucksensor 46 und/oder eine Einrichtung zur Akustikanalyse 47 und/oder
ein Lasersensor 48 und/oder ein Radarsensor 49 vorgesehen
sein. Dies sind lediglich beispielhafte technische Geräte, deren
Aufzählung
nicht abschließend
zu verstehen ist. Eines oder mehrere dieser Geräte können beispielsweise einem Fahrerassistenzsystem
eines Fahrzeugs oder einer anderweitigen Einrichtung im Fahrzeug
zugeordnet sein.
-
Vorzugsweise
ist vorgesehen, dass die durch die akustische Eingabe und/oder die
textliche Eingabe erzeugten Signale direkt an das künstliche Sprachsystem 50 zur
weiteren Verarbeitung übergeben
werden. Insbesondere ist vorzugsweise vorgesehen, dass die von den
Komponenten 44 bis 49 erzeugten Signale zunächst an
eine Einheit zur Signalkonvertierung 51 übertragen
werden, und diese dann ein Ausgangssignal an das künstliche
Sprachsystem 50 übermittelt.
-
Der
grundlegende Mechanismus einer Kommunikation zwischen einem künstlichen
Sprachsystem 50 und einer natürlichen Person kann durch eine derartige
Erweiterung wesentlich flexibler und mit mehr Informationsgehalt
ermöglicht
werden. Der grundlegende Mechanismus der fallbasierten Auswahl einer
Antwort bzw. allgemein einer Reaktion kann bei Verwendung eines
solchen Systems oder Systemteils gemäß der Darstellung in 3 in
Kombination mit technischen Geräten
zu weiteren Verarbeitungen genutzt werden. So können speziell im Fahrzeug beispielsweise
neben der akustischen Eingabe durch den Fahrer auch die Bedienung
eines Bedienelements oder die Erkennung einer Geste durch eine Kamera
als Eingabe dem natürlichsprachlichen Sprachsystem 50 zugeführt werden.
Als Reaktion auf diese Eingaben kann ebenso wie bei akustischer
Eingabe auch eine entsprechende Antwort oder Reaktion erfolgen.
Dabei werden die eingehenden Signale der angeschlossenen Geräte, wie
Bedienelement oder Kamera oder dergleichen, in ein Format konvertiert,
das durch das Sprachsystem 50 verarbeitet werden kann.
Diese Konvertierung kann neben den beiden als Beispiel genannten
Geräten
auch weitere Elemente, wie Touchscreens, Tonlagen- und Stimmerkennungseinrichtungen
sowie weitere Einheiten umfassen.
-
Vorzugsweise
ist vorgesehen, dass bei einer derartig multifunktionalen Möglichkeit
einer Erkennung unterschiedlichster Informationen durch das Sprachsystem 50 eine
Sicherheit dahingehend eingeführt
ist, dass beispielsweise in einem Fahrzeug ein Fahrzeuginsasse zunächst den
Erkennungsmodus aktivieren kann. Dies kann beispielsweise durch spezifische
manuelle Betätigung
eines expliziten Bedienelements vorgesehen sein. Dadurch kann einem unerwünschten
Aktivieren des Sprachsystems vorgebeugt werden, da somit verhindert
wird, dass jegliche Bewegung oder sonstige Information von einem technischen
Gerät bereits
stets als Eingabe von dem Sprachsystem 50 erkannt wird,
was üblicherweise nicht
permanent erwünscht
ist.
-
Es
ist bei dem Kommunikationssystem 41 des Weiteren vorgesehen,
dass zur Kommunikation zwischen einer natürlichen Person und einem künstlichen
Sprachsystem 50, durch welches abhängig von einem Erkennen einer
Eingabe der Person eine Antwort ausgegeben wird, zur Unterstützung der Ausgabe
ein virtueller Avatar eingesetzt wird. Die Bewegung des Avatars
und/oder die Gestaltung des Avatars und/oder die visuell dargestellte
Umgebung des Avatars werden an die als Antwort durch das Sprachsystem 50 auszugebenden
Informationen gekoppelt. Dies ist beispielhaft in einer schematischen Darstellung
gemäß 4 gezeigt,
welche eine Integration der Steuerung von Ausspracheinformationen in
Antworten des Sprachsystems 50 zeigt.
-
Vorzugsweise
werden die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder
die visuell dargestellte Umgebung des Avatars von den als Antwort
durch das Sprachsystem auszugebenden Informationen gesteuert, wobei
insbesondere eine Synchronisierung, vorzugsweise eine automatische
Synchronisierung, zwischen der Bewegung des Avatars und/oder der
Gestaltung des Avatars und/oder der visuell dargestellten Umgebung des
Avatars mit den als Antwort ausgegebenen Informationen durchgeführt wird.
-
Beim
Einsatz des Kommunikationssystems 41 in einem Fahrzeug,
bei dem das künstliche Sprachsystem 50 zur
Sprachausgabe sowie zur Visualisierung des virtuellen Wesens, dem
Avatar, ausgebildet ist, sind eine Vielzahl von Informationen bedeutend
und notwendig. Für
die korrekte Steuerung der Sprachausgabe sind diesbezüglich Informationen
zu hinterlegen, wie genau ein bestimmtes Wort oder eine Wortkombination
ausgesprochen werden soll. Dies spielt insbesondere bei der Verwendung von
Fremdwörtern
oder Eigennamen eine bedeutende Rolle, um die korrekte Aussprache
gewährleisten zu
können.
-
Die
Visualisierung und Steuerung eines virtuellen Wesens erfordert die
Abstimmung mit den Inhalten, die durch dieses Wesen vermittelt werden
sollen. Aus diesem Grund ist es wichtig, dass das Aussehen und die
Bewegung sowie das virtuelle Umfeld des virtuellen Wesens durch
den auszugebenden Inhalt gesteuert werden. Dies kann insbesondere
dann erfolgen, wenn die Antwortalternativen des Sprachsystems 50 bereits
die Steuerinformationen sowohl für
das virtuelle Wesen als auch die korrekte Aussprache von Wörtern integrieren.
Dies ist in 4 dargestellt, wobei hier die
Integration von zumindest einer Regel 31 des Regelwerks 30 gezeigt
ist und eine Verknüpfung
mit der Sprachausgabe 52 des Sprachsystems 50 sowie
mit einer Steuerung 53 des Avatars und einer Steuerung 54 der
virtuellen Umgebung des Avatars gezeigt ist.
-
Vorzugsweise
wird eine Bewegung des Avatars oder eines Körperteils des Avatars mit einer
Abfolge von durch das Sprachsystem 50 zu vermittelnden
Informationen in einer Antwort abhängig von der Art der Informationen
automatisch synchronisiert. Die korrekte phonetische Aussprache
von Wörtern
in dem Sprachsystem 50 wird vorzugsweise gespeichert und
die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder
die visuell dargestellte Umgebung des Avatars wird an die korrekte phonetische
Aussprache spezifisch geknüpft.
Dadurch kann stets eine realitätsnahe
Darstellung einer Handlung und/oder einer Aussprache erreicht werden.
-
Vorzugsweise
wird die Verknüpfung
abhängig
von einer von dem Sprachsystem 50 erkannten Eingabe automatisch
durchgeführt
und insbesondere abhängig
von einer durch die natürliche
Person durchgeführten
Einstellung ermöglicht.
Als Eingaben der Person können
diesbezüglich
spezifische Sprachen, wie Deutsch, Englisch oder dergleichen ausgewählt werden,
wobei dann eine automatische Synchronisierung beispielsweise der
Lippenbewegung des Avatars bei der Aussprache eines entsprechenden
Wortes in dieser gewählten
Sprache durchgeführt
wird. Eine nicht zu der korrekten Aussprache eines Wortes passende
Lippenbewegung des Avatars kann dadurch vermieden werden, wodurch
eine wesentliche Verbesserung des Kommunikationssystems erreicht
werden kann. Die Realitätsnähe kann dadurch
wesentlich erhöht
werden.
-
Neben
einer einfachen Lippenbewegung kann diesbezüglich auch die Bewegung jeglicher
anderer Körperteile
des Avatars auf die situationsbezogen erforderliche Ausgabe synchronisiert
werden.
-
Auch
dann, wenn keine explizite Sprachausgabe erfolgen soll, sondern
lediglich eine visuelle Darstellung von Handlungen oder Abläufen, kann auch
diesbezüglich
eine exakte Synchronisierung erfolgen. So kann in diesem Zusammenhang
beispielsweise auch eine Wartungs- oder Instandsetzungsanleitung
an einen Fahrzeugnutzer visuell ausgegeben werden, indem beispielsweise
auf einem Bildschirm ein akustisch nicht hinterlegter Text angezeigt
wird, welcher durch die Bewegungen und Handlungen des visuell dargestellten
Avatars demonstriert wird. Auch diesbezüglich kann die korrekte Bewegung
und Handlung des Avatars zeitgenau auf den spezifisch gezeigten
Text synchronisiert werden. In diesem Zusammenhang können beispielsweise
Einstellungen von Systemen im Fahrzeug, wie beispielsweise Radio,
CD-Spieler und dergleichen, oder auch selbstdurchzuführende Wartungsarbeiten,
wie Kontrolle des Ölstands,
Kontrolle der Scheibenwaschflüssigkeit
und dergleichen erläutert
werden.
-
In
diesem Zusammenhang kann dann auch die Synchronisierung des auf
der Anzeigeeinheit dargestellten Umfelds des Avatars entsprechend
angepasst werden und beispielsweise bei einer Erläuterung
zur Füllstandskontrolle
des Motoröls
im Hintergrund des Avatars der Motorraum des spezifischen Fahrzeugtyps
dargestellt, insbesondere relativ detailgetreu dargestellt, werden.
Weitere Beispiele sind die Erläuterung
der Durchführung
eines Reifenwechsels oder eines Fremdstarts etc.. Dadurch kann für einen Nutzer
bei relativ komplexen Abläufen
oder Handlungen oder Einstellungen der rein textlichen und/oder akustischen
Mitteilung auch die Darstellung in bewegten Bildern unterstützend ermöglicht werden, was
sehr hilfreich sein kann.
-
In 5 ist
in einer schematischen Darstellung der Zugriff auf Werte eines Bordinformationssystems
in einem Fahrzeug bei der Abarbeitung von Antwortalternativen des
Sprachsystems 50 gezeigt.
-
Durch
diese Struktur wird die Ausgabe von Informationen natürlicher
Sprache mittels eines künstlichen
Sprachsystems 50 ermöglicht,
wobei in einer durch Wörter
formulierten Antwort des Sprachsystems 50 zumindest ein
Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses
eingebunden und mitgeteilt wird. Als Gerät können beispielsweise technische
Geräte
in einem Fahrzeug vorgesehen sein, deren Zustandsparameter beispielsweise
Betriebsparameter darstellen. Als Ereignisse können anderweitige Dinge vorgesehen
sein, welche beispielsweise die Umgebung des Fahrzeugs oder Sportveranstaltungen
oder dergleichen betreffen können.
So kann beispielsweise als Zustandsparameter eines Ereignisses die
Temperatur in der Fahrzeugumgebung eingebunden und mitgeteilt werden.
Ebenso kann jedoch auch beispielsweise der Spielstand eines gegenwärtig stattfindenden
oder bereits beendeten Fußballspiels
als Zustandsparameter eines Ereignisses eingebunden und mitgeteilt werden.
Dies sind lediglich beispielhafte Nennungen für Ereignisse und zugeordnete
mögliche
Zustandsparameter, wodurch lediglich verdeutlicht werden soll, welche
Fülle von
derartigen Möglichkeiten vorliegen
und berücksichtigt
werden können.
-
Vorzugsweise
wird ein Wert eines Zustandsparameters durch einen Platzhalter in
einer definierten in dem Sprachsystem 50 hinterlegten Antwortstruktur
eingebunden. Insbesondere wird bei einer zu generierenden Antwort
des Sprachsystems 50 ein gegebenenfalls zugeordneter Platzhalter
gesucht und bei einem Vorhandensein eines Platzhalters der diesem
Platzhalter zugeordnete Wert des Zustandsparameters automatisch
angefordert.
-
Während der
Verarbeitung von Ereignissen des Bordsystems, beispielsweise eines
Bussystems, in einem Fahrzeug, die der multimodalen Eingabe des
natürlich
sprachlichen Sprachsystems zuzurechnen ist, kann der Zugriff auf
Informationen aus den Bordinformationssystemen auch während der
Generierung der Antwortalternative eine Rolle spielen. So können in
Antworten aktuelle Werte und Stati des Fahrzeugs oder von Teilkomponenten
davon eingebunden werden, um Informationen akustisch auszugeben.
Dies kann beispielsweise die Ansage der aktuellen Geschwindigkeit
oder der Motortemperatur sein.
-
Diese
Eigenschaft kann insbesondere dann zum Tragen kommen, wenn ein physisches
Anzeigeinstrument im Fahrzeug für
die Ausgabe eines entsprechenden Werts vorgesehen ist.
-
Wird
bei der Verarbeitung einer derartigen Antwort ein entsprechender
Platzhalter, welcher vorab definiert und hinterlegt wird, erkannt,
wird der zu diesem Platzhalter gehörige Wert aus dem Bordinformationssystem
ermittelt und eingebunden. Dies ist in 5 beispielhaft
dargestellt. Dazu ist vorgesehen, dass dem Regelwerk 30 des
natürlichsprachlichen Sprachsystems 50 zumindest
eine Kommunikationsregel 55 zugeordnet ist, die wiederum
zumindest eine Eingabealternative 56 sowie eine zugeordnete
Antwortalternative 57 aufweist. Diese Antwortalternative 57 ist
erweitert, indem ihr beispielsweise ein Platzhalter zugeordnet bzw.
darin hinterlegt ist. Wird nun durch die natürliche Person eine entsprechende
Benutzereingabe bzw. Eingabealternative 56 durchgeführt, so
wird die zugeordnete Antwortalternative 57 generiert und
erkannt, dass der erforderliche Platzhalter vorhanden ist. In diesem
Zusammenhang wird der für
den Platzhalter erforderliche Wert eines Zustandsparameters über eine
Schnittstellenkomponente 58 abgefragt, welche wiederum
mit dem Bordinformationssystem 59 kommuniziert und den
entsprechenden Wert des Zustandsparameters für den Platzhalter abfragt und
wieder für
die Antwortausgabe weiterleitet.
-
Der
Zugriff wird somit in Form eines Platzhalters in die Formulierung
einer Antwort integriert. Die Einbindung des Werts des Platzhalters
kann sowohl innerhalb eines Antworttextes der Fall sein, kann aber
auch bereits bei der Auswahl einer Antwort erfolgen, wenn die Ausgabe
einer Antwort mit einer spezifischen Bedingung verknüpft ist.
Die Identifikation des Platzhalters mit dem Zugriff auf das Bordinformationssystem 59,
die Ermittlung des gewünschten technischen
Werts sowie die Abfrage und Weiterleitung dieses Werts erfolgen
gemäß der Darstellung
im Ausführungsbeispiel
in 5 über
die gesonderte Schnittstellenkomponente 58. Diese stellt
den direkten Bezug zu den existierenden Bordsystemen her.
-
Die
Schnittstellenkomponente 58 kann insbesondere auch als
Softwareapplikation, beispielsweise als Java-Applikation, ausgebildet
werden.
-
Die
Schnittstellenkomponente 58 ist so spezifiziert, dass sie
im Systemverbund genau weiß,
wo bestimmte Informationen abgelegt bzw. abgefragt werden können und
wohin sie diese spezifisch weiterübertragen soll. Die Schnittstellenkomponente 58 ist
somit ein wesentlicher Teil im Hinblick auf die präzise Auffindung,
Abfrage und Übermittlung
des Werts der Zustandskomponente, welche dem Platzhalter zugeordnet
ist.
-
Durch
die erläuterte
Vorgehensweise kann ermöglicht
werden, dass in statische Komponenten einer Antwort dynamische Teile
eingefügt
werden können,
die darüber
hinaus dynamisch angefragt werden können.