-
Die
Erfindung betrifft ein Verfahren zum Erzeugen einer Sprachgrammatik
für ein
künstliches Sprachsystem,
welches zur Kommunikation mit einer natürlichen Person ausgebildet
ist, bei dem der Sprachgrammatik einzelne Worte und/oder Kombinationen
zugrunde gelegt werden.
-
Im
Falle einer sprachlichen Äußerung kann mit
Hilfe einer Spracherkennung das akustische Signal erkannt und in
maschinenlesbare Form konvertiert werden. Die Konvertierung kann
dabei auf zweierlei Arten erfolgen. Einerseits kann die Spracherkennung
versuchen, beliebige Eingaben so gut wie möglich zu erkennen, was als
Diktatfunktion bezeichnet wird. Andererseits kann die Spracherkennung
auf der Grundlage bekannter Wörter
und Phrasen erfolgen. Die bereits bekannten Wörter und Phrasen werden als
Sprachgrammatik bezeichnet und vor der Laufzeit der Spracherkennung
manuell erstellt und bereitgestellt. Dies ist äußerst aufwendig und fehlerintensiv.
-
Es
ist Aufgabe der vorliegenden Erfindung, ein Verfahren zu schaffen,
bei dem eine exaktere und weniger mit Fehlern behaftete spezifische
Sprachgrammatik für
ein künstliches
Sprachsystem aufwandsärmer
erstellt werden kann.
-
Diese
Aufgabe wird durch ein Verfahren, welches die Merkmale nach Anspruch
1 aufweist, gelöst.
-
Bei
einem erfindungsgemäßen Verfahren zum
Erzeugen einer Sprachgrammatik für
ein künstliches
Sprachsystem, welches zur Kommunikation mit einer natürlichen
Person ausgebildet ist, werden der Sprachgrammatik einzelne Worte
und/oder Wortkombinationen zugrunde gelegt. Der Kommunikation wird
ein Satz von Kommunikationsregeln mit jeweils einer Eingabe einer
Person und einer korrespondierenden Ausgabe des Sprachsystems zuge ordnet. Zumindest
eine Eingabe der Person wird in das Sprachsystem einem der Sprachgrammatik
zugrunde gelegten Wort und/oder einer Wortkombination zugeordnet.
Die Sprachgrammatik kann dadurch wesentlich präziser und mit weniger Fehlern
behaftet ausgebildet werden und darüber hinaus die grundsätzliche
Erstellung der Sprachgrammatik aufwandsärmer erfolgen.
-
Vorzugsweise
wird die Zuordnung einer Eingabe durch eine Person zu einem Wort
und/oder einer Wortkombination durch eine automatische Konvertierung
durchgeführt
und dadurch die Sprachgrammatik definiert. Gerade dies ist besonders
vorteilhaft, da somit keine manuelle Erstellung der Spracherkennung
mehr erforderlich ist und somit der Aufwand deutlich reduziert werden
können.
-
Vorzugsweise
werden bei der automatischen Konvertierung einzelne Alternativen
einer Eingabe analysiert, insbesondere durch das Sprachsystem selbst
analysiert, und abhängig
davon eine zu priorisierende Konvertierung und somit eine Zuordnung
einer Alternative zu einem Wort und/oder einer Wortkombination,
durchgeführt.
Es kann beispielsweise abhängig
von einer Basiszuordnung eine Weiterbildung und somit quasi auch
eine selbstlernende Struktur geschaffen werden, welche somit quasi
als „intelligent" ausgeführt werden
kann.
-
Vorzugsweise
wird die automatische Konvertierung abhängig von einem Platzhalter
und/oder einer Variablen und/oder zumindest einer Funktion in einer
Alternative einer Eingabe durchgeführt. Insbesondere kann in diesem
Zusammenhang für
einen Platzhalter ein Füllwort
oder eine Füllwortkombination
definiert werden. Als Füllwort
wird beispielsweise das Wort „äh" oder Ähnliche
verstanden.
-
Derartige
Füllwörter sind
somit inhaltlose und im Wesentlichen keine Information übermittelnden
Wörter.
-
Vorzugsweise
wird eine Variable durch einen Wert eines Betriebsparameters eines
Geräts
oder Systems oder durch einen sonstigen Ergebniswert definiert.
Dieser kann sich somit auch dynamisch verändern und beispielsweise bei
einer spezifischen Ausführung
bei einer Verwendung an einem Fahrzeug die Geschwindigkeit des Fahrzeugs
oder die Temperatur einer Komponente oder eines Fluids im Fahrzeug,
beispielsweise des Motoröls,
sein. Ein sonstiger Ergebniswert kann beispielsweise die Temperatur
in der Umgebung des Fahrzeugs oder ein Börsenkurs einer Aktie oder ein
Spielstand in einem Fußballspiel
oder dergleichen sein. Dies sind lediglich wenige beispielhafte
Konkretisierungen, welche keinesfalls als abschließend zu
verstehen sind, sondern lediglich die mögliche Bandbreite darlegen
soll.
-
Vorzugsweise
wird eine Funktion durch eine Hilfefunktion und/oder eine Funktion
zur Änderung eines
Profils einer Kommunikationsregel oder von mehreren Kommunikationsregeln
zueinander definiert. Dadurch können
unterstützende
Informationen bereitgestellt und eingebunden werden, welche die Verständlichkeit
einerseits und auch den Umfang der Sprachgrammatik andererseits
wesentlich erweitern.
-
Vorzugsweise
wird durch die automatische Konvertierung eine Sprachgrammatik erzeugt,
welche alle möglichen,
vom Sprachsystem semantisch verstandenen Eingaben, aufweist. Dadurch
ist die Spracherkennung in der Lage, alle diese möglichen Eingaben
mit einer höheren
Sicherheit zu erkennen.
-
Vorzugsweise
wird eine Eingabe einer Person durch gesprochene Sprache und/oder
durch einen geschriebenen oder dargestellten Text und/oder eine
Geste charakterisiert. Neben einer akustischen Eingabe kann somit
auch eine lautlose Eingabe durch Buchstaben und/oder Zahlen oder
auch lediglich durch eine Bewegung eines Körperteils oder eines anderweitigen
Gegenstands ermöglicht
werden, was bei lauter Umgebung oder bei sprachbehinderten Personen
vorteilhaft ist.
-
Insbesondere
wird die Sprachgrammatik für ein
Infotainmentsystem in einem Fahrzeug generiert, welches mit einem
Fahrzeuginsassen in spezifischen Phasen mittels natürlicher
Sprache kommunizieren kann. Da die einzelnen Wörter oder Phrasen der Sprachgrammatik
inhaltlich den möglichen
Benutzereingaben innerhalb des Regelwerks des Sprachsystems entsprechen,
ist die automatische Konvertierung ein erheblicher Vorteil im Hinblick
auf die Erzeugung der Sprachgrammatik.
-
Ein
Ausführungsbeispiel
der Erfindung wird nachfolgend anhand der schematischen Zeichnungen
näher erläutert. Es
zeigen:
-
1 eine
schematische Darstellung eines natürlichsprachlichen Dialogs in
einer graphischen Modellierung gemäß dem erfindungsgemäßen Verfahren;
-
2 eine
schematische Darstellung einer Konvertierung von Kommunikationsregeln
eines natürlichsprachlichen
Kommunikationssystems in eine Sprachgrammatik;
-
3 eine
schematische Darstellung einer Konvertierung von Informationen von
einer Eingabemodalität
zur Verarbeitung im Kommunikationssystem;
-
4 eine
schematische Darstellung einer Integration der Steuerung von Ausspracheinformationen
in Antworten des künstlichen
Sprachsystems; und
-
5 eine
schematische Darstellung eines Zugriffs auf Werte eines Bordinformationssystems
eines Fahrzeugs bei der Abarbeitung von Antwortalternativen des
künstlichen
Sprachsystems.
-
In
den Figuren werden gleiche oder funktionsgleiche Elemente mit den
gleichen Bezugszeichen versehen.
-
In 1 ist
in einer schematischen Darstellung eine Dialogstruktur 1 für ein künstliches
Sprachsystem gezeigt, welches zur Kommunikation mit einer natürlichen
Person mittels natürlicher
Sprache ausgebildet ist.
-
Zur
Entwicklung der Dialogstruktur 1 ist ein Verfahren vorgesehen,
bei dem der Dialogstruktur 1 ein Modell zugrunde gelegt
wird, durch welches definierte Kommunikationsregeln und Verbindungen
zwischen den Kommunikationsregeln bei der Entwicklung der Dialogstruktur 1 graphisch
dargestellt werden.
-
Die
beispielhaft graphisch dargestellte Dialogstruktur 1 umfasst
einen ersten Strukturteil 2, einen zweiten Strukturteil 3 und
einen dritten Strukturteil 4. Der erste Strukturteil 2 umfasst
eine oder mehrere Eingabealternativen 5, denen entwicklungsspezifisch
eine oder mehrere Antwortalternativen 6 zugeordnet sind.
Diese sind graphisch dargestellt bzw. beispielsweise durch Anklicken
der dargestellten Balken aufrufbar.
-
Die
Eingabealternativen 5 und die Antwortalternativen 6 sind
zu einer Kommunikationsregel 7 verknüpft.
-
Darüber hinaus
ist dem ersten Strukturteil 2 ein graphisch dargestellter
Startpunkt 8 zugeordnet, welcher mit der ersten Kommunikationsregel 7 verknüpft ist.
-
Der
erste Strukturteil 2 der Dialogstruktur 1 ist über eine
erste Verbindung 9 mit dem zweiten Strukturteil 3 und über eine
zweite Verbindung 10 mit dem dritten Strukturteil 4 verknüpft. Diese
graphische Darstellung gewährleistet
für die
Entwicklung die schnelle Übersichtlichkeit
und die gemäß dem Modell mögliche Ausgestaltung
einer Kommunikation.
-
Das
dritte Strukturteil 4 umfasst ein Szenario, welches lediglich
eine Kommunikationsregel 11 aufweist, welche wiederum im
Ausführungsbeispiel mehrere
Eingabealternativen 12 sowie damit verbundene oder diesen
zugeordnete Antwortalternativen 13 aufweist. Selbstverständlich kann
vorgesehen sein, dass einem Szenario des dritten Strukturteils 4 auch
mehrere Kommunikationsregeln zugeordnet sind, welche insbesondere
auch miteinander verknüpft
sein können.
-
Der
dritte Strukturteil 4 und insbesondere die Kommunikationsregel 11 ist über eine
weitere Verknüpfung 14 mit
einem Endpunkt 15 der Dialogstruktur 1 verknüpft.
-
Der
zweite Strukturteil 3 weist beispielhaft ebenfalls ein
Szenario 16 auf, welchem wiederum lediglich eine Kommunikationsregel 17 zugeordnet
ist. Auch dieses Szenario 16 kann eine Mehrzahl von Kommunikationsregeln
umfassen, welche miteinander verknüpft sein können. Die Kommunikationsregel 17 weist
ebenfalls beispielhaft mehrere Eingabealternativen 18 sowie
diesen zugeordnete Antwortalternativen 19 auf.
-
Des
Weiteren umfasst das zweite Strukturteil 3 weitere Szenarien 21, 22 und 23,
welche über
eine Verknüpfung 20 mit
dem Szenario 16 verknüpft
sind. Die Kommunikation ist somit sowohl von dem Szenario 16 mit
einem oder mehreren der Szenarien 21 bis 23 möglich, als
auch zwischen den Szenarien 21 bis 23.
-
Beispielhaft
ist wiederum gezeigt, dass das Szenario 21 zumindest eine
Kommunikationsregel 24 aufweist, welche beispielhaft eine
Mehrzahl von Eingabealternativen 25 und diesen zugeordnet
eine Mehrzahl von Antwortalternativen 26 aufweist.
-
Der
zweite Strukturteil 3 und insbesondere die Szenarien 21 bis 23 sind über Verknüpfungen 27, 28 und 29 mit
dem Endpunkt 15 verknüpft.
-
Die
der Dialogstruktur 1 zugeordnete und zugrundegelegte Modellierung
wird vollständig
graphisch realisiert.
-
In
einfacher und aufwandsarmer Weise ist es möglich, die komplexe Struktur
darzustellen und einzelne Strukturteile 2 bis 4 und/oder
Kommunikationsregeln und/oder Eingabealternativen und/oder Antwortalternativen
an vielfältigen
Positionen der Struktur anzuordnen und dadurch weitere Verknüpfungsmöglichkeiten
und Änderungen
im Hinblick auf die Entwicklung der Dialogstruktur 1 durchführen zu
können.
Stets kann die Übersichtlichkeit
und unmittelbare Darstellung der geänderten Dialogstruktur 1 erkannt
und nachvollzogen werden.
-
Natürlichsprachliche
Dialoge in der Datenverarbeitung umfassen die Verarbeitung einer
textuellen oder sprachlichen Eingabe in prosaischer Form. Auf Basis
dieser Eingabe wird meist auf der Grundlage einzelner Fallunterscheidungen,
welche in die Tausende gehen können,
eine passende Antwort ausgegeben. Die Antwort kann dabei ebenfalls
in textueller, sprachlicher oder bildlicher Form prosaischen Inhalts
erfolgen. Die Kommunikationsregeln können miteinander in Verbindung
gesetzt werden, um Gesprächsabläufe zu konzipieren.
Zur übersichtlicheren und
verbesserten Generierung solcher Dialoge werden diese und auch die
damit einhergehenden Verbindungen und Verknüpfungen der Dialogstruktur 1 graphisch
generiert. Dadurch können
umfangreichere Dialoge erstellt werden, die mehr Formulierungs- und
Antwortalternativen auf eine einfach Weise miteinander verbinden
können.
-
Die
graphische Modellierung beinhaltet die Bearbeitung einzelner Formulierungen
sowie mehrerer Alternativen für
die Eingabe als auch für
die Ausgabe. Gruppen von Eingabe- und Anwortalternativen können zusammengesetzt
werden, um eine Kommunikationsregel zu bilden. Die einzelnen Formulierungen
können
jeweils aus einem allgemeinen Verzeichnis für Eingaben als auch für Antworten
gewählt
werden. Mehrere Regeln, welche einen definierten Start- und Endpunkt
haben können,
können
zu einem Szenario zusammengesetzt werden. Alle Szenarien stehen
vorzugsweise damit im Zusammenhang. Abhängig vom erstellten Szenario
können
Eingabe- und Antwortalternativen mehrfach existieren, wobei sie durch
die Zuordnung zu einem Szenario unterschieden werden können. Die
Zuordnung zu einem Szenario kann auch dynamisch in die Antwort in
Form einer Variablen aufgenommen werden. Ebenso kann diesbezüglich ein
Platzhalter oder eine weitere Funktion dynamisch in die Antwort
eingebunden werden. Ebenso kann die zuvor geäußerte Antwort des künstlichen
Sprachsystems als Voraussetzung für das Verstehen einer nachfolgenden
Eingabe herangezogen werden.
-
Innerhalb
der Antworten kann auch ein expliziter Absprung in den Kontext eines
anderen Szenarios enthalten sein. Auch lassen sich die bereits zu
einem Szenario zusammengestellten Kommunikationsregeln kopieren,
indem das gesamte Szenario umbenannt und in einen anderen Zusammenhang eingebunden
wird.
-
Bei
dem in 1 beispielhaft dargestellten Modell der Dialogstruktur 1 in
seiner graphischen Darstellung sind die Szenarien innerhalb eines
möglichen
Regelwerks schematisch abgebildet. In 1 ist die
Option von Absprüngen
zwischen Szenarien nicht explizit dargestellt, kann jedoch ebenso
vorgesehen sein.
-
In 2 ist
in einer schematischen Darstellung die Konvertierung von Kommunikationsregeln 31 bis 34 eines
natürlichsprachlichen
Kommunikationssystems, welches ein künstliches Sprachsystem aufweist,
das mit einer natürlichen
Person mittels Sprache kommunizieren kann, in eine spezifische Sprachgrammatik
gezeigt.
-
Zum
Erzeugen der Sprachgrammatik für
das künstliche
Sprachsystem werden der Sprachgrammatik einzelne Worte und/oder
Wortkombinationen zugrunde gelegt. Der Kommunikation wird ein Satz von
Kommunikationsregeln mit jeweils einer Eingabe einer Person und
einer korrespondierenden Ausgabe des Sprachsystems zugeordnet, und
zumindest eine Eingabe der Person in das Sprachsystem wird einem der
Sprachgrammatik zugrunde gelegten Wort und/oder einer Wortkombination
zugeordnet.
-
Gemäß der Darstellung
in 2 ist der Satz von Kommunikationsregeln 31 bis 34 durch
ein Regelwerk 30 gebildet, welches dem künstlichen Sprachsystem
zugrunde gelegt wird. Im Ausführungsbeispiel
umfasst das Regelwerk 30 beispielhaft vier Kommunikationsregeln 31, 32, 33 und 34,
welchen jeweils ein oder mehrere Eingabealternativen bzw. Benutzereingaben
und da zu mögliche
Antwortalternativen bzw. Antworten des Systems zugeordnet werden,
wie dies durch die Blöcke
dargestellt ist.
-
Die
Zuordnung einer Eingabe zu einem Wort und/oder einer Wortkombination
wird durch eine automatische Konvertierung durchgeführt und
dadurch die Sprachgrammatik definiert. Diesbezüglich wird die automatische
Konvertierung durch ein entsprechendes Konvertierungsverfahren durchgeführt, wie dies
in 2 durch das Blockelement 35 angedeutet ist.
Dieses Tool ist somit im Hinblick auf den Ablauf der automatischen
Konvertierung zwischen dem Regelwerk 30 und der zu erzeugenden
Sprachgrammatik 36 der Spracherkennung zwischengeschaltet.
-
Bei
der erzeugten Sprachgrammatik 36 sind dann gemäß der beispielhaften
Darstellungen in 2 mehrere Eingaben 37, 38, 39 und 40 als
mögliche
Benutzereingaben definiert.
-
Bei
der automatischen Konvertierung werden einzelne Alternativen einer
Eingabe analysiert und abhängig
davon eine zu priorisierende Konvertierung und somit eine Zuordnung
einer Alternative zu einem Wort und/oder einer Wortkombination durchgeführt. Die
automatische Konvertierung kann insbesondere abhängig von einem Platzhalter und/oder
einer Variablen und/oder zumindest einer Funktion in einer Alternative
einer Eingabe durchgeführt
werden. Ein Platzhalter kann diesbezüglich beispielsweise ein Füllwort wie „äh" oder dergleichen sein.
-
Ein
Variable kann insbesondere durch einen Wert eines Betriebsparameters
eines Geräts
oder eines Systems oder durch einen sonstigen Ergebniswert definiert
werden. Insbesondere können
hier beispielsweise technische Geräte in einem Fahrzeug, wie Motor,
Klimaanlage, Fahrerassistenzsysteme und dergleichen genannt werden.
-
Eine
Funktion wird insbesondere durch eine Hilfefunktion und/oder eine
Funktion zur Änderung eines
Profils einer Kommunikationsregel oder einer Verknüpfung von
Regeln zueinander definiert.
-
Die
bereits erwähnten
Kommunikationsregeln eines natürlichsprachlichen
Kommunikationssystems bestehen aus einem Eingabeteil und einem Antwortteil.
Der Eingabeteil kann dabei durch den Benutzer in textueller, sprachlicher
oder sonstiger Form geäußert werden.
Eine sprachliche Äußerung kann
mit Hilfe einer Spracherkennung das akustische Signal erkennen und
in maschinenlesbare Form konvertieren. Bekannte Wörter oder
Wortkombinationen, so genannte Phrasen, werden als Sprachgrammatik bezeichnet
und vor der Laufzeit der Spracherkennung erstellt und bereitgestellt.
Da die einzelnen Phrasen der Sprachgrammatik inhaltlich den möglichen
Benutzereingaben innerhalb des Regelwerks 30 des natürlichsprachlichen
Kommunikationssystems entsprechen, bietet sich die automatische
Konvertierung an. Bei dieser Konvertierung werden die einzelnen
Eingabealternativen vorzugsweise analysiert und je nach Verwendung
von Platzhaltern, Variablen und weiteren Funktionen konvertiert.
Das Ergebnis der Konvertierung ist die Sprachgrammatik 36,
die alle möglichen
vom natürlichsprachlichen künstlichen
Sprachsystem semantisch verstandenen Eingaben enthält. Dadurch
ist die Spracherkennung in der Lage, all diese möglichen Eingaben mit einer höheren Sicherheit
zu erkennen.
-
In 3 ist
eine schematische Darstellung einer Konvertierung eines Signals
von technischen Geräten
und anderweitigen Eingabesignalen zur Verarbeitung im Kommunikationssystem
gezeigt.
-
Ist
das künstliche
Sprachsystem derart ausgebildet, dass es abhängig von einem Erkennen einer
Eingabe der natürlichen
Person eine Antwort ausgeben kann, so ist hier insbesondere vorgesehen,
dass das Sprachsystem neben einer akustischen und/oder textuellen
Eingabe der Person zumindest eine weitere davon unterschiedliche
Information als Eingabe erkennen kann.
-
Als
weitere Information bezüglich
einer Eingabe kann in diesem Zusammenhang eine Geste der Person
und/oder eines Bedienelements durch die Person und/oder eine von
dem Sprachsystem unterschiedlichen technischen Gerät generierte
Information verstanden werden.
-
Das
Kommunikationssystem 41 umfasst somit neben der natürlichen
Person eine akustische Eingabemöglichkeit 42 sowie
eine Eingabemöglichkeit 43,
durch welche eine Texteingabe erfolgen kann.
-
Darüber hinaus
sind technische Geräte
vorgesehen, welche Informationen erzeugen können, die das Sprachsystem
als Eingabe erkennen und verwerten kann. In diesem Zusammenhang
können
ein optischer Sensor 44 und/oder ein zur haptischen Eingabe
ausgebildetes Gerät 45 und/oder
ein Drucksensor 46 und/oder eine Einrichtung zur Akustikanalyse 47 und/oder ein
Lasersensor 48 und/oder ein Radarsensor 49 vorgesehen
sein. Dies sind lediglich beispielhafte technische Geräte, deren
Aufzählung
nicht abschließend
zu verstehen ist. Eines oder mehrere dieser Geräte können beispielsweise einem Fahrerassistenzsystem
eines Fahrzeugs oder einer anderweitigen Einrichtung im Fahrzeug
zugeordnet sein.
-
Vorzugsweise
ist vorgesehen, dass die durch die akustische Eingabe und/oder die
textliche Eingabe erzeugten Signale direkt an das künstliche Sprachsystem 50 zur
weiteren Verarbeitung übergeben
werden. Insbesondere ist vorzugsweise vorgesehen, dass die von den
Komponenten 44 bis 49 erzeugten Signale zunächst an
eine Einheit zur Signalkonvertierung 51 übertragen
werden, und diese dann ein Ausgangssignal an das künstliche
Sprachsystem 50 übermittelt.
-
Der
grundlegende Mechanismus einer Kommunikation zwischen einem künstlichen
Sprachsystem 50 und einer natürlichen Person kann durch eine derartige
Erweiterung wesentlich flexibler und mit mehr Informationsgehalt
ermöglicht
werden. Der grundlegende Mechanismus der fallbasierten Auswahl einer
Antwort bzw. allgemein einer Reaktion kann bei Verwendung eines
solchen Systems oder Systemteils gemäß der Darstellung in 3 in
Kombination mit technischen Geräten
zu weiteren Verarbeitungen genutzt werden. So können speziell im Fahrzeug beispielsweise
neben der akustischen Eingabe durch den Fahrer auch die Bedienung
eines Bedienelements oder die Erkennung einer Geste durch eine Kamera
als Eingabe dem natürlichsprachlichen Sprachsystem 50 zugeführt werden.
Als Reaktion auf diese Eingaben kann ebenso wie bei akustischer
Eingabe auch eine entsprechende Antwort oder Reaktion erfolgen.
Dabei werden die eingehenden Signale der angeschlossenen Geräte, wie
Bedienelement oder Kamera oder dergleichen, in ein Format konvertiert,
das durch das Sprachsystem 50 verarbeitet werden kann.
Diese Konvertierung kann neben den beiden als Beispiel genannten
Geräten
auch weitere Elemente, wie Touchscreens, Tonlagen- und Stimmerkennungseinrichtungen
sowie weitere Einheiten umfassen.
-
Vorzugsweise
ist vorgesehen, dass bei einer derartig multifunktionalen Möglichkeit
einer Erkennung unterschiedlichster Informationen durch das Sprachsystem 50 eine
Sicherheit dahingehend eingeführt
ist, dass beispielsweise in einem Fahrzeug ein Fahrzeuginsasse zunächst den
Erkennungsmodus aktivieren kann. Dies kann beispielsweise durch spezifische
manuelle Betätigung
eines expliziten Bedienelements vorgesehen sein. Da durch kann einem unerwünschten
Aktivieren des Sprachsystems vorgebeugt werden, da somit verhindert
wird, dass jegliche Bewegung oder sonstige Information von einem technischen
Gerät bereits
stets als Eingabe von dem Sprachsystem 50 erkannt wird,
was üblicherweise nicht
permanent erwünscht
ist.
-
Es
ist bei dem Kommunikationssystem 41 des Weiteren vorgesehen,
dass zur Kommunikation zwischen einer natürlichen Person und einem künstlichen
Sprachsystem 50, durch welches abhängig von einem Erkennen einer
Eingabe der Person eine Antwort ausgegeben wird, zur Unterstützung der Ausgabe
ein virtueller Avatar eingesetzt wird. Die Bewegung des Avatars
und/oder die Gestaltung des Avatars und/oder die visuell dargestellte
Umgebung des Avatars werden an die als Antwort durch das Sprachsystem 50 auszugebenden
Informationen gekoppelt. Dies ist beispielhaft in einer schematischen Darstellung
gemäß 4 gezeigt,
welche eine Integration der Steuerung von Ausspracheinformationen in
Antworten des Sprachsystems 50 zeigt.
-
Vorzugsweise
werden die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder
die visuell dargestellte Umgebung des Avatars von den als Antwort
durch das Sprachsystem auszugebenden Informationen gesteuert, wobei
insbesondere eine Synchronisierung, vorzugsweise eine automatische
Synchronisierung, zwischen der Bewegung des Avatars und/oder der
Gestaltung des Avatars und/oder der visuell dargestellten Umgebung des
Avatars mit den als Antwort ausgegebenen Informationen durchgeführt wird.
-
Beim
Einsatz des Kommunikationssystems 41 in einem Fahrzeug,
bei dem das künstliche Sprachsystem 50 zur
Sprachausgabe sowie zur Visualisierung des virtuellen Wesens, dem
Avatar, ausgebildet ist, sind eine Vielzahl von Informationen bedeutend
und notwendig. Für
die korrekte Steuerung der Sprachausgabe sind diesbezüglich Informationen
zu hinterlegen, wie genau ein bestimmtes Wort oder eine Wortkombination
ausgesprochen werden soll. Dies spielt insbesondere bei der Verwendung von
Fremdwörtern
oder Eigennamen eine bedeutende Rolle, um die korrekte Aussprache
gewährleisten zu
können.
-
Die
Visualisierung und Steuerung eines virtuellen Wesens erfordert die
Abstimmung mit den Inhalten, die durch dieses Wesen vermittelt werden
sollen. Aus diesem Grund ist es wichtig, dass das Aussehen und die
Bewegung so wie das virtuelle Umfeld des virtuellen Wesens durch
den auszugebenden Inhalt gesteuert werden. Dies kann insbesondere
dann erfolgen, wenn die Antwortalternativen des Sprachsystems 50 bereits
die Steuerinformationen sowohl für
das virtuelle Wesen als auch die korrekte Aussprache von Wörtern integrieren.
Dies ist in 4 dargestellt, wobei hier die
Integration von zumindest einer Regel 31 des Regelwerks 30 gezeigt
ist und eine Verknüpfung
mit der Sprachausgabe 52 des Sprachsystems 50 sowie
mit einer Steuerung 53 des Avatars und einer Steuerung 54 der
virtuellen Umgebung des Avatars gezeigt ist.
-
Vorzugsweise
wird eine Bewegung des Avatars oder eines Körperteils des Avatars mit einer
Abfolge von durch das Sprachsystem 50 zu vermittelnden
Informationen in einer Antwort abhängig von der Art der Informationen
automatisch synchronisiert. Die korrekte phonetische Aussprache
von Wörtern
in dem Sprachsystem 50 wird vorzugsweise gespeichert und
die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder
die visuell dargestellte Umgebung des Avatars wird an die korrekte phonetische
Aussprache spezifisch geknüpft.
Dadurch kann stets eine realitätsnahe
Darstellung einer Handlung und/oder einer Aussprache erreicht werden.
-
Vorzugsweise
wird die Verknüpfung
abhängig
von einer von dem Sprachsystem 50 erkannten Eingabe automatisch
durchgeführt
und insbesondere abhängig
von einer durch die natürliche
Person durchgeführten
Einstellung ermöglicht.
Als Eingaben der Person können
diesbezüglich
spezifische Sprachen, wie Deutsch, Englisch oder dergleichen ausgewählt werden,
wobei dann eine automatische Synchronisierung beispielsweise der
Lippenbewegung des Avatars bei der Aussprache eines entsprechenden
Wortes in dieser gewählten
Sprache durchgeführt
wird. Eine nicht zu der korrekten Aussprache eines Wortes passende
Lippenbewegung des Avatars kann dadurch vermieden werden, wodurch
eine wesentliche Verbesserung des Kommunikationssystems erreicht
werden kann. Die Realitätsnähe kann dadurch
wesentlich erhöht
werden.
-
Neben
einer einfachen Lippenbewegung kann diesbezüglich auch die Bewegung jeglicher
anderer Körperteile
des Avatars auf die situationsbezogen erforderliche Ausgabe synchronisiert
werden.
-
Auch
dann, wenn keine explizite Sprachausgabe erfolgen soll, sondern
lediglich eine visuelle Darstellung von Handlungen oder Abläufen, kann auch diesbezüglich eine
exakte Synchronisierung erfolgen. So kann in diesem Zusammenhang
beispielsweise auch eine Wartungs- oder Instandsetzungsanleitung
an einen Fahrzeugnutzer visuell ausgegeben werden, indem beispielsweise
auf einem Bildschirm ein akustisch nicht hinterlegter Text angezeigt
wird, welcher durch die Bewegungen und Handlungen des visuell dargestellten
Avatars demonstriert wird. Auch diesbezüglich kann die korrekte Bewegung
und Handlung des Avatars zeitgenau auf den spezifisch gezeigten
Text synchronisiert werden. In diesem Zusammenhang können beispielsweise
Einstellungen von Systemen im Fahrzeug, wie beispielsweise Radio,
CD-Spieler und dergleichen, oder auch selbstdurchzuführende Wartungsarbeiten,
wie Kontrolle des Ölstands,
Kontrolle der Scheibenwaschflüssigkeit
und dergleichen erläutert
werden.
-
In
diesem Zusammenhang kann dann auch die Synchronisierung des auf
der Anzeigeeinheit dargestellten Umfelds des Avatars entsprechend
angepasst werden und beispielsweise bei einer Erläuterung
zur Füllstandskontrolle
des Motoröls
im Hintergrund des Avatars der Motorraum des spezifischen Fahrzeugtyps
dargestellt, insbesondere relativ detailgetreu dargestellt, werden.
Weitere Beispiele sind die Erläuterung
der Durchführung
eines Reifenwechsels oder eines Fremdstarts etc.. Dadurch kann für einen Nutzer
bei relativ komplexen Abläufen
oder Handlungen oder Einstellungen der rein textlichen und/oder akustischen
Mitteilung auch die Darstellung in bewegten Bildern unterstützend ermöglicht werden, was
sehr hilfreich sein kann.
-
In 5 ist
in einer schematischen Darstellung der Zugriff auf Werte eines Bordinformationssystems
in einem Fahrzeug bei der Abarbeitung von Antwortalternativen des
Sprachsystems 50 gezeigt.
-
Durch
diese Struktur wird die Ausgabe von Informationen natürlicher
Sprache mittels eines künstlichen
Sprachsystems 50 ermöglicht,
wobei in einer durch Wörter
formulierten Antwort des Sprachsystems 50 zumindest ein
Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses
eingebunden und mitgeteilt wird. Als Gerät können beispielsweise technische
Geräte
in einem Fahrzeug vorgesehen sein, deren Zustandsparameter beispielsweise
Betriebsparameter darstellen. Als Ereignisse können anderweitige Dinge vorgesehen
sein, welche beispielsweise die Umgebung des Fahrzeugs oder Sportveranstaltungen
oder dergleichen betreffen können.
So kann beispielsweise als Zustandsparameter eines Ereignisses die
Temperatur in der Fahrzeugumgebung eingebunden und mitgeteilt werden.
Ebenso kann jedoch auch beispielsweise der Spielstand eines gegenwärtig stattfindenden
oder bereits beendeten Fußballspiels
als Zustandsparameter eines Ereignisses eingebunden und mitgeteilt werden.
Dies sind lediglich beispielhafte Nennungen für Ereignisse und zugeordnete
mögliche
Zustandsparameter, wodurch lediglich verdeutlicht werden soll, welche
Fülle von
derartigen Möglichkeiten vorliegen
und berücksichtigt
werden können.
-
Vorzugsweise
wird ein Wert eines Zustandsparameters durch einen Platzhalter in
einer definierten in dem Sprachsystem 50 hinterlegten Antwortstruktur
eingebunden. Insbesondere wird bei einer zu generierenden Antwort
des Sprachsystems 50 ein gegebenenfalls zugeordneter Platzhalter
gesucht und bei einem Vorhandensein eines Platzhalters der diesem
Platzhalter zugeordnete Wert des Zustandsparameters automatisch
angefordert.
-
Während der
Verarbeitung von Ereignissen des Bordsystems, beispielsweise eines
Bussystems, in einem Fahrzeug, die der multimodalen Eingabe des
natürlich
sprachlichen Sprachsystems zuzurechnen ist, kann der Zugriff auf
Informationen aus den Bordinformationssystemen auch während der
Generierung der Antwortalternative eine Rolle spielen. So können in
Antworten aktuelle Werte und Stati des Fahrzeugs oder von Teilkomponenten
davon eingebunden werden, um Informationen akustisch auszugeben.
Dies kann beispielsweise die Ansage der aktuellen Geschwindigkeit
oder der Motortemperatur sein.
-
Diese
Eigenschaft kann insbesondere dann zum Tragen kommen, wenn ein physisches
Anzeigeinstrument im Fahrzeug für
die Ausgabe eines entsprechenden Werts vorgesehen ist.
-
Wird
bei der Verarbeitung einer derartigen Antwort ein entsprechender
Platzhalter, welcher vorab definiert und hinterlegt wird, erkannt,
wird der zu diesem Platzhalter gehörige Wert aus dem Bordinformationssystem
ermittelt und eingebunden. Dies ist in 5 beispielhaft
dargestellt. Dazu ist vorgesehen, dass dem Regelwerk 30 des
natürlichsprachlichen Sprachsystems 50 zumindest
eine Kommunikationsregel 55 zugeordnet ist, die wiederum
zumindest eine Eingabealternative 56 sowie eine zugeordnete
Antwortalternative 57 aufweist. Diese Antwortalternative 57 ist
erweitert, indem ihr beispielsweise ein Platzhalter zugeordnet bzw.
darin hinterlegt ist. Wird nun durch die natürliche Person eine entsprechende
Benutzereingabe bzw. Eingabealternative 56 durchgeführt, so
wird die zugeordnete Antwortalternative 57 gene riert und
erkannt, dass der erforderliche Platzhalter vorhanden ist. In diesem
Zusammenhang wird der für
den Platzhalter erforderliche Wert eines Zustandsparameters über eine
Schnittstellenkomponente 58 abgefragt, welche wiederum
mit dem Bordinformationssystem 59 kommuniziert und den
entsprechenden Wert des Zustandsparameters für den Platzhalter abfragt und
wieder für
die Antwortausgabe weiterleitet.
-
Der
Zugriff wird somit in Form eines Platzhalters in die Formulierung
einer Antwort integriert. Die Einbindung des Werts des Platzhalters
kann sowohl innerhalb eines Antworttextes der Fall sein, kann aber
auch bereits bei der Auswahl einer Antwort erfolgen, wenn die Ausgabe
einer Antwort mit einer spezifischen Bedingung verknüpft ist.
Die Identifikation des Platzhalters mit dem Zugriff auf das Bordinformationssystem 59,
die Ermittlung des gewünschten technischen
Werts sowie die Abfrage und Weiterleitung dieses Werts erfolgen
gemäß der Darstellung
im Ausführungsbeispiel
in 5 über
die gesonderte Schnittstellenkomponente 58. Diese stellt
den direkten Bezug zu den existierenden Bordsystemen her.
-
Die
Schnittstellenkomponente 58 kann insbesondere auch als
Softwareapplikation, beispielsweise als Java-Applikation, ausgebildet
werden.
-
Die
Schnittstellenkomponente 58 ist so spezifiziert, dass sie
im Systemverbund genau weiß,
wo bestimmte Informationen abgelegt bzw. abgefragt werden können und
wohin sie diese spezifisch weiterübertragen soll. Die Schnittstellenkomponente 58 ist
somit ein wesentlicher Teil im Hinblick auf die präzise Auffindung,
Abfrage und Übermittlung
des Werts der Zustandskomponente, welche dem Platzhalter zugeordnet
ist.
-
Durch
die erläuterte
Vorgehensweise kann ermöglicht
werden, dass in statische Komponenten einer Antwort dynamische Teile
eingefügt
werden können,
die darüber
hinaus dynamisch angefragt werden können.