DE102007042579A1

DE102007042579A1 - Verfahren zum Erzeugen einer Sprachgrammatik für ein künstliches Sprachsystem

Info

Publication number: DE102007042579A1
Application number: DE102007042579A
Authority: DE
Inventors: Stefan Sellschopp; Valentin Nicolescu; Helmut Prof. Dr. Krcmar
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2007-09-07
Filing date: 2007-09-07
Publication date: 2009-03-12

Abstract

Die Erfindung betrifft ein Verfahren zum Erzeugen einer Sprachgrammatik für ein künstliches Sprachsystem, welches zur Kommunikation mit einer natürlichen Person ausgebildet ist, bei dem der Sprachgrammatik einzelne Worte und/oder Wortkombinationen zugrunde gelegt werden, wobei der Kommunikation ein Satz von Kommunikationsregeln mit jeweils einer Eingabe einer Person und einer korrespondierenden Ausgabe des Sprachsystems zugeordnet wird, und zumininem der Sprachgrammatik zugrunde gelegten Wort und/oder einer Wortkombination zugeordnet wird.

Description

Die Erfindung betrifft ein Verfahren zum Erzeugen einer Sprachgrammatik für ein künstliches Sprachsystem, welches zur Kommunikation mit einer natürlichen Person ausgebildet ist, bei dem der Sprachgrammatik einzelne Worte und/oder Kombinationen zugrunde gelegt werden.
Im Falle einer sprachlichen Äußerung kann mit Hilfe einer Spracherkennung das akustische Signal erkannt und in maschinenlesbare Form konvertiert werden. Die Konvertierung kann dabei auf zweierlei Arten erfolgen. Einerseits kann die Spracherkennung versuchen, beliebige Eingaben so gut wie möglich zu erkennen, was als Diktatfunktion bezeichnet wird. Andererseits kann die Spracherkennung auf der Grundlage bekannter Wörter und Phrasen erfolgen. Die bereits bekannten Wörter und Phrasen werden als Sprachgrammatik bezeichnet und vor der Laufzeit der Spracherkennung manuell erstellt und bereitgestellt. Dies ist äußerst aufwendig und fehlerintensiv.
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren zu schaffen, bei dem eine exaktere und weniger mit Fehlern behaftete spezifische Sprachgrammatik für ein künstliches Sprachsystem aufwandsärmer erstellt werden kann.
Diese Aufgabe wird durch ein Verfahren, welches die Merkmale nach Anspruch 1 aufweist, gelöst.
Bei einem erfindungsgemäßen Verfahren zum Erzeugen einer Sprachgrammatik für ein künstliches Sprachsystem, welches zur Kommunikation mit einer natürlichen Person ausgebildet ist, werden der Sprachgrammatik einzelne Worte und/oder Wortkombinationen zugrunde gelegt. Der Kommunikation wird ein Satz von Kommunikationsregeln mit jeweils einer Eingabe einer Person und einer korrespondierenden Ausgabe des Sprachsystems zuge ordnet. Zumindest eine Eingabe der Person wird in das Sprachsystem einem der Sprachgrammatik zugrunde gelegten Wort und/oder einer Wortkombination zugeordnet. Die Sprachgrammatik kann dadurch wesentlich präziser und mit weniger Fehlern behaftet ausgebildet werden und darüber hinaus die grundsätzliche Erstellung der Sprachgrammatik aufwandsärmer erfolgen.
Vorzugsweise wird die Zuordnung einer Eingabe durch eine Person zu einem Wort und/oder einer Wortkombination durch eine automatische Konvertierung durchgeführt und dadurch die Sprachgrammatik definiert. Gerade dies ist besonders vorteilhaft, da somit keine manuelle Erstellung der Spracherkennung mehr erforderlich ist und somit der Aufwand deutlich reduziert werden können.
Vorzugsweise werden bei der automatischen Konvertierung einzelne Alternativen einer Eingabe analysiert, insbesondere durch das Sprachsystem selbst analysiert, und abhängig davon eine zu priorisierende Konvertierung und somit eine Zuordnung einer Alternative zu einem Wort und/oder einer Wortkombination, durchgeführt. Es kann beispielsweise abhängig von einer Basiszuordnung eine Weiterbildung und somit quasi auch eine selbstlernende Struktur geschaffen werden, welche somit quasi als „intelligent" ausgeführt werden kann.
Vorzugsweise wird die automatische Konvertierung abhängig von einem Platzhalter und/oder einer Variablen und/oder zumindest einer Funktion in einer Alternative einer Eingabe durchgeführt. Insbesondere kann in diesem Zusammenhang für einen Platzhalter ein Füllwort oder eine Füllwortkombination definiert werden. Als Füllwort wird beispielsweise das Wort „äh" oder Ähnliche verstanden.
Derartige Füllwörter sind somit inhaltlose und im Wesentlichen keine Information übermittelnden Wörter.
Vorzugsweise wird eine Variable durch einen Wert eines Betriebsparameters eines Geräts oder Systems oder durch einen sonstigen Ergebniswert definiert. Dieser kann sich somit auch dynamisch verändern und beispielsweise bei einer spezifischen Ausführung bei einer Verwendung an einem Fahrzeug die Geschwindigkeit des Fahrzeugs oder die Temperatur einer Komponente oder eines Fluids im Fahrzeug, beispielsweise des Motoröls, sein. Ein sonstiger Ergebniswert kann beispielsweise die Temperatur in der Umgebung des Fahrzeugs oder ein Börsenkurs einer Aktie oder ein Spielstand in einem Fußballspiel oder dergleichen sein. Dies sind lediglich wenige beispielhafte Konkretisierungen, welche keinesfalls als abschließend zu verstehen sind, sondern lediglich die mögliche Bandbreite darlegen soll.
Vorzugsweise wird eine Funktion durch eine Hilfefunktion und/oder eine Funktion zur Änderung eines Profils einer Kommunikationsregel oder von mehreren Kommunikationsregeln zueinander definiert. Dadurch können unterstützende Informationen bereitgestellt und eingebunden werden, welche die Verständlichkeit einerseits und auch den Umfang der Sprachgrammatik andererseits wesentlich erweitern.
Vorzugsweise wird durch die automatische Konvertierung eine Sprachgrammatik erzeugt, welche alle möglichen, vom Sprachsystem semantisch verstandenen Eingaben, aufweist. Dadurch ist die Spracherkennung in der Lage, alle diese möglichen Eingaben mit einer höheren Sicherheit zu erkennen.
Vorzugsweise wird eine Eingabe einer Person durch gesprochene Sprache und/oder durch einen geschriebenen oder dargestellten Text und/oder eine Geste charakterisiert. Neben einer akustischen Eingabe kann somit auch eine lautlose Eingabe durch Buchstaben und/oder Zahlen oder auch lediglich durch eine Bewegung eines Körperteils oder eines anderweitigen Gegenstands ermöglicht werden, was bei lauter Umgebung oder bei sprachbehinderten Personen vorteilhaft ist.
Insbesondere wird die Sprachgrammatik für ein Infotainmentsystem in einem Fahrzeug generiert, welches mit einem Fahrzeuginsassen in spezifischen Phasen mittels natürlicher Sprache kommunizieren kann. Da die einzelnen Wörter oder Phrasen der Sprachgrammatik inhaltlich den möglichen Benutzereingaben innerhalb des Regelwerks des Sprachsystems entsprechen, ist die automatische Konvertierung ein erheblicher Vorteil im Hinblick auf die Erzeugung der Sprachgrammatik.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der schematischen Zeichnungen näher erläutert. Es zeigen:
1 eine schematische Darstellung eines natürlichsprachlichen Dialogs in einer graphischen Modellierung gemäß dem erfindungsgemäßen Verfahren;
2 eine schematische Darstellung einer Konvertierung von Kommunikationsregeln eines natürlichsprachlichen Kommunikationssystems in eine Sprachgrammatik;
3 eine schematische Darstellung einer Konvertierung von Informationen von einer Eingabemodalität zur Verarbeitung im Kommunikationssystem;
4 eine schematische Darstellung einer Integration der Steuerung von Ausspracheinformationen in Antworten des künstlichen Sprachsystems; und
5 eine schematische Darstellung eines Zugriffs auf Werte eines Bordinformationssystems eines Fahrzeugs bei der Abarbeitung von Antwortalternativen des künstlichen Sprachsystems.
In den Figuren werden gleiche oder funktionsgleiche Elemente mit den gleichen Bezugszeichen versehen.
In 1 ist in einer schematischen Darstellung eine Dialogstruktur 1 für ein künstliches Sprachsystem gezeigt, welches zur Kommunikation mit einer natürlichen Person mittels natürlicher Sprache ausgebildet ist.
Zur Entwicklung der Dialogstruktur 1 ist ein Verfahren vorgesehen, bei dem der Dialogstruktur 1 ein Modell zugrunde gelegt wird, durch welches definierte Kommunikationsregeln und Verbindungen zwischen den Kommunikationsregeln bei der Entwicklung der Dialogstruktur 1 graphisch dargestellt werden.
Die beispielhaft graphisch dargestellte Dialogstruktur 1 umfasst einen ersten Strukturteil 2, einen zweiten Strukturteil 3 und einen dritten Strukturteil 4. Der erste Strukturteil 2 umfasst eine oder mehrere Eingabealternativen 5, denen entwicklungsspezifisch eine oder mehrere Antwortalternativen 6 zugeordnet sind. Diese sind graphisch dargestellt bzw. beispielsweise durch Anklicken der dargestellten Balken aufrufbar.
Die Eingabealternativen 5 und die Antwortalternativen 6 sind zu einer Kommunikationsregel 7 verknüpft.
Darüber hinaus ist dem ersten Strukturteil 2 ein graphisch dargestellter Startpunkt 8 zugeordnet, welcher mit der ersten Kommunikationsregel 7 verknüpft ist.
Der erste Strukturteil 2 der Dialogstruktur 1 ist über eine erste Verbindung 9 mit dem zweiten Strukturteil 3 und über eine zweite Verbindung 10 mit dem dritten Strukturteil 4 verknüpft. Diese graphische Darstellung gewährleistet für die Entwicklung die schnelle Übersichtlichkeit und die gemäß dem Modell mögliche Ausgestaltung einer Kommunikation.
Das dritte Strukturteil 4 umfasst ein Szenario, welches lediglich eine Kommunikationsregel 11 aufweist, welche wiederum im Ausführungsbeispiel mehrere Eingabealternativen 12 sowie damit verbundene oder diesen zugeordnete Antwortalternativen 13 aufweist. Selbstverständlich kann vorgesehen sein, dass einem Szenario des dritten Strukturteils 4 auch mehrere Kommunikationsregeln zugeordnet sind, welche insbesondere auch miteinander verknüpft sein können.
Der dritte Strukturteil 4 und insbesondere die Kommunikationsregel 11 ist über eine weitere Verknüpfung 14 mit einem Endpunkt 15 der Dialogstruktur 1 verknüpft.
Der zweite Strukturteil 3 weist beispielhaft ebenfalls ein Szenario 16 auf, welchem wiederum lediglich eine Kommunikationsregel 17 zugeordnet ist. Auch dieses Szenario 16 kann eine Mehrzahl von Kommunikationsregeln umfassen, welche miteinander verknüpft sein können. Die Kommunikationsregel 17 weist ebenfalls beispielhaft mehrere Eingabealternativen 18 sowie diesen zugeordnete Antwortalternativen 19 auf.
Des Weiteren umfasst das zweite Strukturteil 3 weitere Szenarien 21, 22 und 23, welche über eine Verknüpfung 20 mit dem Szenario 16 verknüpft sind. Die Kommunikation ist somit sowohl von dem Szenario 16 mit einem oder mehreren der Szenarien 21 bis 23 möglich, als auch zwischen den Szenarien 21 bis 23.
Beispielhaft ist wiederum gezeigt, dass das Szenario 21 zumindest eine Kommunikationsregel 24 aufweist, welche beispielhaft eine Mehrzahl von Eingabealternativen 25 und diesen zugeordnet eine Mehrzahl von Antwortalternativen 26 aufweist.
Der zweite Strukturteil 3 und insbesondere die Szenarien 21 bis 23 sind über Verknüpfungen 27, 28 und 29 mit dem Endpunkt 15 verknüpft.
Die der Dialogstruktur 1 zugeordnete und zugrundegelegte Modellierung wird vollständig graphisch realisiert.
In einfacher und aufwandsarmer Weise ist es möglich, die komplexe Struktur darzustellen und einzelne Strukturteile 2 bis 4 und/oder Kommunikationsregeln und/oder Eingabealternativen und/oder Antwortalternativen an vielfältigen Positionen der Struktur anzuordnen und dadurch weitere Verknüpfungsmöglichkeiten und Änderungen im Hinblick auf die Entwicklung der Dialogstruktur 1 durchführen zu können. Stets kann die Übersichtlichkeit und unmittelbare Darstellung der geänderten Dialogstruktur 1 erkannt und nachvollzogen werden.
Natürlichsprachliche Dialoge in der Datenverarbeitung umfassen die Verarbeitung einer textuellen oder sprachlichen Eingabe in prosaischer Form. Auf Basis dieser Eingabe wird meist auf der Grundlage einzelner Fallunterscheidungen, welche in die Tausende gehen können, eine passende Antwort ausgegeben. Die Antwort kann dabei ebenfalls in textueller, sprachlicher oder bildlicher Form prosaischen Inhalts erfolgen. Die Kommunikationsregeln können miteinander in Verbindung gesetzt werden, um Gesprächsabläufe zu konzipieren. Zur übersichtlicheren und verbesserten Generierung solcher Dialoge werden diese und auch die damit einhergehenden Verbindungen und Verknüpfungen der Dialogstruktur 1 graphisch generiert. Dadurch können umfangreichere Dialoge erstellt werden, die mehr Formulierungs- und Antwortalternativen auf eine einfach Weise miteinander verbinden können.
Die graphische Modellierung beinhaltet die Bearbeitung einzelner Formulierungen sowie mehrerer Alternativen für die Eingabe als auch für die Ausgabe. Gruppen von Eingabe- und Anwortalternativen können zusammengesetzt werden, um eine Kommunikationsregel zu bilden. Die einzelnen Formulierungen können jeweils aus einem allgemeinen Verzeichnis für Eingaben als auch für Antworten gewählt werden. Mehrere Regeln, welche einen definierten Start- und Endpunkt haben können, können zu einem Szenario zusammengesetzt werden. Alle Szenarien stehen vorzugsweise damit im Zusammenhang. Abhängig vom erstellten Szenario können Eingabe- und Antwortalternativen mehrfach existieren, wobei sie durch die Zuordnung zu einem Szenario unterschieden werden können. Die Zuordnung zu einem Szenario kann auch dynamisch in die Antwort in Form einer Variablen aufgenommen werden. Ebenso kann diesbezüglich ein Platzhalter oder eine weitere Funktion dynamisch in die Antwort eingebunden werden. Ebenso kann die zuvor geäußerte Antwort des künstlichen Sprachsystems als Voraussetzung für das Verstehen einer nachfolgenden Eingabe herangezogen werden.
Innerhalb der Antworten kann auch ein expliziter Absprung in den Kontext eines anderen Szenarios enthalten sein. Auch lassen sich die bereits zu einem Szenario zusammengestellten Kommunikationsregeln kopieren, indem das gesamte Szenario umbenannt und in einen anderen Zusammenhang eingebunden wird.
Bei dem in 1 beispielhaft dargestellten Modell der Dialogstruktur 1 in seiner graphischen Darstellung sind die Szenarien innerhalb eines möglichen Regelwerks schematisch abgebildet. In 1 ist die Option von Absprüngen zwischen Szenarien nicht explizit dargestellt, kann jedoch ebenso vorgesehen sein.
In 2 ist in einer schematischen Darstellung die Konvertierung von Kommunikationsregeln 31 bis 34 eines natürlichsprachlichen Kommunikationssystems, welches ein künstliches Sprachsystem aufweist, das mit einer natürlichen Person mittels Sprache kommunizieren kann, in eine spezifische Sprachgrammatik gezeigt.
Zum Erzeugen der Sprachgrammatik für das künstliche Sprachsystem werden der Sprachgrammatik einzelne Worte und/oder Wortkombinationen zugrunde gelegt. Der Kommunikation wird ein Satz von Kommunikationsregeln mit jeweils einer Eingabe einer Person und einer korrespondierenden Ausgabe des Sprachsystems zugeordnet, und zumindest eine Eingabe der Person in das Sprachsystem wird einem der Sprachgrammatik zugrunde gelegten Wort und/oder einer Wortkombination zugeordnet.
Gemäß der Darstellung in 2 ist der Satz von Kommunikationsregeln 31 bis 34 durch ein Regelwerk 30 gebildet, welches dem künstlichen Sprachsystem zugrunde gelegt wird. Im Ausführungsbeispiel umfasst das Regelwerk 30 beispielhaft vier Kommunikationsregeln 31, 32, 33 und 34, welchen jeweils ein oder mehrere Eingabealternativen bzw. Benutzereingaben und da zu mögliche Antwortalternativen bzw. Antworten des Systems zugeordnet werden, wie dies durch die Blöcke dargestellt ist.
Die Zuordnung einer Eingabe zu einem Wort und/oder einer Wortkombination wird durch eine automatische Konvertierung durchgeführt und dadurch die Sprachgrammatik definiert. Diesbezüglich wird die automatische Konvertierung durch ein entsprechendes Konvertierungsverfahren durchgeführt, wie dies in 2 durch das Blockelement 35 angedeutet ist. Dieses Tool ist somit im Hinblick auf den Ablauf der automatischen Konvertierung zwischen dem Regelwerk 30 und der zu erzeugenden Sprachgrammatik 36 der Spracherkennung zwischengeschaltet.
Bei der erzeugten Sprachgrammatik 36 sind dann gemäß der beispielhaften Darstellungen in 2 mehrere Eingaben 37, 38, 39 und 40 als mögliche Benutzereingaben definiert.
Bei der automatischen Konvertierung werden einzelne Alternativen einer Eingabe analysiert und abhängig davon eine zu priorisierende Konvertierung und somit eine Zuordnung einer Alternative zu einem Wort und/oder einer Wortkombination durchgeführt. Die automatische Konvertierung kann insbesondere abhängig von einem Platzhalter und/oder einer Variablen und/oder zumindest einer Funktion in einer Alternative einer Eingabe durchgeführt werden. Ein Platzhalter kann diesbezüglich beispielsweise ein Füllwort wie „äh" oder dergleichen sein.
Ein Variable kann insbesondere durch einen Wert eines Betriebsparameters eines Geräts oder eines Systems oder durch einen sonstigen Ergebniswert definiert werden. Insbesondere können hier beispielsweise technische Geräte in einem Fahrzeug, wie Motor, Klimaanlage, Fahrerassistenzsysteme und dergleichen genannt werden.
Eine Funktion wird insbesondere durch eine Hilfefunktion und/oder eine Funktion zur Änderung eines Profils einer Kommunikationsregel oder einer Verknüpfung von Regeln zueinander definiert.
Die bereits erwähnten Kommunikationsregeln eines natürlichsprachlichen Kommunikationssystems bestehen aus einem Eingabeteil und einem Antwortteil. Der Eingabeteil kann dabei durch den Benutzer in textueller, sprachlicher oder sonstiger Form geäußert werden. Eine sprachliche Äußerung kann mit Hilfe einer Spracherkennung das akustische Signal erkennen und in maschinenlesbare Form konvertieren. Bekannte Wörter oder Wortkombinationen, so genannte Phrasen, werden als Sprachgrammatik bezeichnet und vor der Laufzeit der Spracherkennung erstellt und bereitgestellt. Da die einzelnen Phrasen der Sprachgrammatik inhaltlich den möglichen Benutzereingaben innerhalb des Regelwerks 30 des natürlichsprachlichen Kommunikationssystems entsprechen, bietet sich die automatische Konvertierung an. Bei dieser Konvertierung werden die einzelnen Eingabealternativen vorzugsweise analysiert und je nach Verwendung von Platzhaltern, Variablen und weiteren Funktionen konvertiert. Das Ergebnis der Konvertierung ist die Sprachgrammatik 36, die alle möglichen vom natürlichsprachlichen künstlichen Sprachsystem semantisch verstandenen Eingaben enthält. Dadurch ist die Spracherkennung in der Lage, all diese möglichen Eingaben mit einer höheren Sicherheit zu erkennen.
In 3 ist eine schematische Darstellung einer Konvertierung eines Signals von technischen Geräten und anderweitigen Eingabesignalen zur Verarbeitung im Kommunikationssystem gezeigt.
Ist das künstliche Sprachsystem derart ausgebildet, dass es abhängig von einem Erkennen einer Eingabe der natürlichen Person eine Antwort ausgeben kann, so ist hier insbesondere vorgesehen, dass das Sprachsystem neben einer akustischen und/oder textuellen Eingabe der Person zumindest eine weitere davon unterschiedliche Information als Eingabe erkennen kann.
Als weitere Information bezüglich einer Eingabe kann in diesem Zusammenhang eine Geste der Person und/oder eines Bedienelements durch die Person und/oder eine von dem Sprachsystem unterschiedlichen technischen Gerät generierte Information verstanden werden.
Das Kommunikationssystem 41 umfasst somit neben der natürlichen Person eine akustische Eingabemöglichkeit 42 sowie eine Eingabemöglichkeit 43, durch welche eine Texteingabe erfolgen kann.
Darüber hinaus sind technische Geräte vorgesehen, welche Informationen erzeugen können, die das Sprachsystem als Eingabe erkennen und verwerten kann. In diesem Zusammenhang können ein optischer Sensor 44 und/oder ein zur haptischen Eingabe ausgebildetes Gerät 45 und/oder ein Drucksensor 46 und/oder eine Einrichtung zur Akustikanalyse 47 und/oder ein Lasersensor 48 und/oder ein Radarsensor 49 vorgesehen sein. Dies sind lediglich beispielhafte technische Geräte, deren Aufzählung nicht abschließend zu verstehen ist. Eines oder mehrere dieser Geräte können beispielsweise einem Fahrerassistenzsystem eines Fahrzeugs oder einer anderweitigen Einrichtung im Fahrzeug zugeordnet sein.
Vorzugsweise ist vorgesehen, dass die durch die akustische Eingabe und/oder die textliche Eingabe erzeugten Signale direkt an das künstliche Sprachsystem 50 zur weiteren Verarbeitung übergeben werden. Insbesondere ist vorzugsweise vorgesehen, dass die von den Komponenten 44 bis 49 erzeugten Signale zunächst an eine Einheit zur Signalkonvertierung 51 übertragen werden, und diese dann ein Ausgangssignal an das künstliche Sprachsystem 50 übermittelt.
Der grundlegende Mechanismus einer Kommunikation zwischen einem künstlichen Sprachsystem 50 und einer natürlichen Person kann durch eine derartige Erweiterung wesentlich flexibler und mit mehr Informationsgehalt ermöglicht werden. Der grundlegende Mechanismus der fallbasierten Auswahl einer Antwort bzw. allgemein einer Reaktion kann bei Verwendung eines solchen Systems oder Systemteils gemäß der Darstellung in 3 in Kombination mit technischen Geräten zu weiteren Verarbeitungen genutzt werden. So können speziell im Fahrzeug beispielsweise neben der akustischen Eingabe durch den Fahrer auch die Bedienung eines Bedienelements oder die Erkennung einer Geste durch eine Kamera als Eingabe dem natürlichsprachlichen Sprachsystem 50 zugeführt werden. Als Reaktion auf diese Eingaben kann ebenso wie bei akustischer Eingabe auch eine entsprechende Antwort oder Reaktion erfolgen. Dabei werden die eingehenden Signale der angeschlossenen Geräte, wie Bedienelement oder Kamera oder dergleichen, in ein Format konvertiert, das durch das Sprachsystem 50 verarbeitet werden kann. Diese Konvertierung kann neben den beiden als Beispiel genannten Geräten auch weitere Elemente, wie Touchscreens, Tonlagen- und Stimmerkennungseinrichtungen sowie weitere Einheiten umfassen.
Vorzugsweise ist vorgesehen, dass bei einer derartig multifunktionalen Möglichkeit einer Erkennung unterschiedlichster Informationen durch das Sprachsystem 50 eine Sicherheit dahingehend eingeführt ist, dass beispielsweise in einem Fahrzeug ein Fahrzeuginsasse zunächst den Erkennungsmodus aktivieren kann. Dies kann beispielsweise durch spezifische manuelle Betätigung eines expliziten Bedienelements vorgesehen sein. Da durch kann einem unerwünschten Aktivieren des Sprachsystems vorgebeugt werden, da somit verhindert wird, dass jegliche Bewegung oder sonstige Information von einem technischen Gerät bereits stets als Eingabe von dem Sprachsystem 50 erkannt wird, was üblicherweise nicht permanent erwünscht ist.
Es ist bei dem Kommunikationssystem 41 des Weiteren vorgesehen, dass zur Kommunikation zwischen einer natürlichen Person und einem künstlichen Sprachsystem 50, durch welches abhängig von einem Erkennen einer Eingabe der Person eine Antwort ausgegeben wird, zur Unterstützung der Ausgabe ein virtueller Avatar eingesetzt wird. Die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder die visuell dargestellte Umgebung des Avatars werden an die als Antwort durch das Sprachsystem 50 auszugebenden Informationen gekoppelt. Dies ist beispielhaft in einer schematischen Darstellung gemäß 4 gezeigt, welche eine Integration der Steuerung von Ausspracheinformationen in Antworten des Sprachsystems 50 zeigt.
Vorzugsweise werden die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder die visuell dargestellte Umgebung des Avatars von den als Antwort durch das Sprachsystem auszugebenden Informationen gesteuert, wobei insbesondere eine Synchronisierung, vorzugsweise eine automatische Synchronisierung, zwischen der Bewegung des Avatars und/oder der Gestaltung des Avatars und/oder der visuell dargestellten Umgebung des Avatars mit den als Antwort ausgegebenen Informationen durchgeführt wird.
Beim Einsatz des Kommunikationssystems 41 in einem Fahrzeug, bei dem das künstliche Sprachsystem 50 zur Sprachausgabe sowie zur Visualisierung des virtuellen Wesens, dem Avatar, ausgebildet ist, sind eine Vielzahl von Informationen bedeutend und notwendig. Für die korrekte Steuerung der Sprachausgabe sind diesbezüglich Informationen zu hinterlegen, wie genau ein bestimmtes Wort oder eine Wortkombination ausgesprochen werden soll. Dies spielt insbesondere bei der Verwendung von Fremdwörtern oder Eigennamen eine bedeutende Rolle, um die korrekte Aussprache gewährleisten zu können.
Die Visualisierung und Steuerung eines virtuellen Wesens erfordert die Abstimmung mit den Inhalten, die durch dieses Wesen vermittelt werden sollen. Aus diesem Grund ist es wichtig, dass das Aussehen und die Bewegung so wie das virtuelle Umfeld des virtuellen Wesens durch den auszugebenden Inhalt gesteuert werden. Dies kann insbesondere dann erfolgen, wenn die Antwortalternativen des Sprachsystems 50 bereits die Steuerinformationen sowohl für das virtuelle Wesen als auch die korrekte Aussprache von Wörtern integrieren. Dies ist in 4 dargestellt, wobei hier die Integration von zumindest einer Regel 31 des Regelwerks 30 gezeigt ist und eine Verknüpfung mit der Sprachausgabe 52 des Sprachsystems 50 sowie mit einer Steuerung 53 des Avatars und einer Steuerung 54 der virtuellen Umgebung des Avatars gezeigt ist.
Vorzugsweise wird eine Bewegung des Avatars oder eines Körperteils des Avatars mit einer Abfolge von durch das Sprachsystem 50 zu vermittelnden Informationen in einer Antwort abhängig von der Art der Informationen automatisch synchronisiert. Die korrekte phonetische Aussprache von Wörtern in dem Sprachsystem 50 wird vorzugsweise gespeichert und die Bewegung des Avatars und/oder die Gestaltung des Avatars und/oder die visuell dargestellte Umgebung des Avatars wird an die korrekte phonetische Aussprache spezifisch geknüpft. Dadurch kann stets eine realitätsnahe Darstellung einer Handlung und/oder einer Aussprache erreicht werden.
Vorzugsweise wird die Verknüpfung abhängig von einer von dem Sprachsystem 50 erkannten Eingabe automatisch durchgeführt und insbesondere abhängig von einer durch die natürliche Person durchgeführten Einstellung ermöglicht. Als Eingaben der Person können diesbezüglich spezifische Sprachen, wie Deutsch, Englisch oder dergleichen ausgewählt werden, wobei dann eine automatische Synchronisierung beispielsweise der Lippenbewegung des Avatars bei der Aussprache eines entsprechenden Wortes in dieser gewählten Sprache durchgeführt wird. Eine nicht zu der korrekten Aussprache eines Wortes passende Lippenbewegung des Avatars kann dadurch vermieden werden, wodurch eine wesentliche Verbesserung des Kommunikationssystems erreicht werden kann. Die Realitätsnähe kann dadurch wesentlich erhöht werden.
Neben einer einfachen Lippenbewegung kann diesbezüglich auch die Bewegung jeglicher anderer Körperteile des Avatars auf die situationsbezogen erforderliche Ausgabe synchronisiert werden.
Auch dann, wenn keine explizite Sprachausgabe erfolgen soll, sondern lediglich eine visuelle Darstellung von Handlungen oder Abläufen, kann auch diesbezüglich eine exakte Synchronisierung erfolgen. So kann in diesem Zusammenhang beispielsweise auch eine Wartungs- oder Instandsetzungsanleitung an einen Fahrzeugnutzer visuell ausgegeben werden, indem beispielsweise auf einem Bildschirm ein akustisch nicht hinterlegter Text angezeigt wird, welcher durch die Bewegungen und Handlungen des visuell dargestellten Avatars demonstriert wird. Auch diesbezüglich kann die korrekte Bewegung und Handlung des Avatars zeitgenau auf den spezifisch gezeigten Text synchronisiert werden. In diesem Zusammenhang können beispielsweise Einstellungen von Systemen im Fahrzeug, wie beispielsweise Radio, CD-Spieler und dergleichen, oder auch selbstdurchzuführende Wartungsarbeiten, wie Kontrolle des Ölstands, Kontrolle der Scheibenwaschflüssigkeit und dergleichen erläutert werden.
In diesem Zusammenhang kann dann auch die Synchronisierung des auf der Anzeigeeinheit dargestellten Umfelds des Avatars entsprechend angepasst werden und beispielsweise bei einer Erläuterung zur Füllstandskontrolle des Motoröls im Hintergrund des Avatars der Motorraum des spezifischen Fahrzeugtyps dargestellt, insbesondere relativ detailgetreu dargestellt, werden. Weitere Beispiele sind die Erläuterung der Durchführung eines Reifenwechsels oder eines Fremdstarts etc.. Dadurch kann für einen Nutzer bei relativ komplexen Abläufen oder Handlungen oder Einstellungen der rein textlichen und/oder akustischen Mitteilung auch die Darstellung in bewegten Bildern unterstützend ermöglicht werden, was sehr hilfreich sein kann.
In 5 ist in einer schematischen Darstellung der Zugriff auf Werte eines Bordinformationssystems in einem Fahrzeug bei der Abarbeitung von Antwortalternativen des Sprachsystems 50 gezeigt.
Durch diese Struktur wird die Ausgabe von Informationen natürlicher Sprache mittels eines künstlichen Sprachsystems 50 ermöglicht, wobei in einer durch Wörter formulierten Antwort des Sprachsystems 50 zumindest ein Wert eines Zustandsparameters eines Geräts und/oder eines Ereignisses eingebunden und mitgeteilt wird. Als Gerät können beispielsweise technische Geräte in einem Fahrzeug vorgesehen sein, deren Zustandsparameter beispielsweise Betriebsparameter darstellen. Als Ereignisse können anderweitige Dinge vorgesehen sein, welche beispielsweise die Umgebung des Fahrzeugs oder Sportveranstaltungen oder dergleichen betreffen können. So kann beispielsweise als Zustandsparameter eines Ereignisses die Temperatur in der Fahrzeugumgebung eingebunden und mitgeteilt werden. Ebenso kann jedoch auch beispielsweise der Spielstand eines gegenwärtig stattfindenden oder bereits beendeten Fußballspiels als Zustandsparameter eines Ereignisses eingebunden und mitgeteilt werden. Dies sind lediglich beispielhafte Nennungen für Ereignisse und zugeordnete mögliche Zustandsparameter, wodurch lediglich verdeutlicht werden soll, welche Fülle von derartigen Möglichkeiten vorliegen und berücksichtigt werden können.
Vorzugsweise wird ein Wert eines Zustandsparameters durch einen Platzhalter in einer definierten in dem Sprachsystem 50 hinterlegten Antwortstruktur eingebunden. Insbesondere wird bei einer zu generierenden Antwort des Sprachsystems 50 ein gegebenenfalls zugeordneter Platzhalter gesucht und bei einem Vorhandensein eines Platzhalters der diesem Platzhalter zugeordnete Wert des Zustandsparameters automatisch angefordert.
Während der Verarbeitung von Ereignissen des Bordsystems, beispielsweise eines Bussystems, in einem Fahrzeug, die der multimodalen Eingabe des natürlich sprachlichen Sprachsystems zuzurechnen ist, kann der Zugriff auf Informationen aus den Bordinformationssystemen auch während der Generierung der Antwortalternative eine Rolle spielen. So können in Antworten aktuelle Werte und Stati des Fahrzeugs oder von Teilkomponenten davon eingebunden werden, um Informationen akustisch auszugeben. Dies kann beispielsweise die Ansage der aktuellen Geschwindigkeit oder der Motortemperatur sein.
Diese Eigenschaft kann insbesondere dann zum Tragen kommen, wenn ein physisches Anzeigeinstrument im Fahrzeug für die Ausgabe eines entsprechenden Werts vorgesehen ist.
Wird bei der Verarbeitung einer derartigen Antwort ein entsprechender Platzhalter, welcher vorab definiert und hinterlegt wird, erkannt, wird der zu diesem Platzhalter gehörige Wert aus dem Bordinformationssystem ermittelt und eingebunden. Dies ist in 5 beispielhaft dargestellt. Dazu ist vorgesehen, dass dem Regelwerk 30 des natürlichsprachlichen Sprachsystems 50 zumindest eine Kommunikationsregel 55 zugeordnet ist, die wiederum zumindest eine Eingabealternative 56 sowie eine zugeordnete Antwortalternative 57 aufweist. Diese Antwortalternative 57 ist erweitert, indem ihr beispielsweise ein Platzhalter zugeordnet bzw. darin hinterlegt ist. Wird nun durch die natürliche Person eine entsprechende Benutzereingabe bzw. Eingabealternative 56 durchgeführt, so wird die zugeordnete Antwortalternative 57 gene riert und erkannt, dass der erforderliche Platzhalter vorhanden ist. In diesem Zusammenhang wird der für den Platzhalter erforderliche Wert eines Zustandsparameters über eine Schnittstellenkomponente 58 abgefragt, welche wiederum mit dem Bordinformationssystem 59 kommuniziert und den entsprechenden Wert des Zustandsparameters für den Platzhalter abfragt und wieder für die Antwortausgabe weiterleitet.
Der Zugriff wird somit in Form eines Platzhalters in die Formulierung einer Antwort integriert. Die Einbindung des Werts des Platzhalters kann sowohl innerhalb eines Antworttextes der Fall sein, kann aber auch bereits bei der Auswahl einer Antwort erfolgen, wenn die Ausgabe einer Antwort mit einer spezifischen Bedingung verknüpft ist. Die Identifikation des Platzhalters mit dem Zugriff auf das Bordinformationssystem 59, die Ermittlung des gewünschten technischen Werts sowie die Abfrage und Weiterleitung dieses Werts erfolgen gemäß der Darstellung im Ausführungsbeispiel in 5 über die gesonderte Schnittstellenkomponente 58. Diese stellt den direkten Bezug zu den existierenden Bordsystemen her.
Die Schnittstellenkomponente 58 kann insbesondere auch als Softwareapplikation, beispielsweise als Java-Applikation, ausgebildet werden.
Die Schnittstellenkomponente 58 ist so spezifiziert, dass sie im Systemverbund genau weiß, wo bestimmte Informationen abgelegt bzw. abgefragt werden können und wohin sie diese spezifisch weiterübertragen soll. Die Schnittstellenkomponente 58 ist somit ein wesentlicher Teil im Hinblick auf die präzise Auffindung, Abfrage und Übermittlung des Werts der Zustandskomponente, welche dem Platzhalter zugeordnet ist.
Durch die erläuterte Vorgehensweise kann ermöglicht werden, dass in statische Komponenten einer Antwort dynamische Teile eingefügt werden können, die darüber hinaus dynamisch angefragt werden können.

Claims

Verfahren zum Erzeugen einer Sprachgrammatik für ein künstliches Sprachsystem, welches zur Kommunikation mit einer natürlichen Person ausgebildet ist, bei dem der Sprachgrammatik einzelne Worte und/oder Wortkombinationen zugrunde gelegt werden, dadurch gekennzeichnet, dass der Kommunikation ein Satz von Kommunikationsregeln mit jeweils einer Eingabe einer Person und einer korrespondierenden Ausgabe des Sprachsystems zugeordnet wird, und zumindest eine Eingabe der Person in das Sprachsystem einem der Sprachgrammatik zugrunde gelegten Wort und/oder einer Wortkombination zugeordnet wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Zuordnung einer Eingabe zu einem Wort und/oder einer Wortkombination durch eine automatische Konvertierung durchgeführt und dadurch die Sprachgrammatik definiert wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass bei der automatischen Konvertierung einzelne Alternativen einer Eingabe analysiert werden und abhängig davon eine zu priorisierende Konvertierung durchgeführt wird.
Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass die automatische Konvertierung abhängig von einem Platzhalter und/oder einer Variablen und/oder zumindest einer Funktion in einer Alternative einer Eingabe durchgeführt wird.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass ein Platzhalter durch ein Füllwort oder eine Füllwortkombination definiert wird.
Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass eine Variable durch einen Wert eines Betriebsparameters eines Geräts oder Systems oder durch einen sonstigen Ergebniswert definiert wird.
Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass eine Funktion durch eine Hilfefunktion und/oder eine Funktion zur Änderung eines Profils einer Kommunikationsregel oder von Kommunikationsregeln zueinander definiert wird.
Verfahren nach einem der Ansprüche 2 bis 7, dadurch gekennzeichnet, dass durch die automatische Konvertierung eine Sprachgrammatik erzeugt wird, welche alle möglichen, vom Sprachsystem semantisch verstandenen Eingaben aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Eingabe einer Person durch gesprochene Sprache und/oder durch einen geschriebenen oder dargestellten Text und/oder durch eine Geste charakterisiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Sprachgrammatik für ein Infotainmentsystem in einem Fahrzeug erzeugt wird, welches mit einem Fahrzeuginsassen mittels natürlicher Sprache kommuniziert.