DE102008025532B4

DE102008025532B4 - Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung

Info

Publication number: DE102008025532B4
Application number: DE102008025532.7A
Authority: DE
Inventors: Stefan Sellschopp; Valentin Nicolescu; Holger Hoffmann; Prof. Dr. Krcmar Helmut
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2008-05-28
Filing date: 2008-05-28
Publication date: 2014-01-09
Anticipated expiration: 2028-05-29
Also published as: DE102008025532A1

Abstract

Kommunikationssystem mit einem Nutzer und einer Kommunikationseinrichtung (2), welche zur Verarbeitung von akustischen Signalen des Nutzers ausgebildet ist, und einer für die Kommunikation bereitgestellten und in der Kommunikationseinrichtung (2) abgelegten ersten (3, 4, 5) und zumindest einer von der ersten unterschiedlichen zweiten Sprachgrammatik (3, 4, 5), und einer Auswahleinheit, welche abhängig von einem als Eingabe (6, 8, 10, 12) erzeugten akustischen Signal des Nutzers zumindest eine der Sprachgrammatiken (3, 4, 5) zur Erzeugung einer Ausgabe (7, 9, 11, 13) auswählt, wobei die Sprachgrammatiken (3, 4, 5) unterschiedlichen Kontexten (A, B) zugeordnet sind, und die Auswahleinheit abhängig von einem in dem akustischen Signal kontextspezifischen Signalanteil eine Sprachgrammatik (3, 4, 5) auswählt, dadurch gekennzeichnet, dass jede Sprachgrammatik (3, 4, 5) kontextfreie und kontextabhängige Teile aufweist und bei einem Erkennen eines einem kontextabhängigen Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers die ausgewählte Sprachgrammatik (3, 4, 5) unverändert bleibt und bei einem Erkennen eines einem kontextfreien Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers ein Wechsel der Sprachgrammatik durchführbar ist.

Description

Die Erfindung betrifft Kommunikationssysteme mit einem Nutzer und einer Kommunikationseinrichtung, welche zur Verarbeitung von akustischen Signalen des Nutzers ausgebildet ist. Darüber hinaus betrifft die Erfindung Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung eines Kommunikationssystems.
Kommunikationssysteme, welche im Fahrzeug angeordnet sind und eine Kommunikationseinrichtung umfassen, welche zur Kommunikation mittels Sprache mit einem Fahrzeuginsassen ausgebildet sind, sind bekannt. Die Kommunikationseinrichtungen können dabei die von dem Nutzer gesprochene Sprache empfangen und erkennen, was der Nutzer gesagt hat. Auf Basis dieses Erkennens kann die Kommunikationseinrichtung ebenfalls ein Sprachsignal erzeugen.
Aktuelle Sprachdialoge in Fahrzeugen erkennen gesprochene Sprache mit Hilfe von Sprachgrammatiken, in denen erkennbare Wörter oder Phrasen abgespeichert sind. Diese Grammatiken werden erstellt und sind während der Laufzeit statisch, das heißt nicht mehr änderbar. Üblicherweise wird dazu lediglich eine einzige Datei erstellt, welche diese Gesamtheit der Sprachgrammatik in Form der Wörter und/oder Phrasen und/oder Fragen und/oder Befehlen und/oder unterschiedliche Formulierungen zu einem Thema, umfassen. Die Verwendung von Sprachgrammatiken erzielt im Vergleich zu diktatbasierter Spracherkennung höhere Trefferquoten, indem Erkennungsalternativen reduziert werden. Während bei der diktatbasierten Erkennung versucht wird, einzelne Wörter aus einer großen Gesamtmenge zu ermitteln, muss bei der grammatikbasierten Erkennung lediglich das Wort oder die Phrase oder dergleichen mit der höchsten Trefferwahrscheinlichkeit ermittelt werden, was zu besseren Ergebnissen führt.
Während die aktuelle Verwendung einer einzigen Sprachgrammatik in Form einer einzigen Datei beim Einsatz von Kommandowörtern ausreichend ist, stellen natürlichsprachliche Dialoge mit längeren Phrasen und einer größeren Variation der Satzbildung eine Herausforderung dar, welche bisher im Hinblick auf die Wahrscheinlichkeit der richtigen Erkennung nicht zufriedenstellend ist. Unter natürlichsprachlichen Dialogen mit Maschinen sind Unterhaltungen zu verstehen, bei denen sowohl ein menschlicher Benutzer als auch die Maschine vollständige, prosaische Phrasen äußern können und somit das Erlernen bestimmter Kommandowörter entfällt.
Bei natürlichsprachlichen Dialogen nimmt die Zahl zu erkennender Alternativen in einer Sprachgrammatik zu, wodurch sich die Erkennungsrate verringert.
Aus der DE 10 2006 029 755 A1 sind ein Verfahren sowie eine Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung bekannt. Die Analyse eines erfassten Sprachsignals erfolgt parallel oder sequentiell in mehreren Spracherkennungszweigen einer Spracherkennungseinrichtung unter Verwendung von mehreren Grammatiken. Der Erkennungsprozess wird erfolgreich beendet, falls die Analyse des Sprachsignals in mindestens einem Spracherkennungszweig ein positives Erkennungsergebnis liefert.
Auch aus der DE 10 2006 057 159 A1 , WO 01/78065 A1 , DE 10 2005 037 621 A1 , WO 03/030149 A1 , DE 196 35 754 A1 und WO 2006/037219 A1 sind Signalverarbeitungssysteme und verschiedenste Spracherkennungsverfahren bekannt.
Es ist Aufgabe der vorliegenden Erfindung, ein Kommunikationssystem sowie ein Verfahren zum Durchführen einer Kommunikation zu schaffen, bei welchem bei natürlichsprachlichen Dialogen die korrekte Erkennung von akustischen Signalen erhöht werden kann und dies auch bei sehr umfänglichen und komplexen Äußerungen sehr schnell erfolgen kann.
Diese Aufgabe wird durch ein Kommunikationssystem, welches die Merkmale nach Anspruch 1 aufweist, und durch ein Verfahren, welches die Merkmale nach Anspruch 10 aufweist, gelöst.
Die Erfindung betrifft ein Kommunikationssystem mit einem Nutzer und einer Kommunikationseinrichtung, wobei die Kommunikationseinrichtung zur Verarbeitung von akustischen Signalen des Nutzers ausgebildet ist. Das Kommunikationssystem umfasst darüber hinaus eine erste Sprachgrammatik und eine zur ersten unterschiedliche zweite Sprachgrammatik für eine einzige Sprache, welche für die Kommunikation bereitgestellt sind und insbesondere in der Kommunikationseinrichtung abgelegt sind. Darüber hinaus umfasst das Kommunikationssystem eine Auswahleinheit, welche abhängig von einem als Eingabe erzeugten akustischen Signal des Nutzers eine der bereitgestellten Sprachgrammatiken auswählt. Es wird somit ein Kommunikationssystem geschaffen, bei dem zumindest zwei verschiedene Sprachgrammatiken vorgegeben werden, wodurch die korrekte Erkennung von sehr komplexen Äußerungen bei natürlichsprachlichen Dialogen wesentlich verbessert werden kann. Darüber hinaus kann durch eine derartige Aufteilung in zumindest zwei verschiedene Sprachgrammatiken, welche separat definiert abgelegt sind, eine wesentlich schnellere Erkennung erfolgen und auch schneller eine darauf zu erzeugende Äußerung generiert werden. Durch dieses Kommunikationssystem kann auch bei sehr komplexen Dialogen eine viel realitätsnahere Kommunikation vonstatten gehen. Nicht zuletzt kann darüber hinaus ein wesentlich flexibleres und im Hinblick auf die Erzeugung von Äußerungen variableres System geschaffen werden, welches zu deutlich verbesserten Kommunikationsergebnissen führt.
Die zumindest zwei verschiedenen Sprachgrammatiken sind unterschiedlichen Kontexten zugeordnet, und die Auswahleinheit ist so ausgebildet, dass sie abhängig von einem in dem akustischen Signalkontext spezifischen Signalanteil eine Sprachgrammatik auswählt. Unter einem Kontext wird insbesondere eine bestimmte Gesprächssituation oder ein spezifisches Thema verstanden. So können unterschiedlichste spezifische Gesprächssituationen vorab definiert werden und charakterisiert werden, welche dann jeweils als spezifischer Kontext deklariert und in dem tatsächlich stattfindenden Gespräch erkannt werden. Durch die Aufteilung der Sprachgrammatiken und Zuordnung zu verschiedenen Kontexten kann auch hier bei komplexen natürlichsprachlichen Dialogen die Erkennungsrate deutlich erhöht werden, was zu einer realitätsnahen Kommunikation im Hinblick auf Kommunikationsgeschwindigkeit und korrekter Sprache führt. So kann dann, wenn beispielsweise der Nutzer zu einem spezifischen Thema, beispielsweise zu einer spezifischen Bedienung einer Komponente im Fahrzeug, beispielsweise eines Blinkers oder der Scheibenwischanlage Informationen haben will, eindeutig erkannt werden, dass sich beispielsweise die Frage des Nutzers zum Thema Blinker, welches dann einen Kontext betrifft, oder zum Thema Scheibenwischanlage, welches einen anderen Kontext betrifft, zuordnen lässt.
Wenn in dem akustischen Signal des Nutzers in diesem Zusammenhang ein Wort oder eine Phrase betreffend den Blinker oder ein dem zugeordnetes Wort vorkommt, kann dies als kontextspezifischer Signalanteil erkannt werden und eine spezifische Sprachgrammatik dazu ausgewählt werden. Entsprechendes kann andererseits beispielsweise bei einem kontextspezifischen Erkennen eines Signalanteils betreffend die Scheibenwischanlage erfolgen. Dies sind lediglich-beispielhafte Angaben zur Erläuterung von Kontexten oder kontextspezifischen Signalanteilen. Prinzipiell kann dies nicht nur für fahrzeugspezifische Komponenten erfolgen, sondern kann auch für jede beliebige andere Kommunikation vorgesehen sein. Dies können auch externe Nachrichten, beispielsweise Themen betreffend den Sport, die Wirtschaft, die Kultur etc. betreffen. Es können hier auch insbesondere hierarchische Ausgestaltungen der unterschiedlichen Kontexte gegeben sein. So kann ein übergeordneter Kontext definiert werden, welcher alle fahrzeugspezifischen Angaben, insbesondere Informationen über alle fahrzeugspezifischen Komponenten umfasst. Wird zunächst dies erkannt, so kann auch dieser übergeordnete Kontext bereits ausgewählt werden. Im Nachgang dazu können dann dem untergeordnete Kontexte gewählt werden, wenn erkannt wird, dass ein spezifisches Komponententeil des Fahrzeugs vom Nutzer abgefragt wird, so dass als untergeordneter Kontext zu diesem genannten übergeordneten Kontext beispielsweise einer betreffend den Motor ausgewählt werden kann. Neben dem oben genannten übergeordneten, das Fahrzeug betreffenden Kontext und dem zugeordneten Hierarchiebaum der Kontexte, kann auch ein ganz übergeordneter Kontext zum Thema Sport erstellt werden. Wird hier ein entsprechend kontextspezifischer Signalanteil im akustischen Signal des Nutzers erkannt, kann dieser ausgewählt werden und dann wiederum in einen hierarchisch darunter angeordneten weiteren Kontext gesprungen und dieser ausgewählt werden. Beispielsweise kann dies dann der Fall sein, wenn man erkennt, dass es sich zum einen um Informationen aus dem Sport handelt, und andererseits dies spezifisch Fußball oder sogar einen spezifischen Fußballverein betrifft. Selbstverständlich gilt Entsprechendes auch für alle anderen entsprechend gliederbaren Themen. Darüber hinaus ist dies auch für spezifische Gesprächssituationen in analoger Weise möglich, so dass auch hier entsprechende Kontexte oder aber auch Kontexthierarchien mit entsprechenden Bäumen und Verzweigungen gegeben sein können.
Insbesondere wird abhängig von einem durch die Kommunikationseinrichtung automatisch erkannten Wechsel eines Kontextes, insbesondere durch den Nutzer, ein Wechsel der Sprachgrammatik durchgeführt. Es wird somit immer situationsspezifisch die richtige Sprachgrammatik automatisch ausgewählt, wodurch auch einer hochflexiblen Ausgestaltung des Kommunikationssystems im Hinblick auf die jeweils momentan anzupassenden und erforderlichen Situationen während einer Kommunikation Rechnung getragen werden kann.
Jede der Sprachgrammatiken weist kontextfreie als auch kontextabhängige Teile auf. Bei einem Erkennen eines einem kontextabhängigen Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers bleibt die ausgewählte Sprachgrammatik unverändert, insbesondere zwingend unverändert.
Es ist auch vorgesehen, dass jede Sprachgrammatik kontextfreie und kontextabhängige Teile aufweist, und bei einem Erkennen eines einem kontextfreien Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers ein Wechsel der Sprachgrammatik durchführbar ist. Dies bedeutet, dass dann, wenn ein kontextfreier Teil erkannt ist, die Sprachgrammatik geändert werden kann, dies aber nicht muss. Vorzugsweise hängt dieser mögliche Wechsel beim Erkennen von kontextfreien Teilen in einem zugehörigen Signalteil davon ab, ob ein weiterer, einem anderen Kontext zugehöriger Signalteil in dem akustischen Signal erkannt wird.
Vorzugsweise weist die Kommunikationseinrichtung eine Anzeigeeinheit auf, auf welcher die in der Kommunikation mit dem Nutzer anzuzeigenden Informationen dargestellt werden, und die Darstellung durch ein anzeigbares virtuelles Wesen, insbesondere einen Avatar, unterstützt ist. Die schnelle und intuitive Nachvollziehbarkeit der darzustellenden Informationen, welche von der Kommunikationseinrichtung an den Nutzer ausgegeben werden, können dadurch verbessert werden. Insbesondere dann, wenn die Kommunikationseinrichtung zur Ausgabe von Sprachsignalen ausgebildet ist, kann bei relativ komplexen Themen eine derartig unterstützende Darbietung über Bilder und insbesondere durch einen virtuellen Charakter, wesentlich verbessert werden.
Vorzugsweise ist die Kommunikationseinrichtung des Kommunikationssystems in einem Fahrzeug angeordnet, insbesondere ortsfest angeordnet. Diesbezüglich kann beispielsweise in Infotainmentsystem vorgesehen sein, welches das Kommunikationssystem, ein Navigationssystem, eine Audio-/Video-Anlage und dergleichen umfassen kann. Selbstverständlich kann auch vorgesehen sein, dass die Kommunikationseinrichtung ein mobiles Gerät ist, welches auch von einem Nutzer mitgeführt werden kann. Entsprechend kann es jedoch auch dann in dem Fahrzeug angeordnet und an einer entsprechenden Halteinrichtung befestigt sein.
Vorzugsweise ist die Kommunikationseinrichtung zur Verarbeitung von Sprachsignalen des Nutzers und auch zur Ausgabe von Sprachsignalen ausgebildet.
Das Kommunikationssystem ist vorzugsweise so ausgebildet, dass eine weitere Sprachgrammatik abhängig von einem als Eingabe ausgebildeten akustischen Signal des Nutzers zur dynamischen Erstellung der weiteren Sprachgrammatik während der Kommunikation zwischen dem Nutzer und der Kommunikationseinrichtung ausgebildet ist. Bei dieser Ausgestaltung wird somit zusätzlich durch die zumindest zwei bereits vorab definierten und erstellten Sprachgrammatiken während einer bereits gestarteten und stattfindenden Kommunikation zumindest eine weitere davon unterschiedliche Sprachgrammatik dynamisch erzeugt. Es wird somit ein hochflexibles und im Hinblick auf die realitätsnahe Ausgestaltung einer Kommunikation wesentlich verbessertes Kommunikationssystem bereitgestellt. Es wird quasi somit auch ein selbstlernendes System definiert, welches dann, wenn es anhand der bereits vordefinierten Sprachgrammatiken erkennt, dass eine nicht optimale Äußerung durch die Kommunikationseinrichtung auf das von dem Nutzer als Eingabe erzeugte akustische Signal erzeugt und ausgegeben werden kann, selbständig eine geeignetere und die Äußerung passendere Sprachgrammatik erzeugt.
Vorzugsweise weist eine Sprachgrammatik Wörter und/oder Satzteile und/oder unterschiedliche Formulierungen von Fragen und/oder Befehlen und/oder Normalsätzen zu einem Kontext oder einem Unteraspekt eines Kontextes auf. Als Normalsätze werden Sätze verstanden, welche in einer Sprache mit einem Punkt beendet werden.
Die vorab genannten vorteilhaften Ausgestaltungen des erfindungsgemäßen Kommunikationssystems gemäß dem ersten Aspekt der Erfindung sind im Hinblick auf eine spezifische Sprache, beispielsweise Deutsch konzipiert. Es kann darüber hinaus auch vorgesehen sein, dass das Kommunikationssystem für mehrere unterschiedliche Sprachen, beispielsweise Deutsch und Englisch jeweils einen entsprechenden Aufbau und eine entsprechende Ausgestaltung aufweist. So kann dann vorgesehen sein, dass beispielsweise sowohl für die deutsche Sprache zumindest zwei unterschiedliche Sprachgrammatiken als auch für die englische Sprache zumindest zwei unterschiedliche Sprachgrammatiken bereitgestellt sind. Auch in diesem Zusammenhang kann das Kommunikationssystem dann grundsätzlich erst zur Erkennung der spezifischen Sprache ausgebildet sein und dann abhängig davon eine dieser Sprache zugeordnete Auswahl einer der beiden Sprachgrammatiken treffen. Selbstverständlich kann auch hier für jede der spezifischen Sprachen eine über die Anzahl zwei hinausgehende Mehrzahl von Sprachgrammatiken zugrunde gelegt sein. Auch hier können diese selbstverständlich jeweils wieder vorzugsweise einerseits nur kontextabhängig anderseits nur kontextfrei definiert sein. Darüber hinaus kann auch hier jede der Sprachgrammatiken sowohl kontextfreie als auch kontextabhängige Teile aufweisen.
Ein weiterer Aspekt, der jedoch nicht Teil der Erfindung ist, betrifft ein Kommunikationssystem mit einem Nutzer und einer Kommunikationsreinrichtung, welche zur Verarbeitung von akustischen Signalen des Nutzers ausgebildet ist. Darüber hinaus umfasst das Kommunikationssystem gemäß diesem Aspekt eine Einheit zur Erzeugung einer Sprachgrammatik, welche abhängig von einem als Eingabe ausgebildeten akustischen Signal des Nutzers zur dynamischen Erstellung der Sprachgrammatik während der Kommunikation zwischen dem Nutzer und der Kommunikationsreinrichtung ausgebildet ist. Bei dieser Ausgestaltung des Kommunikationssystems ist es somit nicht mehr erforderlich, vorab unterschiedliche Sprachgrammatiken zu definieren und bereitzustellen. Vielmehr ist es hier möglich, dass mit dem Beginn einer Kommunikation die Sprachgrammatik automatisch und fortwährend dynamisiert erstellt wird, womit im Laufe des Fortgangs der Kommunikation ein selbstlernendes Dialogsystem gestaltet ist. Je länger die Kommunikation andauert und je mehr Kommunikationen geführt werden, umso passender wird die zumindest eine Sprachgrammatik erstellt und permanent aktualisiert und verbessert. Es müssen somit hier nicht mehr relativ aufwendige Vorarbeiten geleistet werden und somit Sprachgrammatiken bereitgestellt werden, sondern es kann dies durch die dynamische Erstellung während der Kommunikation selbst erfolgen.
Insbesondere können dadurch auch im Fortgang der Kommunikation sowie bei weiteren Kommunikationen Verfeinerungen der dynamischen Erstellung erfolgen und Anpassungen sowie Verbesserungen permanent durchgeführt werden.
Vorzugsweise wird eine Sprachgrammatik abhängig von einem während der Kommunikation auftretenden spezifischen Kontext dynamisch erzeugt. Es sind somit in dem Kommunikationssystem lediglich Schlagwörter oder spezifische Phrasen abgelegt, welche zur Erkennung eines spezifischen Kontextes dienen, wobei abhängig davon dann die dynamische Erstellung der tatsächlichen Sprachgrammatik erst erfolgt. Der bereitzustellende Aufwand, um eine derartige dynamische Erstellung ermöglichen zu können, ist dadurch minimiert.
Ein weiterer Aspekt der Erfindung betrifft ein Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationsreinrichtung eines Kommunikationssystems, wobei die Kommunikationsreinrichtung zur Verarbeitung von akustischen Signalen des Nutzers ausgebildet ist. In der Kommunikationseinrichtung ist eine erste und zumindest eine von der ersten unterschiedliche zweite Sprachgrammatik einer Sprache abgelegt, wobei abhängig von einem bei der Kommunikation als Eingabe erzeugten akustischen Signal des Nutzers eine der Sprachgrammatiken ausgewählt wird.
Darüber hinaus sind vorteilhafte Ausgestaltungen des erfindungsgemäßen Kommunikationssystems auch als vorteilhafte Ausgestaltungen gemäß dem erfindungsgemäßen Verfahren anzusehen.
Mit der Erfindung können somit sowohl kontextsensitive Teile von Sprachgrammatiken als auch kontextfreie Teile identifiziert werden, die jederzeit erkannt werden sollen. Unter einem Kontext wird, wie bereits erwähnt, eine bestimmte Gesprächssituation oder ein Thema verstanden. Beim Wechsel von einem Kontext in einen anderen wird bei Bedarf die Sprachgrammatik gewechselt. Dabei können zur Vermeidung übermäßiger Grammatikwechsel auch die Begriffe und Phrasen mehrerer Kontexte in einer Grammatik zusammengefasst werden, sofern die Erkennungsrate darunter nicht leidet. Eine geladene kontextsensitive Grammatik, welche insbesondere in einer Datei gespeichert ist, enthält dabei die zu erkennenden Begriffe und Phrasen, die im Rahmen des aktuellen Kontexts zu erkennen sind. Daneben können auch kontextfreie Grammatiken aktiv sein und eine erkennbare Menge an Begriffen und Phrasen bereitstellen.
Neben dem Laden bereits für bestimmte Kontexte vorgefertigter Sprachgrammatiken erlaubt dies zudem die dynamische Generierung von Sprachgrammatiken für bestimmte Gesprächssituationen oder Themen. So können beispielsweise Einträge einer Liste mit Straßennamen im Rahmen einer Navigationshilfe als Sprachgrammatik erstellt werden, so dass der Nutzer jeden aufgezeigten Namen auch per Spracheingabe auswählen kann. Insbesondere ist hier vorgesehen, dass in einer externen Datenbasis diese Straßennamen eines Ortes abgelegt sind und bei der Eingabe eines Sprachsignals durch den Nutzer, bei dem ein Anfangsbuchstabe genannt wird, wird automatische eine Sprachgrammatik generiert, bei welcher aus dieser Datenbasis alle Straßennamen beginnend mit diesem genannten Anfangsbuchstaben aufgenommen werden.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand einer schematischen Zeichnung näher erläutert.
Die einzige Figur zeigt ein Kommunikationssystem 1, welches einen personifizierten Nutzer (nicht dargestellt) und zumindest eine Kommunikationseinrichtung 2 umfasst. Diese Kommunikationseinrichtung 2 ist als Gerät in einem Fahrzeug angeordnet.
Die Kommunikationseinrichtung 2 umfasst eine nicht dargestellte Anzeigeeinheit, auf welcher Informationen in Textform und/oder in Bildform angezeigt werden können. Dazu umfasst die Kommunikationseinrichtung im Ausführungsbeispiel ein virtuelles Wesen, insbesondere einen Avatar, welcher zur unterstützenden Darstellung der Informationen auf der Anzeigeeinheit angezeigt werden kann und sich entsprechend bewegt, so dass die Darbietung realitätsnah dargestellt wird.
Die Kommunikationseinrichtung umfasst darüber hinaus eine Empfangseinheit, welche zum Empfangen von akustischen Signalen, insbesondere Sprachsignalen, des Nutzers ausgebildet ist. Darüber hinaus umfasst die Kommunikationseinrichtung 2 eine nicht dargestellte Ausgabeeinheit, welche neben der Anzeigeeinheit vorgesehen ist und zur Ausgabe von Sprachsignalen ausgebildet ist.
Im gezeigten Ausführungsbeispiel umfasst das Kommunikationssystem eine erste Sprachgrammatik 3, eine zweite Sprachgrammatik 4 und eine dritte Sprachgrammatik 5. Die erste Sprachgrammatik 3 umfasst Wörter und/oder Phrasen und/oder Sätze etc. zu einem spezifischen Kontext A. Es kann vorgesehen sein, dass die Sprachgrammatik 3 lediglich zu diesem Kontext A kontextabhängige Elemente aufweist und somit keine kontextfreien Elemente umfasst.
In entsprechender Weise ist die zweite Sprachgrammatik 4 ausgebildet, welche Wörter und/oder Phrasen und/oder Sätze etc. zu einem zum Kontext A unterschiedlichen weiteren Kontext B aufweist. Die beiden Sprachgrammatiken 3 und 4 sind somit unterschiedlich und separat zueinander ausgebildet und stellen Sprachgrammatiken zu einer Sprache, beispielsweise Deutsch, dar.
Die dritte Sprachgrammatik 5 umfasst im ersten Ausführungsbeispiel lediglich kontextfreie Elemente, welche sowohl für den Kontext A als auch für den Kontext B gelten bzw. verwendet werden können.
In einem weiteren Ausführungsbeispiel kann vorgesehen sein, dass die Sprachgrammatik 3 und/oder die Sprachgrammatik 4 neben ihren kontextabhängigen Teilen auch kontextfreie Teile umfassen. In diesem Zusammenhang kann vorgesehen sein, dass einige oder alle in der in der Figur gezeigten Sprachgrammatik 5 enthaltenen Elemente in der Sprachgrammatik 3 und/oder Sprachgrammatik 4 enthalten sind. Gegebenenfalls kann bei einer derartigen Ausführung dann die weitere Sprachgrammatik 5 entfallen.
Das Kommunikationssystem 1 umfasst darüber hinaus eine Auswahleinheit (nicht dargestellt), welche abhängig von einem als Eingabe erzeugten akustischen Signal des Nutzers eine der Sprachgrammatiken 3, 4 oder 5 auswählt, um eine auf die Eingabe des Nutzers entsprechende Äußerung durch die Kommunikationsreinrichtung 2 schnell und korrekt generieren zu können.
Wird in diesem Zusammenhang beispielsweise erkannt, dass der Nutzer eine Eingabe in Form eines Sprachsignals durchgeführt hat, welches dem Kontext A zugehörige akustische Signalanteile aufweist, so wird durch die Auswahleinheit erkannt, dass dies im Hinblick auf die Äußerung für die Sprachgrammatik 3 relevant ist. Die so definierte Eingabe 6 des Nutzers führt nunmehr dazu, dass das Kommunikationssystem 1 in der ersten Sprachgrammatik 3 Elemente sucht, welche eine dazu passende Antwort 7 ermöglicht. Diese Antwort 7 wird dann entsprechend dem Nutzer mitgeteilt, wobei dazu eine bildliche und/oder akustische Übermittlung vorgesehen sein kann.
Auf diese Antwort 7 folgend kann während der laufenden Kommunikation vorgesehen sein, dass der Nutzer wiederum eine akustische Eingabe 8 durchführt, welche von dem Kommunikationssystem 1 wiederum dem Kontext A zugeordnet wird, wobei dieser aufgrund von erkannten kontextspezifischen Signalanteilen die Sprachgrammatik 3 wählt. In diesem Zusammenhang kann als kontextspezifischer Signalanteil beispielsweise ein Wort oder eine Phrase erkannt werden, welches bzw. welche zum Kontext A gehörig eingestuft werden. Abhängig von diesem Erkennen kann dann wiederum eine Äußerung in Form einer Antwort 9 erzeugt werden.
Ein entsprechendes Szenario kann beispielsweise dann vollzogen werden, wenn die Eingaben 10 und 12 des Nutzers zum Kontext B zugehörig erkannt werden und daraufhin die Antworten 11 und 13 generiert werden.
Darüber hinaus kann jedoch auch vorgesehen sein, dass beispielsweise dann, wenn während der Kommunikation erkannt wird, dass die Eingabe 8 des Nutzers nicht dem Kontext A zugehörig ist und vielmehr dem Kontext B zugeordnet werden kann, dies dann erfolgt und die Auswahleinheit nicht mehr die Sprachgrammatik 3 im Hinblick auf eine zu erzeugende Äußerung auf diese dann dem Kontext B zuzuordnende Eingabe 8 auswählt, sondern die Sprachgrammatik 4.
Dies ist durch das gestrichelt gezeichnete Szenario dargestellt, wobei unabhängig von der Darstellung in der Figur dann eine Zuordnung der Eingabe 8 zum Kontext A prinzipiell grundsätzlich gar nicht erfolgt. Es ist bei dem oben geschilderten Fall dann vielmehr eine Darstellung vorzusehen, bei der die Eingabe 8 außerhalb des Kontextes A und des Kontextes B zunächst einzuzeichnen wäre und dann bei dem Erkennen durch das Kommunikationssystem 1, dass diese Eingabe 8 dem Kontext B zugeordnet werden kann, diese in das entsprechende Feld gezeichnet werden sollte.
In oben dargelegter Erläuterung sind jeweils Fälle angegeben, bei denen die Sprachgrammatiken 3 bzw. 4 zur Erzeugung der Antworten 7 bzw. 9 bzw. 11 bzw. 13 ausreichen. Wird nun jedoch eine Eingabe des Nutzers formuliert, bei der erkannt wird, dass eine kontextfreie Äußerung und somit eine von den Kontexten A und B unabhängige Äußerung geniert werden kann oder soll, so kann dies über die weitere Sprachgrammatik 5 erfolgen. So kann beispielsweise ein Szenario vorgegeben werden, bei dem der Nutzer eine Frage als Eingabe formuliert, welche beispielsweise als Antwort lediglich das Wort „Ja” oder „Nein” erfordert. Da ein derartiges Wort sowohl bei dem Kontext A als auch bei dem Kontext B verwendet werden kann, wird es als kontextfrei definiert und in der Sprachgrammatik 5 abgelegt. Wie bereits erwähnt, können diese kontextfreien Elemente auch in den Sprachgrammatiken 3 und 4 zusätzlich abgelegt sein, und die Sprachgrammatik 5 dann nicht vorhanden sein.
Betrifft beispielsweise der Kontext A das Thema zur Blinkeranlage des Fahrzeugs und der Kontext B das Thema zu einer Scheinwerferanlage des Fahrzeugs, so können angefragte oder in einer sonstigen Weise formulierte Aspekte des Nutzers zum Thema Blinker dem Kontext A zugeordnet werden. In diesem Zusammenhang können dann auch vom Nutzer Eingaben formuliert werden, insbesondere Fragen, welche vom Kommunikationssystem 1 und insbesondere der Kommunikationseinrichtung 2 lediglich mit diesen Schlagwörtern „Ja” oder „Nein” beantwortet werden können. Entsprechendes gilt selbstverständlich für den beispielhaft genannten Themenkomplex zum Kontext B. Beispielhaft sei an dieser Stelle erläutert, dass dann, wenn der Nutzer eine Eingabe 6 formuliert, welche beispielsweise lautet: „Geben Sie mir Informationen zu der Blinkeranlage”, die Antwort 7 dahingehend lauten kann, ob die gesamte Erläuterung oder nur von spezifischen Abläufen erfolgen soll, wobei dann der Nutzer als Eingabe 8 wiederum formulieren kann, dass er nur die Erläuterung im Hinblick auf das Einschalten des linken Blinkers haben möchte. Eine derartige Kommunikation läuft dann lediglich kontextspezifisch zum Kontext A ab und wird dort dahingehend fortgeführt, dass an spezifischen Stellen gegebenenfalls ein Kontextwechsel vollzogen werden kann, an anderen Stellen ein Kontextwechsel beispielsweise im Kontext B, nicht erfolgen kann. Stellt in diesem Zusammenhang der Nutzer beispielsweise als Eingabe die Frage, ob er den linken Blinker dadurch betätigen kann, dass er ein entsprechendes Bedienelement nach oben drückt, und dies tatsächlich korrekt ist, kann als Antwort des Systems lediglich „Ja” ausgegeben werden. In diesem Zusammenhang wäre dann ein Kontextwechsel als Antwort 9 des Kommunikationssystems 1 zum Kontext B nicht möglich, da dies dann eine Antwort „Ja” wäre, welche nicht mehr in einem fortzuführenden Zusammenhang im Kontext B gewährt werden könnte.
Wäre in diesem Fall jedoch eine Antwort dahingehend möglich, dass diese Bedienung falsch wäre und das System antworten würde, „Nein, dadurch betätigen Sie die Scheibenwischanlage”, so könnte ein automatischer Kontextwechsel in den Kontext B erfolgen.
Ein entsprechender Wechsel in den Kontext B könnte auch dann gegeben sein, wenn während der bereits begonnenen Kommunikation mit den Eingaben 6 und der Ausgabe 7 eine weitere Eingabe 8 formuliert werden würde, bei der der Nutzer Informationen über die Scheibenwischanlage haben möchte. In diesem Zusammenhang würde dann das System diesen Kontextwechsel anhand von kontextspezifischen Signalanteilen erkennen und automatisch in den Kontext B wechseln, wobei dann als Antwort 11 beispielsweise ausgegeben werden könnte, „Wollen Sie eine komplette Erläuterung über die Scheibenwischanlage oder nur von Teilbedienungen davon?”.
Die oben geschilderten beispielhaften Szenarien zur Erläuterung sind nicht als abschließend zu verstehen. Vielmehr soll explizit erwähnt werden, dass alle möglichen Gesprächssituationen und Themen entsprechend dargelegt und abgearbeitet werden können und eine entsprechende Kommunikation stattfinden kann.
In dem in der Figur erläuterten Ausführungsbeispiel sind die Sprachgrammatiken 3, 4 und 5 als vorab definierte und erzeugte Sprachgrammatiken in Form von Dateien festgelegt. Selbstverständlich kann auch vorgesehen sein, dass zusätzlich dazu während einer Kommunikation eine weitere Sprachgrammatik dynamisch erzeugt wird.
Darüber hinaus kann grundsätzlich auch vorgesehen sein, dass keine der Sprachgrammatiken 3, 4 und 5 vorab als Sprachgrammatik definiert und abgelegt ist, sondern dass diese Sprachgrammatiken 3, 4 und 5 während der Kommunikation dynamisch erstellt werden. Dies kann insbesondere abhängig von einem während der Kommunikation auftretenden spezifischen Kontext erfolgen. Beispielsweise kann hier vorgesehen sein, dass kontextspezifische Schlagwörter oder dergleichen in dem Kommunikationssystem 1 abgelegt sind und abhängig von dem Erkennen eines derartigen Schlagworts oder einer Schlagwortphrase in einer Eingabe des Nutzers kann dann automatisch und dynamisch eine Erstellung einer spezifischen Sprachgrammatik 3, 4 oder 5 erfolgen. Beispielsweise können dazu aus einer extern bereitgestellten Datenbasis die erforderlichen Informationen und Elemente für eine derartig dynamisch zu erstellende Sprachgrammatik abgerufen werden und dann in dem System 1 abgelegt werden.
Merkmale und Merkmalskombinationen eines erläuterten Ausführungsbeispiels können auch als zusätzliche Merkmale oder Merkmalskombinationen zu anderen Ausführungsbeispielen hinzugezogen werden. Die durch das Ausführungsbeispiel erläuterten Möglichkeiten sind somit nicht als abschließend zu verstehen, sondern es sind darüber hinaus eine Vielzahl weiterer Merkmalskombinationen und Kombinationen von Ausführungsbeispielen möglich, wobei in diesem Zusammenhang auch erwähnt werden kann, dass Merkmale eines Ausführungsbeispiels weggelassen werden können, um mit einem oder mehreren Merkmalen eines anderen Ausführungsbeispiels kombiniert werden zu können.

Claims

Kommunikationssystem mit einem Nutzer und einer Kommunikationseinrichtung (2), welche zur Verarbeitung von akustischen Signalen des Nutzers ausgebildet ist, und einer für die Kommunikation bereitgestellten und in der Kommunikationseinrichtung (2) abgelegten ersten (3, 4, 5) und zumindest einer von der ersten unterschiedlichen zweiten Sprachgrammatik (3, 4, 5), und einer Auswahleinheit, welche abhängig von einem als Eingabe (6, 8, 10, 12) erzeugten akustischen Signal des Nutzers zumindest eine der Sprachgrammatiken (3, 4, 5) zur Erzeugung einer Ausgabe (7, 9, 11, 13) auswählt, wobei die Sprachgrammatiken (3, 4, 5) unterschiedlichen Kontexten (A, B) zugeordnet sind, und die Auswahleinheit abhängig von einem in dem akustischen Signal kontextspezifischen Signalanteil eine Sprachgrammatik (3, 4, 5) auswählt, dadurch gekennzeichnet, dass jede Sprachgrammatik (3, 4, 5) kontextfreie und kontextabhängige Teile aufweist und bei einem Erkennen eines einem kontextabhängigen Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers die ausgewählte Sprachgrammatik (3, 4, 5) unverändert bleibt und bei einem Erkennen eines einem kontextfreien Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers ein Wechsel der Sprachgrammatik durchführbar ist.
Kommunikationssystem nach Anspruch 1, bei welchem ein Kontext (A, B) eine spezifische Gesprächssituation oder ein spezifisches Gesprächsthema ist.
Kommunikationssystem nach Anspruch 1 oder 2, bei welchem abhängig von einem durch die Kommunikationseinrichtung (2) erkannten Wechsel eines Kontextes (A, B) die Sprachgrammatik (3 4, 5) gewechselt wird.
Kommunikationssystem nach einem der vorhergehenden Ansprüche, bei welchem der Wechsel der Sprachgrammatik (3, 4, 5) beim Erkennen eines kontextfreien Teils in dem Signalteil abhängig von einem weiteren, einem anderen Kontext (A, B) zugehörigen Signalteil des akustischen Signals durchgeführt wird.
Kommunikationssystem nach einem der vorhergehenden Ansprüche, bei welchem die Kommunikationseinrichtung (2) eine Anzeigeeinheit aufweist, auf welche die in der Kommunikation mit dem Nutzer anzuzeigenden Informationen dargestellt werden und die Darstellung durch ein anzeigbares virtuelles Wesen, insbesondere einen Avatar, unterstützt ist.
Kommunikationssystem nach einem der vorhergehenden Ansprüche, bei welchem die Kommunikationseinrichtung (2) in einem Fahrzeug angeordnet ist.
Kommunikationssystem nach einem der vorhergehenden Ansprüche, bei welchem die Kommunikationseinrichtung (2) zur Verarbeitung von Sprachsignalen des Nutzers und zur Ausgabe von Sprachsignalen ausgebildet ist.
Kommunikationssystem nach einem der vorhergehenden Ansprüche, bei welchem eine weitere Sprachgrammatik (3, 4, 5) abhängig von einem als Eingabe (6, 8, 10, 12) ausgebildeten akustischen Signal des Nutzers zur dynamischen Erstellung der weiteren Sprachgrammatik (3, 4, 5) während (oder nach) der Kommunikation zwischen dem Nutzer und der Kommunikationseinrichtung (2) ausgebildet ist.
Kommunikationssystem nach einem der vorhergehenden Ansprüche, bei welchem eine Sprachgrammatik (3, 4, 5) durch Wörter und/oder Satzteile und/oder unterschiedliche Formulierungen von Fragen und/oder Befehlen und/oder Normalsätze zu einem Kontext (A, B) oder einem Unteraspekt eines Kontextes (A, B) aufweist.
Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung (2), welche zur Verarbeitung von akustischen Signalen des Nutzers ausgebildet ist, bei welchem in der Kommunikationseinrichtung (2) eine erste (3, 4, 5) und zumindest eine von der ersten unterschiedliche zweite Sprachgrammatik (3, 4, 5) abgelegt werden, und abhängig von einem bei der Kommunikation als Eingabe (6, 8, 10, 12) erzeugten akustischen Signal des Nutzers zumindest eine der Sprachgrammatiken (3, 4, 5) ausgewählt wird, wobei die Sprachgrammatiken (3, 4, 5) unterschiedlichen Kontexten (A, B) zugeordnet werden, und abhängig von einem in dem akustischen Signal kontextspezifischen Signalanteil eine Sprachgrammatik (3, 4, 5) ausgewählt wird, und wobei jede Sprachgrammatik (3, 4, 5) kontextfreie und kontextabhängige Teile aufweist und bei einem Erkennen eines einem kontextabhängigen Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers die ausgewählte Sprachgrammatik (3, 4, 5) unverändert bleibt und bei einem Erkennen eines einem kontextfreien Teil zugehörigen Signalteils in dem akustischen Signal des Nutzers ein Wechsel der Sprachgrammatik durchführbar ist.