DE102013223036A1

DE102013223036A1 - Adaptionsverfahren und -systeme für Sprachsysteme

Info

Publication number: DE102013223036A1
Application number: DE102013223036.2A
Authority: DE
Inventors: Ron M. Hecht; Timothy J. Grost; Ute Winter; Robert D. Sims
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2012-11-13
Filing date: 2013-11-12
Publication date: 2014-05-15
Anticipated expiration: 2033-11-13
Also published as: DE102013223036B4; CN103811002B; US9601111B2; CN103811002A; US20140136200A1

Abstract

Es werden Verfahren und Systeme für das Adaptieren eines Sprachsystems bereitgestellt. In einem Beispiel beinhaltet ein Verfahren: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf der Evaluierung.

Description

Diese Anmeldung beansprucht den Nutzen der vorläufigen US-Anmeldung Nr. 61/725,802, eingereicht am 13. November 2012, welche hier als Referenz eingearbeitet ist.
TECHNISCHER BEREICH
Der technische Bereich bezieht sich im Allgemeinen auf Sprachsysteme, und spezieller ausgedrückt bezieht er sich auf Verfahren und Systeme für das Adaptieren von Komponenten der Sprachsysteme, basierend auf Daten, welche aus Benutzer-Interaktionen und/oder aus einem oder mehreren Systemen, zum Beispiel eines Fahrzeugs, bestimmt sind.
HINTERGRUND
Fahrzeug-Sprachsysteme führen eine Spracherkennung bezüglich der Sprache durch, welche von einem Insassen des Fahrzeugs geäußert wird. Die Sprachäußerungen beinhalten typischerweise Befehle, welche ein oder mehrere Merkmale oder andere Systeme, welche von dem Fahrzeug zugreifbar sind, steuern. Die Sprachsysteme nutzen generische Erkennungstechniken, so dass Sprachäußerungen von irgendeinem Insassen des Fahrzeugs erkannt werden können. Sprach-Dialogsysteme steuern einen Dialog mit einem Benutzer des Fahrzeugs basierend auf den Befehlen. Der Dialog ist typischerweise generisch bzw. arttypisch für alle Benutzer.
Entsprechend ist es wünschenswert, Verfahren und Systeme für das Adaptieren bzw. Anpassen von Fahrzeugsprachsystemen, basierend auf den Insassen des Fahrzeugs und/oder der kontextbezogenen Umgebung des Fahrzeugs und/oder des Insassen, bereitzustellen. Außerdem werden andere wünschenswerte Merkmale und Charakteristika der vorliegenden Erfindung aus der nachfolgenden detaillierten Beschreibung und den angehängten Ansprüchen offensichtlich, welche in Verbindung mit den beigefügten Zeichnungen und dem vorhergegangenen technischen Bereich und Hintergrund gegeben werden.
ZUSAMMENFASSUNG
Verfahren und Systeme für das Adaptieren eines Sprachsystems werden bereitgestellt. In einem Beispiel beinhaltet ein Verfahren: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf dem Evaluieren.
In einem anderen Beispiel bearbeitet ein erstes Modul einen gesprochenen Befehl mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen. Ein zweites Modul evaluiert eine Frequenz der Modellergebnisse. Ein drittes Modul aktualisiert selektiv eine oder mehrere Modelle des einen oder mehrerer Modelltypen basierend auf der Evaluierung.
BESCHREIBUNG DER ZEICHNUNGEN
Die beispielhaften Ausführungsformen werden hier nachfolgend in Verbindung mit den folgenden gezeichneten Figuren beschrieben, wobei ähnliche Ziffern ähnliche Elemente bezeichnen, und worin:
1 ein Funktionsblockdiagramm eines Fahrzeuges ist, welches ein Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen beinhaltet;
2 bis 6 Datenflussdiagramme sind, welche ein Adaptionsmodul des Sprachsystems entsprechend zu verschiedenen beispielhaften Ausführungsformen darstellen; und
7 bis 10 Ablauffolge- bzw. Sequenz-Diagramme sind, welche Adaptionsverfahren darstellen, welche durch das Sprachsystem entsprechend zu verschiedenen Ausführungsformen durchgeführt werden können.
DETAILLIERTE BESCHREIBUNG
Die folgende detaillierte Beschreibung ist in ihrer Art nur beispielhaft, und es ist nicht beabsichtigt, die Anmeldung und deren Gebrauch zu begrenzen. Außerdem gibt es keine Absicht, an irgendeine ausgedrückte oder beinhaltet Theorie gebunden zu sein, welche in dem vorhergegangenen technischen Bereich, Hintergrund, der kurzen Zusammenfassung oder der folgenden detaillierten Beschreibung präsentiert wird. Wie es hier gebraucht wird, bezieht sich der Term Modul auf eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, speziell zugeordnet oder Gruppe) und einen Speicher, welcher eines oder mehrere Software- oder Firmware-Programme ausführt, eine kombinierte logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktionalität bereitstellen.
Mit anfänglichem Bezug auf 1 wird entsprechend zu beispielhaften Ausführungsformen der vorliegenden Offenbarung ein Sprachsystem 10 gezeigt, welches innerhalb eines Fahrzeugs 12 beinhaltet ist. Das Sprachsystem 10 stellt eine Spracherkennung und einen Dialog für ein oder mehrere Fahrzeugsysteme über ein Human Machine Interface- bzw. Mensch-Maschine-Schnittstellen-(HMI-)Modul 14 bereit. Derartige Fahrzeugsysteme können zum Beispiel beinhalten, sind jedoch nicht darauf begrenzt, ein Telefonsystem 16, ein Navigationssystem 18, ein Mediensystem 20, ein Telematiksystem 22, ein Netzsystem 24 oder irgendein anderes Fahrzeugsystem, welches eine sprachabhängige Anwendung beinhalten kann. Wie gewürdigt werden kann, sind eine oder mehrere Ausführungsformen des Sprachsystems 10 bei anderen Nicht-Fahrzeugsystemen anwendbar, welche sprachabhängige Anwendungen besitzen, und demnach nicht auf das vorliegende Fahrzeugbeispiel begrenzt. Für erläuternde Zwecke wird das Sprachsystem 10 im Kontext des Fahrzeugbeispiels diskutiert.
Das Sprachsystem 10 kommuniziert mit vielen Fahrzeugsystemen 16–24 und/oder mit anderen Fahrzeugsystemen 26 über das HMI-Modul 14 und einen Kommunikationsbus und/oder andere Kommunikationseinrichtungen 28 (z. B. über Draht, über Kurzbereichsfunk oder über Weitbereichsfunk). Der Kommunikationsbus kann zum Beispiel ein CAN-Bus sein, ist jedoch nicht darauf begrenzt.
Allgemein gesprochen, beinhaltet das Sprachsystem 10 ein Adaptionsmodul 30 und ein Automatic Speech Recognition- bzw. Automatische-Spracherkennungs-(ASR-)Modul 32 und ein Dialog-Steuermodul 34. Wie gewürdigt werden kann, können das ASR-Modul 32 und das Dialog-Steuermodul 34 als getrennte Systeme und/oder als ein kombiniertes System, wie gezeigt, implementiert werden. Wie weiter gewürdigt werden kann, können die Module des Sprachsystems 10 alle auf dem Fahrzeug 12 oder teilweise auf dem Fahrzeug 12 und teilweise auf einem Fernsteuerungssystem, wie zum Beispiel einem entfernten Server (nicht gezeigt), implementiert sein.
Das ASR-Modul 32 empfängt und bearbeitet Sprachäußerungen von dem HMI-Modul 14. Einige (z. B. basierend auf einem Vertrauensschwellwert) der erkannten Befehle aus der Sprachäußerung werden zu dem Dialog-Steuermodul 34 gesendet. Das Dialog-Steuermodul 34 steuert eine Interaktions- bzw. Betätigungssequenz und Aufforderungen bzw. Benutzerführungen basierend auf dem Befehl. Das Adaptionsmodul 30 protokolliert verschiedene Sprachdaten und Interaktionsdaten, welche von einem Insassen des Fahrzeugs erzeugt werden (z. B. über das HMI-Modul 14), protokolliert Daten von den verschiedenen Fahrzeugsystemen 16–24 und/oder protokolliert Daten von den verschiedenen anderen Fahrzeugsystemen 26 (z. B. welche keine Sprachanwendungen beinhalten). Das Adaptionsmodul 30 führt eine oder mehrere Lernalgorithmen an den protokollierten Daten durch und adaptiert eine oder mehrere Komponenten des Sprachsystems 10 basierend auf den Lernalgorithmen. In verschiedenen Ausführungsformen adaptiert das Adaptionsmodul 30 Sprachmodelle, welche durch das ASR-Modul 32 des Sprachsystems 10 benutzt werden. In verschiedenen anderen Ausführungsformen adaptiert das Adaptionsmodul 30 Aufforderungen bzw. Benutzerführungen und Interaktions- bzw. Betätigungssequenzen, welche durch das Dialog-Steuermodul 34 des Sprachsystems 10 benutzt werden.
Wie gezeigt wird, ist das Adaptionsmodul 30 in dem Sprachsystem 10 beinhaltet. Wie gewürdigt werden kann, kann in alternativen Ausführungsformen das Adaptionsmodul 30 zum Beispiel in dem HMI-Modul 14 oder als eine eigenständige Anwendung implementiert sein, welche mit dem Sprachsystem 10 kommuniziert. Damit ist die Offenbarung nicht auf das vorliegende Beispiel begrenzt.
Mit Bezug nun auf 2 stellt ein Datenfluss-Diagramm das Adaptionsmodul 30 entsprechend zu verschiedenen Ausführungsformen dar. Wie gewürdigt werden kann, können verschiedene Ausführungsformen der Adaptionsmodule 30 entsprechend der vorliegenden Offenbarung jegliche Anzahl von Untermodulen beinhalten. Zum Beispiel können die Untermodule, welche in 2 gezeigt werden, kombiniert werden und/oder weiter auf ähnliche Adaptionsteilbereiche des Sprachsystems 10 (1) aufgeteilt werden.
In verschiedenen beispielhaften Ausführungsformen beinhaltet das Adaptionsmodul 30 ein Datenlogger- bzw. Datensammelmodul 36, ein Daten-Analysiermodul 38, ein System-Aktualisierungsmodul 40, einen Protokolldaten-Datenspeicher 42 und einen Systemdaten-Datenspeicher 44. Die Datenspeicher 42, 44 können zeitweise oder andauernd Daten des Systems 10 speichern.
Das Datenlogger-Modul 36 protokolliert bzw. sammelt Daten von verschiedenen Quellen des Fahrzeugs 12 (z. B. der Fahrzeugsysteme 16–24 und/oder der anderen Fahrzeugsysteme 26) in dem Protokoll- bzw. Aufzeichnungsdaten-Datenspeicher 42. Die Daten können zum Beispiel beinhalten, sind jedoch nicht begrenzt darauf: Fahrzeugdaten 46, Fahrzeugkontextdaten 48, Sprachsystemdaten 50 und Benutzer-Interaktionsdaten 52. Die Fahrzeugdaten 46 können zum Beispiel beinhalten: Geschwindigkeitsdaten, Umgebungsgeräusch-Pegeldaten, Passagier- bzw. Insassendaten (z. B. eine Anzahl von Passagieren, welche in dem Fahrzeug 12 detektiert sind), Fahrzeugsystemdaten (z. B. eine Anzahl der freigegebenen Fahrzeugsysteme), etc. Die Fahrzeugkontextdaten 48 können zum Beispiel beinhalten: Fahrzeugortsdaten, Straßenartdaten, Wetterdaten, Verkehrsdaten, etc. Die Sprachsystemdaten 40 können zum Beispiel beinhalten: gesprochene Befehlsdaten (z. B. Daten über von einem Insassen des Fahrzeugs 12 gesprochene Befehle) und Leistungsdaten (z. B. Daten über die Erkennungsleistung der gesprochenen Befehle). Die Benutzer-Interaktionsdaten 52 können zum Beispiel beinhalten: Interaktions-Sequenzdaten, Frequenzdaten der Benutzeranforderungen und Daten von anderen HMI-Modalitäten, wie zum Beispiel von Gesten-Interaktionsdaten des Berührungsschirmes oder von Anzeigedaten.
Das Daten-Analysiermodul 38 ruft die protokollierten Daten aus dem Protokolldaten-Datenspeicher 42 ab und analysiert die protokollierten Daten, um zu bestimmen, ob eine oder mehrere Sprachmodelle, welche von dem Sprachsystem 10 benutzt werden, zu adaptieren sind, ob Aufforderungen bzw. Benutzerführungen, welche durch das Sprachsystem 10 präsentiert werden, zu adaptieren sind und/oder ob Interaktionssequenzen oder Dialoge, welche durch das Sprachsystem bereitgestellt werden, zu adaptieren sind. Wenn bestimmt ist, dass eines oder mehrere der Sprachmodelle, der Benutzerführungen und der Interaktionssequenzen adaptiert werden sollten, werden vorgeschlagene Aktualisierungen als ein aktualisiertes Sprachmodell 43 oder als ein aktualisiertes Benutzerprofil 56, welches aktualisierte Benutzerführungen und/oder aktualisierte Interaktionssequenzen beinhaltet, erzeugt.
Das System-Aktualisierungsmodul 40 empfängt als Eingabe die aktualisierten Sprachmodelle 54 und das aktualisierte Benutzerprofil 56. Das System-Aktualisierungsmodul 40 speichert oder aktualisiert Sprachmodelle, Benutzerführungen und/oder Interaktionssequenzen aus dem Systemdaten-Datenspeicher 44 basierend auf den eingegebenen Eingaben. Wenn zum Beispiel ein aktualisiertes Sprachmodell 54 empfangen wird, kann das Aktualisierungs-Sprachmodell 54 mit einem Ursprungsmodell kombiniert werden, um zum Beispiel ein robusteres Sprachmodell zu bilden, indem das kleinere Sprachmodell (d. h. das aktualisierte Sprachmodell 54) für die kürzeren Verlaufs- bzw. Historie-Verteilungen (Unigram) benutzt werden und indem das detailliertere Sprachmodul (d. h. das gespeicherte Sprachmodul) für die eingestellte höhere-Historie-Verteilung (Trigram) benutzt wird. In einem anderen Beispiel kann das Benutzerprofil 56, welches die Benutzerführungen und/oder die Interaktionssequenzen beinhaltet, für den Gebrauch bei einem speziellen Benutzer gespeichert werden.
Mit Bezug nun auf 3–6 stellen Datenablaufdiagramme das Daten-Analysiermodul 38 der 2 entsprechend zu verschiedenen Ausführungsformen dar. Wie gewürdigt werden kann, können verschiedene Ausführungsformen der Daten-Analysiermodule 38 entsprechend der vorliegenden Offenbarung jegliche Anzahl von Untermodulen beinhalten. Zum Beispiel können die Untermodule, welche in 3–6 gezeigt werden, kombiniert werden und/oder weiter unterteilt werden, um in ähnlicher Weise die protokollierten Daten zu analysieren und Teilbereiche des Sprachsystems 10 zu adaptieren. Eingaben des Daten-Analysiermoduls 38 können aus dem Protokolldaten-Datenspeicher 42 abgerufen werden und/oder direkt von dem HMI-Modul 14 und/oder von einem oder mehreren der Fahrzeugsysteme 16–26 abgerufen werden. In verschiedenen Ausführungsformen beinhaltet das Daten-Analysiermodul 38 ein Benutzer-Charakterisierungs-Adaptiermodul 62, ein Benutzerkompetenz-Adaptiermodul 64, ein Kontextdaten-Adaptiermodul 66 und/oder ein Systemmodell-Adaptiermodul 68. Wie gewürdigt werden kann, kann das Daten-Analysiermodul 38 nur eines der gezeigten Module beinhalten oder kann jegliche Kombination der gezeigten Module beinhalten und ist nicht auf das vorliegende Beispiel begrenzt.
Das Benutzer-Charakterisier-Adaptierungsmodul 62 ruft die aufgezeichneten Daten von dem Protokolldaten-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die aufgezeichneten Daten gesprochene Befehle 70, welche von dem Benutzer gesprochen wurden, und eine Darbietung bzw. Ausführung 72 der gesprochenen Befehle 70. Das Benutzer-Charakterisierungs-Adaptionsmodul 62 analysiert die Befehle 70 für verschiedene Charakteristika. Die Charakteristika können zum Beispiel beinhalten, sind jedoch nicht darauf begrenzt: Wortschatz, relationales Gespräch, Informationsverteilung, Benutzerdemographie, Ton der Kommunikation (z. B. Höflichkeitsphrasen), Alter und Geschlecht. In verschiedenen Ausführungsformen verfolgt das Benutzer-Charakterisierungs-Adaptionsmodul 62, wie oft der Befehl 70 zu einer speziellen Charakteristik gehört. Sobald der Befehl 70 der speziellen Charakteristik mit einer bestimmten Frequenz zugeordnet worden ist, bestimmt das Benutzer-Charakterisierungs-Adaptionsmodul 62 ein Sprachmodell 74 basierend auf den Charakteristika des Befehls 70 oder erzeugt ein neues Sprachmodell 74, indem mehrere Sprachmodelle (mit oder ohne Wichtungen) basierend auf den Charakteristika kombiniert werden.
In verschiedenen Ausführungsformen, wie in 4 gezeigt wird, beinhaltet das Benutzer-Charakterisierungs-Adaptionsmodul 62 ein oder mehrere charakteristische Detektormodule 100a–100n und ein Sprachmodell-Auswahlglied und ein Zusammenlegungsmodul 102. Jedes charakteristische Detektormodul 100 analysiert den Befehl 70 nach einer oder mehreren Charakteristik bzw. Charakteristika (105a–105n). In verschiedenen beispielhaften Ausführungsformen geben die charakteristischen Detektormodule 100a–100n eine oder mehrere Charakteristika 105a–105n basierend darauf aus, ob der spezielle Befehl 70 zu einer speziellen Charakteristik gehört und/oder in einen bestimmten Bereich einer speziellen Charakteristik bzw. spezieller Charakteristika fällt. Das Sprachmodell-Auswahlglied und das Zusammenlegungsmodul 102 bestimmen das Sprachmodell 74 basierend auf der detektierten Charakteristik bzw. Charakteristika 105a–105n. In verschiedenen Ausführungsformen bestimmt das Sprachmodell-Auswahlglied und das Zusammenlegungsmodul 102 das geeignete Sprachmodell 74 aus den vorher gespeicherten Modellen oder einer gewichteten Kombination der Modelle.
In verschiedenen Ausführungsformen können die charakteristischen Detektormodule 100a–100n sein: ein Wortschatz-Detektormodul, ein Höflichkeits-Detektormodul, ein Informationsverteilung-Detektormodul, ein Domäneverteilungs-Detektormodul, ein Formalitätspegel-Detektormodul, ein Alter-Detektormodul, ein Dialekt-Detektormodul und/oder ein Geschlechts-Detektormodul.
Das Wortschatz-Detektormodul analysiert zum Beispiel den Befehl 70 und schätzt den Prozentsatz der Ausschmückung und der nicht-funktioneller Wörter in der Aussprache ab und vergleicht diese mit einer bekannten Verteilung des Wortschatzes. Das Höflichkeits-Detektormodul zum Beispiel analysiert den Befehl 70 und extrahiert alle Anzeigewörter auf der Höflichkeitsebene. Ein gewichteter Betrag und Beziehungen innerhalb der unterschiedlichen Indikatorwörter werden dann benutzt, um den Grad an Höflichkeit zu detektieren. Das Informationsverteilung-Detektormodul zum Beispiel analysiert den Befehl 70, um einen Ort und die Menge der erforderlichen Informationen (auch als die Slot-Informationen bzw. Spalten-Informationen bekannt) zu detektieren. Basierend auf dieser Information kann das Informationsverteilung-Detektormodul einen Benutzer detektieren, welcher dazu neigt, die Information als eine einzelne Äußerung zu liefern, und einen Benutzer, welcher dies Stück für Stück durchführt.
Das Domäneverteilungs-Detektormodul analysiert zum Beispiel den Befehl 70 und detektiert eine Domäne bzw. ein Hauptgebiet basierend auf einem Vergleich zum historischen Verhalten des Benutzers. Das Formalitätspegel- bzw. -ebene-Detektormodul zum Beispiel analysiert den Befehl 70 und extrahiert das Vokabular. Das Vokabular jedes Pegels der Formalität ist die Grundlage des Raumes, in welchem das Detektieren stattfindet. Der Pegel bzw. die Ebene kann durch das Anwenden einer normierten Abstandsmessung bestimmt werden. Das Alter-Detektiermodul zum Beispiel analysiert die Äußerung des Befehls und benutzt ein Gaußsches-Mischungsmodell (GMM), um die Äußerung mit einem Bezugsmodell für jedes Alter oder jede Altersgruppe zu vergleichen.
Das Dialekt-Detektormodul zum Beispiel analysiert den Befehl 70 und extrahiert akustische Merkmale. Indem zum Beispiel Ankermodell-Techniken benutzt werden, wird eine Signatur erzeugt und Abstände werden gemessen. Das Geschlechts-Detektormodul zum Beispiel analysiert den Befehl 70, extrahiert akustische Merkmale und schätzt eine GMM-Verteilung für jedes Geschlecht. Durch das Übertragen des GMM in einen Supervektor (SV) wird ein Abstand geschätzt und eine Entscheidung durchgeführt. Wie gewürdigt werden kann, können andere Verfahren und Techniken von jedem der Detektormodule 100a–100n durchgeführt werden. Demnach ist die Offenbarung nicht auf die vorliegenden Beispiele begrenzt.
Mit Bezug zurück auf 3 ruft das Benutzerkompetenz-Adaptierungsmodul 64 abgelegte bzw. gesammelte Daten aus dem Protokolldaten-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die protokollierten Daten gesprochene Befehle 76, welche von einem Benutzer gesprochen sind, und eine Darbietung 78 der gesprochenen Befehle 76. Das Benutzerkompetenz-Adaptierungsmodul 64 analysiert die Befehle 76 basierend auf der Darbietung 78 der Befehle 76. In verschiedenen Ausführungsformen kann die Darbietung 78 im Allgemeinen Parameter und Messungen für den Aufgaben-Erfüllungserfolg und für wiederauftretende Fehler des Benutzers und/oder Systems beinhalten. Zum Beispiel können die Parameter und Messungen eine Aufgaben-Erfüllungsrate und -zeit, Arbeits-Unterbrechungsereignisse, Antwortzeiten, Bestätigungs- und Begriffserklärungszyklen, Hilfeanforderungen und alle Ereignisse, welche von einer effizienten und erfolgreichen Interaktions- bzw. Betätigungsfolge abweichen, enthalten.
Das Benutzerkompetenz-Adaptionsmodul 64 analysiert die Befehle 76, um die Felder bzw. Muster zu identifizieren. Das Benutzerkompetenz-Adaptionsmodul 64 stellt vorgeschlagene Einstellungen für die Aufforderungen bzw. Benutzerführungen 80 und/oder Einstellungen für Interaktionssequenzen 82 basierend auf den identifizierten Mustern bereit. Die vorgeschlagenen Einstellungen können als Teil des Benutzerprofils 56 bereitgestellt werden (2). Zum Beispiel können die Benutzerführungen 80 in dem Benutzerprofil 56 aktualisiert werden, um mehr Hilfe und einen engeren Antwortraum zu enthalten, nachdem wiederholte Fehler durch den Benutzer oder das System identifiziert sind; und die Benutzerführungen 80 in dem Benutzerprofil 56 können zurück in Original-Benutzerführungen gewandelt werden, nachdem bestimmt ist, dass der Benutzer oder Systembenutzer ein optimales Interaktionsverhalten lernt. In verschiedenen Ausführungsformen können die Interaktionssequenzen 82 des Benutzerprofils 56 adaptiert werden, um den Benutzer eine höhere Initiative zu gestatten, nachdem bestimmt ist, dass der Benutzer das Interaktionsmuster gelernt hat. Dieses Adaptieren der Benutzereinstellungen fördert basierend auf einer Benutzerkompetenz eine verbesserte Benutzerkompetenz und erstellt ein Interaktionsmuster mit einer höheren Aufgaben-Erfüllungsrate.
Zum Beispiel kann ein Benutzer sehr vertraut mit Sprachsystemen im Allgemeinen sein, wobei er sie häufig nutzt, um Anwendungen über sein Mobiltelefon freizugeben. Deshalb besitzt er eine gleichbleibende Weise, seine Anforderung in einer Äußerung in einem Zug auszudrücken, wobei er selten Information später in einem darauffolgenden Dialog anzufügen hat. Nachdem das Benutzerkompetenz-Adaptionsmodul 64 die Perspektive gewinnt und dieses Muster lernt, kann es entscheiden, Minimalbefehle zu benutzen, um den Dialog effizient und die Aufgaben-Erfüllungszeit kurz zu halten.
In einem weiteren Beispiel kann der gleiche Benutzer es bevorzugen, Suchanforderungen durchzuführen, wie zum Beispiel nach einem Restaurant zu suchen (z. B. einem Point of Interest bzw. Punkt von Interesse (POI-Suche)). Basierend auf seiner Mobiltelefon-Erfahrung hat er die Gewohnheit entwickelt, durch eine große Suchliste zu gehen und die Interaktion auf dem Display fortzuführen, wobei er gründlich in die Optionen schaut und diese auswählt. Er kann darüber verwirrt sein, wie er durch Sprache eine Auswahl treffen soll, wenn die Anzeige den Suchinhalt aufgrund der Fahrsituation signifikant reduziert. Nachdem das Benutzerkompetenz-Adaptionsmodul 64 die Perspektive gewinnt und dieses Muster lernt, kann es entscheiden, den Benutzer Schritt für Schritt und mit hilfreichen Benutzerführungen durch diese spezielle Dialogsituation zu führen, so dass der Benutzer über die Zeit hinweg versteht, wie in den Optionen zu suchen ist.
In noch einem anderen Beispiel kann ein anderer Benutzer mit der Sprache nicht vertraut sein. Er versteht den Vorteil während des Fahrens und beginnt, mit Hilfe der Sprache einige seiner Kontakte aus seiner Kontaktliste anzurufen oder die Radiostation abzugleichen. Der Benutzer spricht über die Maßen langsam und laut, so dass das System beim Erkennen der meisten der Anforderungen Schwierigkeiten hat. Dies führt zu Bestätigungszyklen für falsch erkannte Kontakte oder Radiostationen. Der Benutzer wird irritiert und wird bei diesen Fehler-Wiederherstellungszyklen zögerlich in seinen Antworten. Das Benutzerkompetenz-Adaptionsmodul 64 beobachtet Arbeitsunterbrechungsereignisse, lange Antwortzeiten oder Wortschatz-Benutzeräußerungen für Bestätigungszyklen und führt den Benutzer durch diese Situationen durch das Hinzufügen möglicher Antworten, hilfreicher Hinweise oder das Ändern des Befehls zu strikten Ja/Nein-Antworten.
In verschiedenen beispielhaften Ausführungsformen, wie dies in 5 gezeigt wird, beinhaltet das Benutzerkompetenz-Anpassungsmodul 64 ein oder mehrere Muster-Detektierungsmodule 104a–104n, ein oder mehrere Einstellungs-Berechnungsmodule 106 und ein oder mehrere Benutzerprofil-Adaptierungsmodule 108. Das eine oder mehrere Muster-Detektierungsmodule 104a–104n analysieren die Daten, um spezielle Muster 107a–107n zu identifizieren. Das eine oder mehrere Einstellungs-Berechnungsmodule 106 bestimmen Einstellungen 109 basierend auf den detektierten Mustern 107a–107n. Das eine oder mehrere Benutzerprofil-Adaptierungsmodule 108 stellen die System-Benutzerführungen 80 und/oder die Interaktionssequenzen 82 für das Benutzerprofil 56 (2) basierend auf den Einstellungen 109 bereit.
Die Muster-Detektormodule 104a–104n identifizieren Muster 107a–107n, welche sich zum Beispiel auf Aufgaben-Erfüllungsrate und -zeit, Arbeits-Unterbrechungsereignisse, Benutzer-Antwortzeiten, Benutzerabweichung von effizient formulierten Aussprachen (z. B. Verzögerungen, Pausen, Wortschatz, etc.), ein niedriges Systemvertrauen, welches in Bestätigungszyklen resultiert, mehrdeutige Benutzeräußerungen, welche in Begriffserklärungszyklen resultieren, Hilfe-Anforderungen und alle Ereignisse, welche von einer effizienten und erfolgreichen Interaktionsfolge abweichen. Wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf eine Aufgaben-Erfüllungsrate und -zeit bezieht, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, welche die System-Benutzerführungen in mehr informative System-Benutzerführungen verändert, wenn die Rate unterhalb eines bestimmten Schwellwerts liegt. In verschiedenen Ausführungsformen, wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf Arbeits-Unterbrechungsereignisse, Benutzer-Antwortzeiten oder Benutzerabweichung von effizient formulierten Äußerungen bezieht, prüft das Einstellungs-Berechnungsgliedmodul 106 eine Beziehung zu einem aktuellen Dialogschritt, wenn der Dialogschritt wiederholt in dem gleichen Schritt ist, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die Benutzerführung und die Interaktionsfolge in kleinere Schritte mit geschlossenen Systemfragen zu verändern, für welche der Benutzer leicht weiß, wie er eine Antwort zu geben hat (z. B. da der mögliche Antwortraum eng ist).
Wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf niedriges Systemvertrauen bezieht, welches zu Bestätigungszyklen führt, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die Benutzerführungen in mehr informative System-Benutzerführungen zu ändern, so dass der Benutzer weiß, wie er zu antworten hat. Wenn das Muster-Detektormodul 104a ein Muster detektiert, welches sich auf mehrdeutige Benutzeräußerungen bezieht, welche zu Begriffserklärungszyklen führen, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die Benutzerführungen in System-Benutzerführungen zu ändern, welche dem Benutzer sagen, wie er genug Information in seine Antwort legt, um sie nicht mehrdeutig zu machen. In verschiedenen Ausführungsformen, wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf Hilfe-Fragen bezieht, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die System-Benutzerführungen in informativere Benutzerführungen zu verändern. Eine derartige Muster-Detektierung kann durch das Sammeln von Benutzerdaten durchgeführt werden, welche sich auf Erkennungskonfusionen des Systems beziehen, welche zum Beispiel dadurch detektiert sind, dass der Benutzer eine Bestätigung oder Mehrdeutigkeitsanforderungen zurückgewiesen oder korrigiert hat. In einem derartigen Fall werden die Daten in Konfusionsmatrizen gespeichert, welche wiederauftretende Konfusionen über die Zeit hinweg anzeigen.
Für alle identifizieren Muster, welche oben aufgelistet sind, sobald die Muster-Detektormodule 104a–104n bestimmen, dass das Verhalten des Benutzers sich verändert hat, um effizienter und/oder leichter zu erkennen zu sein, erzeugt das Einstellungs-Berechnungsglied 106 Einstellungen 109, um die Sprachsystem-Benutzerführungen und/oder die Interaktionsfolge zurück zu einer ursprünglichen Einstellung zu verändern, wobei angenommen wird, dass der Benutzer Fachkenntnis im Benutzen des Systems gewonnen hat.
Mit Bezug zurück zu 3 ruft das Kontextdaten-Adaptionsmodul 66 aufgezeichnete Daten bzw. Protokoll-Daten von dem Datenaufzeichnungs-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die aufgezeichneten Daten Fahrzeugdaten 84, Fahrzeugkontextdaten 86 und Sprachsystemdaten 88. Die Fahrzeugdaten 84 können beinhalten, sind jedoch nicht darauf beschränkt: Fahrzeuggeschwindigkeitsdaten oder irgendwelche anderen Daten, welche in dem Kommunikationsbus 28 verfügbar sind. Die Fahrzeugkontextdaten 86 können beinhalten, sind jedoch nicht darauf begrenzt: aktueller Fahrort und aktuelle Fahrzeit, eine Straßenart, Verkehrsinformation, Wetter, einen Umgebungsgeräuschpegel, eine Anzahl von Insassen, eine Anzahl von angeschlossenen Benutzereinrichtungen, jegliche freigegebenen Internet- oder andere HMI-Anwendungen, jegliche freigegebenen Fahrzeugsysteme (d. h. Klimasteuerung, Fahrgeschwindigkeitssteuerung, Lichter, Getriebe, Scheibenwischer, etc.) oder jegliche anderen Daten, welche auf dem Kommunikationsbus oder direkt von den Fahrzeugsystemen 16–26 verfügbar sind. Die Sprachsystemdaten 88 können beinhalten, sind jedoch nicht begrenzt auf: die Sprache, welche von dem Benutzer geäußert wird, die Sprachdarbietung und/oder andere Sprachcharakteristika, welche durch das Sprachsystem 10 identifiziert sind.
Das Kontextdaten-Adaptionsmodul 66 analysiert die aufgezeichneten Daten und detektiert wiederauftretende Muster zwischen dem Kontext, in welchem der Benutzer das System benutzt, und dem Interaktionsverhalten des Benutzers, wenn er das Sprachsystem 10 benutzt. Das Kontextdaten-Adaptionsmodul 66 stellt Aktualisierungen für die Aufgabenbevorzugungen 90 des Benutzers, Befehlspräferenzen 92 natürlicher Sprache und/oder Interaktionsfolge-Präferenzen 94 basierend auf den Mustern bereit. In verschiedenen Ausführungsformen werden die Einstellungen als Teil des Nutzerprofils 56 bereitgestellt (2).
Zum Beispiel stellen die Verkehrsdaten Information über einen Verkehrsstau auf der Route, auf welcher der Fahrer fährt, bereit. Zusätzlich unterstützen Geschwindigkeitsdaten von dem CAN-Bus, dass der Fahrer in dem Verkehrsstau ist, und Sicherheitssysteme (Sicherheitsgurt-Einstellungen) deuten an, dass er alleine in dem Wagen ist. Durch das Auswerten der aufgezeichneten Daten detektiert das Muster-Detektormodul 110a, dass der Benutzer eine große Anzahl von Telefonanrufen durchführt oder E-Mails diktiert, simst oder seinen Kalender zu diesen Zeiten aktualisiert. Das Benutzerprofil 56 (2) wird aktualisiert, um derartige Zeiten zu erkennen und um einen Erkennungsvorteil für diese Arten von Anforderungen während dieser Zustände bereitzustellen, und führt dies mit hoher Genauigkeit aus.
In einem anderen Beispiel fährt ein Fahrer mit anderen Leuten am Wochenende. Eine anfängliche Navigationsanforderung schlägt eine längere Fahrt zu einem Punkt von Interesse (POI) vor, welcher häufig von Touristen besucht wird. Zusätzlich hat der Fahrer sein iPod angeschlossen und verlangt danach, bestimmte Lieder zu hören. Durch das Auswerten der gesammelten bzw. aufgezeichneten Daten detektiert das Muster-Detektormodul 110a, dass der Fahrer POIs und Audio-Führungen zu POIs auf dem Weg anfordert und fordert an, zu einigen seiner Favoritenlieder oder auf die Audio-Führung zu dem POI von dem iPod bei derartigen Anlässen zu hören. Das Benutzerprofil 56 (2) wird aktualisiert, um derartige Zeiten zu erkennen und einen Erkennungsvorteil für diese Arten von Anforderungen während dieser Bedingungen bzw. Gegebenheiten bereitzustellen, und führt dies mit hoher Genauigkeit durch.
In verschiedenen beispielhaften Ausführungsformen, wie in 6 gezeigt wird, kann das Kontextdaten-Adaptionsmodul 66 beinhalten: ein oder mehrere Muster-Detektormodule 110a–100n, ein oder mehrere Einstellungs-Berechnungsgliedmodule 112 und ein oder mehrere Benutzerprofil-Adaptierungsmodule 114. Die Muster-Detektormodule 110a–100n analysieren die Daten für ein spezielles Muster 115a–115n. Die Muster-Detektormodule 110a–110n zum Beispiel detektieren Kontext-Cluster in Bezug auf Benutzeranforderungen oder Anforderungsarten. Die Einstellungs-Berechnungsgliedmodule 112 bestimmen Benutzerprofil-Einstellungen 117 basierend auf den detektierten Mustern 115a–115n. Die Benutzerprofil-Adaptierungsmodule 114 stellen bereit: Benutzeraufgaben-Präferenzen 90, natürliche Sprachbefehle-Präferenzen 92 und/oder Interaktionsfolge-Präferenzen 94 für den Gebrauch in dem Benutzerprofil 56 (2) basierend auf den Einstellungen 117.
In verschiedenen Ausführungsformen bestimmen die Muster-Detektormodule 110a–110n die Muster durch das Bestimmen einer Zunahme im Benutzerverhalten und durch das Bestimmen eines Musters des Kontextes während der Zunahme im Benutzerverhalten. Das Benutzerverhalten kann von verschiedenen Arten sein und kann sich auf die Frequenz bzw. Häufigkeit des Durchführens einer bestimmten Aufgabenart beziehen, das Benutzen eines bestimmten Vokabulars/Sprache, das Ausführen sich wiederholender Fehler oder das Bevorzugen einer bestimmten Informationsverteilung in seinen Äußerungen (z. B. das Bereitstellen inkrementierter Information in mehr als einer Äußerung gegenüber dem Sagen der gesamten Information, um eine Aufgabe in einer Äußerung zu vervollständigen, etc.). Sobald ein Muster 115a–115n detektiert ist, stellen das Einstellungs-Berechnungsgliedmodul 112 und das Benutzerprofil-Adaptionsmodul 114 Einstellungen 117 und ein Benutzerprofil 56 (2) entsprechend zu dem erkannten Benutzerverhalten in dem Kontext bereit, z. B. entsprechend zu einer Aufgabenpräferenz bzw. -bevorzugung, einer Vokabularpräferenz, einer Kommandopräferenz und/oder einer Interaktionsfolge.
Mit Bezug zurück zu 3 ruft das Systemmodell-Adaptionsmodul 68 die aufgezeichneten bzw. gesammelten Daten von dem Protokolldaten-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die aufgezeichneten Daten einen gesprochenen Befehl 96, welcher von dem Benutzer gesprochen ist. In verschiedenen Ausführungsformen kann der Befehl 96 aus den aufgezeichneten Daten in dem Protokolldaten-Datenspeicher 42 (wie gezeigt) abgerufen werden oder kann alternativ in Echtzeit von dem HMI-Modul 14 (1) empfangen werden, wenn der Benutzer den Befehl spricht. Das Systemmodell-Adaptionsmodul 68 evaluiert den Befehl 96 und bestimmt ein optimales Modell für das Erkennen des Befehls. Zum Beispiel evaluiert das Systemmodell-Adaptionsmodul 68 den Befehl entsprechend wenigstens drei gesprochenen Sprachmodellen und ordnet den Befehl der Sprachäußerung einem der drei Modelle zu. Das Systemmodell-Adaptionsmodul 68 verfolgt, wie oft der Befehl 96 zu dem speziellen Modell gehört. Sobald der Befehl 96 dem speziellen Modell mit einer bestimmten Frequenz bzw. Häufigkeit zugeordnet ist, wird das Modell 98 ausgewählt, um mit dem Befehl 99 aktualisiert zu werden, indem der Befehl 99 dem Modell hinzugefügt wird, oder durch das Entfernen des Befehls 99 von dem Modell. Zusätzlich oder alternativ kann eine Gewichtung oder Wahrscheinlichkeit hinzugefügt werden, welche mit einer beobachteten Häufigkeit des Befehls 99 übereinstimmt oder welche mit einer beobachteten Häufigkeit von Wörtern, Phrasen oder Übergängen von Wörtern zu Wörtern innerhalb eines Befehls 99 übereinstimmt, und das Modell kann mit der Gewichtung oder Wahrscheinlichkeit aktualisiert werden.
Jedes benutzte Modell bietet einen Vorteil in wenigstens einem von Folgendem: der Anzahl von unterstützten Phrasen, der Tiefe der Phrasen, einer Wartezeit der Bearbeitung, der Genauigkeit der Erkennung und der Bearbeitungszeit. Die Kombination der gewählten Modelle stellt Vorteile bei wenigstens zwei der oben aufgelisteten bereit. Zum Beispiel ist in verschiedenen Ausführungsformen das erste Sprachmodell ein festes Modell, welches eine feste Liste von erkennbaren Befehlen beinhaltet, welches als ein festes Listenmodell 116 bezeichnet wird (10). Ein festes Listenmodell 116 bietet den Vorteil der verbesserten Wartezeit, verbesserter Genauigkeit und verbesserter Bearbeitungszeit und kann als ein optimaleres Modell betrachtet werden. Ein derartiges Modell kann eine Finite State Grammar bzw. Finite Status-Grammatik (FSG) beinhalten, ist jedoch nicht darauf begrenzt. Das zweite Sprachmodell besitzt einen breiteren Umfang an Erkennung von Phrasen, welche als ein Modell weiter gefassten Umfangs 118 (7) bezeichnet wird. Ein Modell 118 weiteren Umfangs erkennt einen weiteren Umfang an Befehlen, stellt jedoch eine höhere Wartezeit und verminderte Genauigkeit bereit. Ein derartiges Modell kann ein Statistische-Sprache-Modell (SLM) beinhalten, ist jedoch nicht darauf begrenzt. Das dritte Sprachmodell ist eine Kombination zwischen den zwei Modellen, so dass es die Ergebnisse der beiden Sprachmodelle vermitteln kann, welches als das Vermittlungsgliedmodell 120 bezeichnet wird (10). Ein derartiges Modell kann ein strukturelles Gleichungsmodell (SEM) beinhalten, ist jedoch nicht darauf beschränkt. Wie gewürdigt werden kann, können die Modelle, welche durch das Systemmodell-Adaptionsmodul 68 implementiert sind, jegliche Sprachmodelle sein und sind nicht auf die vorliegenden Beispiele begrenzt.
Wie gewürdigt werden kann, kann das Daten-Analysierungsmodul 38 ein Adaptionsmodul oder jegliche Kombination der oben beschriebenen Adaptionsmodule beinhalten. In dem Fall, in welchem viele Adaptionsmodule implementiert sind, kann sich der Ausgang eines Adaptionsmoduls auf andere Adaptionsmodule stützen und/oder kann auf gewisse Weise durch das System-Aktualisierungsmodul 40 kombiniert werden (2). Durch das Verfolgen der Befehle auf diese Weise und durch das Wandern der Befehle von einem weniger optimalen Modell zu einem optimaleren Modell wird das optimalere Modell als Vorteil hergenommen, ohne die Flexibilität des Systems zu opfern. Demnach wird sich das Erkennen der Befehle über die Zeit hinweg mit weniger Widerholungsanforderungen oder Bestätigungszyklen signifikant verbessern.
Mit Bezug nun auf 7–10 und mit fortlaufendem Bezug auf 1–6 stellen Abfolge- bzw. Sequenz-Diagramme die Adaptionsverfahren dar, welche durch das Sprachsystem 10 entsprechend zu verschiedenen beispielhaften Ausführungsformen durchgeführt werden können. Wie im Lichte der Offenbarung gewürdigt werden kann, ist die Reihenfolge des Betriebes innerhalb der Verfahren nicht auf das sequenzielle Ausführen begrenzt, wie es in 7–10 dargestellt wird, sondern kann in einer oder mehreren variierenden Reihenfolgen durchgeführt werden, wie es mit der vorliegenden Offenbarung anwendbar und entsprechend zu dieser ist. Wie ferner gewürdigt werden kann, kann einer oder mehrere Schritte der Verfahren hinzugefügt oder entfernt werden, ohne den Geist des Verfahrens zu ändern.
Mit Bezug auf 7 stellt ein Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 zu adaptieren, basierend auf einer Benutzer-Charakterisierung. Wie gezeigt wird, werden die Befehle, jegliche Kontextinformation und ihre Darbietung bei 200 zum Beispiel von dem HMI-Modul 14 (oder dem Kommunikationsbus 28) empfangen und durch das Daten-Sammlermodul 36 bei 202 aufgezeichnet. Die aufgezeichneten Daten werden von dem Protokolldaten-Datenspeicher 42 bei 210 aufgerufen und durch einen oder mehrere charakteristische Detektormodule 100a–100n bei 220 evaluiert. Das Sprachmodell-Auswahlglied und das Zusammenlegungsmodul 102 evaluieren dann die identifizierten Charakteristika 105a–105n, um zu sehen, ob die Charakteristik, welche mit einer bestimmten Frequenz bzw. Häufigkeit (z. B. X Anzahl von Zeitpunkten, wobei X eine konfigurierbare Anzahl größer als eins ist) und Vertrauen bei 230 auftreten. Wenn die Charakteristik mit einer bestimmten Häufigkeit aufgetreten ist, wird ein Sprachmodell 74, welches zu der Charakteristik gehört, ausgewählt und dem System-Aktualisierungsmodul 40 für das Aktualisieren bei 240 bereitgestellt. Das System-Aktualisierungsmodul 40 empfängt das Sprachmodell 74 bei 250 und aktualisiert ein aktuelles Sprachmodell, wobei das Sprachmodell 74 (z. B. durch Kombinieren der beiden Modelle oder auf irgendeine andere Weise) bei 260 benutzt wird.
Mit Bezug auf 8 stellt ein Abfolge- bzw. Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 zu adaptieren, basierend auf Benutzerkompetenz. Wie gezeigt wird, werden die Befehle und die Darbietungsdaten bei 310 zum Beispiel von dem HMI-Modul 14 empfangen und durch das Daten-Sammlermodul 36 bei 312 aufgezeichnet. Die aufgezeichneten Daten werden von dem Protokolldaten-Datenspeicher 42 bei 320 aufgerufen. Die Muster-Detektormodule 104a–104n evaluieren die aufgezeichneten Daten und kompilieren wiederauftretende Muster 107a–107n, welche zu der Benutzerkompetenz gehören, bei 330. Die Muster 107a–107n werden dann zu dem Einstellungs-Berechnungsgliedmodul 106 bei 340 gesendet. Basierend auf den Mustern 107a–107n berechnet das Einstellungen-Berechnungsgliedmodul 106 die empfohlenen System-Interaktionseinstellungen 109 für die gesamte Interaktionsstrategie (z. B. den allgemeinen Wortschatzpegel der Benutzerführungen) und/oder für spezielle Dialogsituationen (z. B. Bestätigung im speziellen Kontext) bei 350. Die Benutzersystem-Interaktions-einstellungen 109 werden zu dem Benutzerprofil-Adaptierungs-modul 108 bei 360 gesendet. Das Benutzerprofil-Adaptierungs-modul 108 adaptiert die Einstellungen des Benutzerprofils 370. Das Benutzerprofil wird an das System-Aktualisierungsmodul 40 bei 380 gesendet. Das System-Aktualisierungsmodul 40 aktualisiert die Systemeinstellungen mit dem adaptierten Benutzerprofil bei 390.
Mit Bezug auf 9 stellt ein Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 basierend auf den Kontextdaten zu adaptieren. Wie gezeigt wird, werden die Fahrzeugdaten 84, die Kontextdaten 86 und die Sprachsystemdaten 88 bei 410 empfangen und durch das Daten-Sammlermodul 36 bei 412 aufgezeichnet. Die aufgezeichneten Daten werden von dem Protokolldaten-Datenspeicher 42 bei 420 wiederaufgerufen. Die Muster-Detektormodule 110a–110n evaluieren die aufgezeichneten Daten und kompilieren wiederkehrende Muster 115a–115n, welche zu den Daten gehören, von dem anderen HMI-Modul 14 (z. B. Navigationssystem, Cluster-Stapel, Internet-Info) oder den Aufzeichnungssystemen des Fahrzeugs (CAN-Bus), Kontextdaten, wie zum Beispiel einen aktuellen Fahrort und eine aktuelle Fahrzeit, die Straßenart, den Verkehr, das Wetter, die Fahrgeschwindigkeit, den Umgebungsgeräuschpegel, die Anzahl der Insassen, angeschlossene Benutzereinrichtungen, freigegebene Internet- oder andere HMI-Anwendungen, freigegebene Fahrzeugsysteme, wie zum Beispiel eine Klimasteuerung, ein aktiver Tempomat, Lichter, Getriebe, Windschutzscheibenwischer, etc. bei 430.
Die Muster 115a–115n werden zu dem Einstellungen-Berechnungsgliedmodul 112 bei 440 gesendet. Basierend auf den Mustern 115a–115n bestimmt das Einstellungen-Berechnungsgliedmodul 112 die empfohlenen System-Interaktionseinstellungen 117 für die gesamte Interaktionsstrategie (z. B. allgemeiner Wortschatzpegel der Benutzerführungen) und/oder für spezielle Dialogsituationen (z. B. Bestätigung im speziellen Kontext) bei 450. Die Benutzersystem-Interaktionseinstellungen werden an das Benutzerprofil-Adaptermodul 114 bei 460 gesendet. Das Benutzerprofil-Adaptermodul 114 adaptiert die Einstellungen des Benutzerprofils bei 470. Das Benutzerprofil wird an das System-Aktualisierungsmodul 40 bei 480 gesendet. Das System-Aktualisierungsmodul 40 aktualisiert die Systemeinstellungen mit dem adaptierten Benutzerprofil bei 490.
Mit Bezug auf 10 stellt ein Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 basierend auf adaptierten Systemmodellen zu adaptieren. Wie gezeigt wird, wird der Befehl zum Beispiel bei 510 von dem HMI-Modul 14 empfangen und durch das Daten-Sammelmodul 36 bei 512 aufgezeichnet. Der Befehl wird von dem Protokolldaten-Datenspeicher 42 bei 520 aufgerufen. Alternativ wird der Befehl 96 direkt an dem HMI-Modul 14 bei 530 empfangen. Der Befehl 96 wird durch das Systemmodell-Adaptionsmodul 68 bearbeitet, um das optimale Sprachmodell für den Befehl zu bestimmen. Zum Beispiel wird der Befehl 96 durch das feste Listemodell 116 bei 540 bearbeitet und an das Vermittlermodell 120 bei 550 gesendet. Der Befehl 96 wird gleichzeitig oder kurz danach von dem Protokolldaten-Datenspeicher 42 bei 555 aufgerufen und durch das Modell 118 des weiteren Umfangs bei 560 bearbeitet. Alternativ wird der Befehl 96 direkt von dem HMI-Modul 14 bei 557 empfangen und durch das Modell 118 des weiteren Umfangs bei 560 bearbeitet.
Die Ergebnisse des Modells 118 des weiteren Umfangs werden zu dem Vermittlermodell 120 bei 570 gesendet. Die Ergebnisse für das fixierte Listemodell 116 und das Modell 118 des weiteren Umfangs werden durch das Vermittlermodell 120 bei 580 bearbeitet. Die Ergebnisse des Vermittlergliedes werden bei 590 evaluiert, um zu sehen, ob das Ergebnis mit einer bestimmten Häufigkeit (z. B. einer X Anzahl von Zeitpunkten, wobei X eine konfigurierbare Anzahl größer als eins ist) aufgetreten ist. Wenn das Ergebnis des Vermittlergliedes mit einer bestimmten Häufigkeit aufgetreten ist, werden das Ergebnis und das Modell dem System-Aktualisierungsmodul 40 für das Aktualisieren bei 600 bereitgestellt. Das System-Aktualisierungsmodul empfängt das Ergebnis und das Modell und aktualisiert das Systemmodell mit dem Ergebnis bei 610.
Während wenigstens eine beispielhafte Ausführungsform in der vorhergegangenen detaillierten Beschreibung präsentiert worden ist, sollte gewürdigt werden, dass eine große Anzahl von Variationen existiert. Es sollte auch gewürdigt werden, dass die beispielhafte Ausführungsform oder beispielhaften Ausführungsformen nur Beispiele sind und dass nicht beabsichtigt ist, dass diese den Umfang, die Anwendbarkeit oder die Konfiguration der Veröffentlichung in irgendeiner Weise begrenzen. Vielmehr wird die vorhergegangene detaillierte Beschreibung Fachleuten eine bequeme Anleitung für das Implementieren der beispielhaften Ausführungsform und beispielhaften Ausführungsformen bereitstellen. Es sollte davon ausgegangen werden, dass verschiedene Änderungen in der Funktion und in der Anordnung der Elemente durchgeführt werden können, ohne vom Umfang der Veröffentlichung abzuweichen, wie er in den angehängten Ansprüchen und den rechtlichen Äquivalenten davon dargelegt ist.
WEITERE AUSFÜHRUNGSFORMEN

1. Verfahren für das Adaptieren eines Sprachsystems, welches aufweist: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf dem Evaluieren.
2. Verfahren nach Ausführungsform 1, wobei das Bearbeiten des gesprochenen Befehls aufweist: Bearbeiten des gesprochenen Befehls, wobei ein erstes Sprachmodell eines ersten Modelltyps benutzt wird, um ein erstes Ergebnis zu erhalten; Bearbeiten des gesprochenen Befehls, wobei ein zweites Sprachmodell eines zweiten Modelltyps benutzt wird, um ein zweites Ergebnis zu erhalten; und Bearbeiten des ersten Ergebnisses und des zweiten Ergebnisses, wobei ein drittes Sprachmodul eines dritten Modelltyps benutzt wird, um ein drittes Ergebnis zu erhalten.
3. Verfahren nach Ausführungsform 2, welches ferner aufweist: Auswählen wenigstens eines des ersten Sprachmodells und des ersten Ergebnisses und des zweiten Sprachmodells und des zweiten Ergebnisses, basierend auf dem dritten Ergebnis; und Aktualisieren eines Systemmodells, basierend auf dem Auswählen.
4. Verfahren nach Ausführungsform 3, welches ferner das Bestimmen einer Frequenz des dritten Ergebnisses aufweist; und wobei das Auswählen des wenigstens einen, des ersten Sprachmodells und des ersten Ergebnisses, und des zweiten Sprachmodells und des zweiten Ergebnisses auf der Frequenz basiert.
5. Verfahren nach Ausführungsform 1, wobei das Bearbeiten des gesprochenen Befehls das Bearbeiten des gesprochenen Befehls aufweist, wobei wenigstens drei Sprachmodelle von wenigstens drei unterschiedlichen Modelltypen benutzt werden.
6. Verfahren nach Ausführungsform 5, wobei ein erstes Sprachmodell ein festgelegter Sprachmodelltyp ist, welcher eine festgelegte Liste von Befehlen erkennt.
7. Verfahren nach Ausführungsform 5, wobei ein zweites Sprachmodell ein Modelltyp weiteren Umfangs ist, welcher Phrasen erkennt.
8. Verfahren nach Ausführungsform 5, wobei ein drittes Sprachmodell ein Vermittler- bzw. Schiedsrichtermodelltyp ist, welcher die Ergebnisse von anderen Modellen schiedsrichterlich entscheidet.
9. Verfahren nach Ausführungsform 5, wobei ein erstes Modell ein Modelltyp einer Finiter-Status-Grammatik ist, ein zweites Modell ein Modelltyp einer Statischen Sprache ist und ein drittes Modell ein Modelltyp einer Strukturellen Gleichung ist.
10. Verfahren nach Ausführungsform 1, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren des einen oder mehrerer Modelle ist, um den gesprochenen Befehl zu beinhalten oder auszuschließen, basierend auf der Evaluierung.
11. Verfahren nach Ausführungsform 1, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren wenigstens eines von Folgendem aufweist: eine Wichtung und eine Wahrscheinlichkeit innerhalb des Modells basierend auf der Evaluierung.
12. System für das Aktualisieren eines Sprachsystems, welches aufweist: ein erstes Modul, welches einen gesprochenen Befehl mit einem oder mehreren Modellen eines oder mehrerer Modelltypen bearbeitet, um Modellergebnisse zu erreichen; ein zweites Modul, welches eine Frequenz der Modellergebnisse evaluiert; und ein drittes Modul, welches selektiv das eine oder mehrere Modelle des einen oder mehrerer Modelltypen aktualisiert, basierend auf der Evaluierung.
13. System nach Ausführungsform 12, wobei das erste Modul den gesprochenen Befehl bearbeitet, wobei ein erstes Sprachmodell eines ersten Modelltyps benutzt wird, um ein erstes Ergebnis zu erhalten, den gesprochenen Befehl bearbeitet, wobei ein zweites Sprachmodell eines zweiten Modelltyps benutzt wird, um ein zweites Ergebnis zu erhalten, und das erste Ergebnis und das zweite Ergebnis bearbeitet, wobei ein drittes Sprachmodul eines dritten Modelltyps benutzt wird, um ein drittes Ergebnis zu erhalten.
14. System nach Ausführungsform 12, wobei das zweite Modul wenigstens eines, des ersten Sprachmodells und des ersten Ergebnisses, und das zweite Sprachmodell und das zweite Ergebnis basierend auf dem dritten Ergebnis auswählt, und wobei das dritte Modul ein Systemmodell, basierend auf der Auswahl, aktualisiert.
15. System nach Ausführungsform 14, wobei das zweite Modul eine Frequenz des dritten Ergebnisses bestimmt und das wenigstens eine, des ersten Sprachmodells und des ersten Ergebnisses, und das zweite Sprachmodell und das zweite Ergebnis, basierend auf der Frequenz, auswählt.
16. System nach Ausführungsform 12, wobei das erste Modul den gesprochenen Befehl durch das Bearbeiten des gesprochenen Befehls bearbeitet, wobei wenigstens drei Sprachmodelle von wenigstens drei unterschiedlichen Modelltypen benutzt werden.
17. System nach Ausführungsform 16, wobei ein erstes Sprachmodell ein festgelegter Sprachmodelltyp ist, welcher eine festgelegte Liste von Befehlen erkennt.
18. System nach Ausführungsform 16, wobei ein zweites Sprachmodell ein Modelltyp weiteren Umfangs ist, welcher Phrasen erkennt.
19. System nach Ausführungsform 16, wobei ein drittes Sprachmodell ein Schiedsrichter-Modelltyp ist, welcher Ergebnisse von anderen Modellen schiedsrichterlich entscheidet.
20. System nach Ausführungsform 12, wobei das dritte Modul selektiv das eine oder mehrere Modelle aktualisiert, um den gesprochenen Befehl basierend auf der Evaluierung zu beinhalten oder auszuschließen.
21. System nach Ausführungsform 12, wobei das dritte Modul selektiv wenigstens eines von Folgendem aktualisiert: eine Wichtung und eine Wahrscheinlichkeit des einen oder mehrerer Modelle, basierend auf der Evaluierung.

Claims

Verfahren für das Adaptieren eines Sprachsystems, welches aufweist: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf dem Evaluieren.
Verfahren nach Anspruch 1, wobei das Bearbeiten des gesprochenen Befehls aufweist: Bearbeiten des gesprochenen Befehls, wobei ein erstes Sprachmodell eines ersten Modelltyps benutzt wird, um ein erstes Ergebnis zu erhalten; Bearbeiten des gesprochenen Befehls, wobei ein zweites Sprachmodell eines zweiten Modelltyps benutzt wird, um ein zweites Ergebnis zu erhalten; und Bearbeiten des ersten Ergebnisses und des zweiten Ergebnisses, wobei ein drittes Sprachmodul eines dritten Modelltyps benutzt wird, um ein drittes Ergebnis zu erhalten.
Verfahren nach einem der vorherigen Ansprüche, welches ferner aufweist: Auswählen wenigstens eines, des ersten Sprachmodells und des ersten Ergebnisses, und des zweiten Sprachmodells und des zweiten Ergebnisses, basierend auf dem dritten Ergebnis; und Aktualisieren eines Systemmodells, basierend auf dem Auswählen.
Verfahren nach einem der vorherigen Ansprüche, welches ferner das Bestimmen einer Frequenz des dritten Ergebnisses aufweist; und wobei das Auswählen des wenigstens einen, des ersten Sprachmodells und des ersten Ergebnisses, und des zweiten Sprachmodells und des zweiten Ergebnisses auf der Frequenz basiert.
Verfahren nach einem der vorherigen Ansprüche, wobei das Bearbeiten des gesprochenen Befehls das Bearbeiten des gesprochenen Befehls aufweist, wobei wenigstens drei Sprachmodelle von wenigstens drei unterschiedlichen Modelltypen benutzt werden.
Verfahren nach Anspruch 5, wobei ein erstes Sprachmodell ein festgelegter Sprachmodelltyp ist, welcher eine festgelegte Liste von Befehlen erkennt und/oder ein zweites Sprachmodell ein Modelltyp weiteren Umfangs ist, welcher Phrasen erkennt.
Verfahren nach Anspruch 5 oder 6, wobei ein drittes Sprachmodell ein Vermittler- bzw. Schiedsrichtermodelltyp ist, welcher die Ergebnisse von anderen Modellen schiedsrichterlich entscheidet.
Verfahren nach einem der vorherigen Ansprüche, wobei ein erstes Modell ein Modelltyp einer Finiter-Status-Grammatik ist, ein zweites Modell ein Modelltyp einer Statischen Sprache ist und ein drittes Modell ein Modelltyp einer Strukturellen Gleichung ist.
Verfahren nach einem der vorherigen Ansprüche, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren des einen oder mehrerer Modelle ist, um den gesprochenen Befehl zu beinhalten oder auszuschließen, basierend auf der Evaluierung.
Verfahren nach Ausführungsform 1, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren wenigstens eines von Folgendem aufweist: eine Wichtung und eine Wahrscheinlichkeit innerhalb des Modells, basierend auf der Evaluierung.