DE102013223036A1 - Adaptionsverfahren und -systeme für Sprachsysteme - Google Patents

Adaptionsverfahren und -systeme für Sprachsysteme Download PDF

Info

Publication number
DE102013223036A1
DE102013223036A1 DE102013223036.2A DE102013223036A DE102013223036A1 DE 102013223036 A1 DE102013223036 A1 DE 102013223036A1 DE 102013223036 A DE102013223036 A DE 102013223036A DE 102013223036 A1 DE102013223036 A1 DE 102013223036A1
Authority
DE
Germany
Prior art keywords
model
module
user
language
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102013223036.2A
Other languages
English (en)
Other versions
DE102013223036B4 (de
Inventor
Ron M. Hecht
Timothy J. Grost
Ute Winter
Robert D. Sims
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102013223036A1 publication Critical patent/DE102013223036A1/de
Application granted granted Critical
Publication of DE102013223036B4 publication Critical patent/DE102013223036B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Es werden Verfahren und Systeme für das Adaptieren eines Sprachsystems bereitgestellt. In einem Beispiel beinhaltet ein Verfahren: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf der Evaluierung.

Description

  • Diese Anmeldung beansprucht den Nutzen der vorläufigen US-Anmeldung Nr. 61/725,802, eingereicht am 13. November 2012, welche hier als Referenz eingearbeitet ist.
  • TECHNISCHER BEREICH
  • Der technische Bereich bezieht sich im Allgemeinen auf Sprachsysteme, und spezieller ausgedrückt bezieht er sich auf Verfahren und Systeme für das Adaptieren von Komponenten der Sprachsysteme, basierend auf Daten, welche aus Benutzer-Interaktionen und/oder aus einem oder mehreren Systemen, zum Beispiel eines Fahrzeugs, bestimmt sind.
  • HINTERGRUND
  • Fahrzeug-Sprachsysteme führen eine Spracherkennung bezüglich der Sprache durch, welche von einem Insassen des Fahrzeugs geäußert wird. Die Sprachäußerungen beinhalten typischerweise Befehle, welche ein oder mehrere Merkmale oder andere Systeme, welche von dem Fahrzeug zugreifbar sind, steuern. Die Sprachsysteme nutzen generische Erkennungstechniken, so dass Sprachäußerungen von irgendeinem Insassen des Fahrzeugs erkannt werden können. Sprach-Dialogsysteme steuern einen Dialog mit einem Benutzer des Fahrzeugs basierend auf den Befehlen. Der Dialog ist typischerweise generisch bzw. arttypisch für alle Benutzer.
  • Entsprechend ist es wünschenswert, Verfahren und Systeme für das Adaptieren bzw. Anpassen von Fahrzeugsprachsystemen, basierend auf den Insassen des Fahrzeugs und/oder der kontextbezogenen Umgebung des Fahrzeugs und/oder des Insassen, bereitzustellen. Außerdem werden andere wünschenswerte Merkmale und Charakteristika der vorliegenden Erfindung aus der nachfolgenden detaillierten Beschreibung und den angehängten Ansprüchen offensichtlich, welche in Verbindung mit den beigefügten Zeichnungen und dem vorhergegangenen technischen Bereich und Hintergrund gegeben werden.
  • ZUSAMMENFASSUNG
  • Verfahren und Systeme für das Adaptieren eines Sprachsystems werden bereitgestellt. In einem Beispiel beinhaltet ein Verfahren: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf dem Evaluieren.
  • In einem anderen Beispiel bearbeitet ein erstes Modul einen gesprochenen Befehl mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen. Ein zweites Modul evaluiert eine Frequenz der Modellergebnisse. Ein drittes Modul aktualisiert selektiv eine oder mehrere Modelle des einen oder mehrerer Modelltypen basierend auf der Evaluierung.
  • BESCHREIBUNG DER ZEICHNUNGEN
  • Die beispielhaften Ausführungsformen werden hier nachfolgend in Verbindung mit den folgenden gezeichneten Figuren beschrieben, wobei ähnliche Ziffern ähnliche Elemente bezeichnen, und worin:
  • 1 ein Funktionsblockdiagramm eines Fahrzeuges ist, welches ein Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen beinhaltet;
  • 2 bis 6 Datenflussdiagramme sind, welche ein Adaptionsmodul des Sprachsystems entsprechend zu verschiedenen beispielhaften Ausführungsformen darstellen; und
  • 7 bis 10 Ablauffolge- bzw. Sequenz-Diagramme sind, welche Adaptionsverfahren darstellen, welche durch das Sprachsystem entsprechend zu verschiedenen Ausführungsformen durchgeführt werden können.
  • DETAILLIERTE BESCHREIBUNG
  • Die folgende detaillierte Beschreibung ist in ihrer Art nur beispielhaft, und es ist nicht beabsichtigt, die Anmeldung und deren Gebrauch zu begrenzen. Außerdem gibt es keine Absicht, an irgendeine ausgedrückte oder beinhaltet Theorie gebunden zu sein, welche in dem vorhergegangenen technischen Bereich, Hintergrund, der kurzen Zusammenfassung oder der folgenden detaillierten Beschreibung präsentiert wird. Wie es hier gebraucht wird, bezieht sich der Term Modul auf eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, speziell zugeordnet oder Gruppe) und einen Speicher, welcher eines oder mehrere Software- oder Firmware-Programme ausführt, eine kombinierte logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktionalität bereitstellen.
  • Mit anfänglichem Bezug auf 1 wird entsprechend zu beispielhaften Ausführungsformen der vorliegenden Offenbarung ein Sprachsystem 10 gezeigt, welches innerhalb eines Fahrzeugs 12 beinhaltet ist. Das Sprachsystem 10 stellt eine Spracherkennung und einen Dialog für ein oder mehrere Fahrzeugsysteme über ein Human Machine Interface- bzw. Mensch-Maschine-Schnittstellen-(HMI-)Modul 14 bereit. Derartige Fahrzeugsysteme können zum Beispiel beinhalten, sind jedoch nicht darauf begrenzt, ein Telefonsystem 16, ein Navigationssystem 18, ein Mediensystem 20, ein Telematiksystem 22, ein Netzsystem 24 oder irgendein anderes Fahrzeugsystem, welches eine sprachabhängige Anwendung beinhalten kann. Wie gewürdigt werden kann, sind eine oder mehrere Ausführungsformen des Sprachsystems 10 bei anderen Nicht-Fahrzeugsystemen anwendbar, welche sprachabhängige Anwendungen besitzen, und demnach nicht auf das vorliegende Fahrzeugbeispiel begrenzt. Für erläuternde Zwecke wird das Sprachsystem 10 im Kontext des Fahrzeugbeispiels diskutiert.
  • Das Sprachsystem 10 kommuniziert mit vielen Fahrzeugsystemen 1624 und/oder mit anderen Fahrzeugsystemen 26 über das HMI-Modul 14 und einen Kommunikationsbus und/oder andere Kommunikationseinrichtungen 28 (z. B. über Draht, über Kurzbereichsfunk oder über Weitbereichsfunk). Der Kommunikationsbus kann zum Beispiel ein CAN-Bus sein, ist jedoch nicht darauf begrenzt.
  • Allgemein gesprochen, beinhaltet das Sprachsystem 10 ein Adaptionsmodul 30 und ein Automatic Speech Recognition- bzw. Automatische-Spracherkennungs-(ASR-)Modul 32 und ein Dialog-Steuermodul 34. Wie gewürdigt werden kann, können das ASR-Modul 32 und das Dialog-Steuermodul 34 als getrennte Systeme und/oder als ein kombiniertes System, wie gezeigt, implementiert werden. Wie weiter gewürdigt werden kann, können die Module des Sprachsystems 10 alle auf dem Fahrzeug 12 oder teilweise auf dem Fahrzeug 12 und teilweise auf einem Fernsteuerungssystem, wie zum Beispiel einem entfernten Server (nicht gezeigt), implementiert sein.
  • Das ASR-Modul 32 empfängt und bearbeitet Sprachäußerungen von dem HMI-Modul 14. Einige (z. B. basierend auf einem Vertrauensschwellwert) der erkannten Befehle aus der Sprachäußerung werden zu dem Dialog-Steuermodul 34 gesendet. Das Dialog-Steuermodul 34 steuert eine Interaktions- bzw. Betätigungssequenz und Aufforderungen bzw. Benutzerführungen basierend auf dem Befehl. Das Adaptionsmodul 30 protokolliert verschiedene Sprachdaten und Interaktionsdaten, welche von einem Insassen des Fahrzeugs erzeugt werden (z. B. über das HMI-Modul 14), protokolliert Daten von den verschiedenen Fahrzeugsystemen 1624 und/oder protokolliert Daten von den verschiedenen anderen Fahrzeugsystemen 26 (z. B. welche keine Sprachanwendungen beinhalten). Das Adaptionsmodul 30 führt eine oder mehrere Lernalgorithmen an den protokollierten Daten durch und adaptiert eine oder mehrere Komponenten des Sprachsystems 10 basierend auf den Lernalgorithmen. In verschiedenen Ausführungsformen adaptiert das Adaptionsmodul 30 Sprachmodelle, welche durch das ASR-Modul 32 des Sprachsystems 10 benutzt werden. In verschiedenen anderen Ausführungsformen adaptiert das Adaptionsmodul 30 Aufforderungen bzw. Benutzerführungen und Interaktions- bzw. Betätigungssequenzen, welche durch das Dialog-Steuermodul 34 des Sprachsystems 10 benutzt werden.
  • Wie gezeigt wird, ist das Adaptionsmodul 30 in dem Sprachsystem 10 beinhaltet. Wie gewürdigt werden kann, kann in alternativen Ausführungsformen das Adaptionsmodul 30 zum Beispiel in dem HMI-Modul 14 oder als eine eigenständige Anwendung implementiert sein, welche mit dem Sprachsystem 10 kommuniziert. Damit ist die Offenbarung nicht auf das vorliegende Beispiel begrenzt.
  • Mit Bezug nun auf 2 stellt ein Datenfluss-Diagramm das Adaptionsmodul 30 entsprechend zu verschiedenen Ausführungsformen dar. Wie gewürdigt werden kann, können verschiedene Ausführungsformen der Adaptionsmodule 30 entsprechend der vorliegenden Offenbarung jegliche Anzahl von Untermodulen beinhalten. Zum Beispiel können die Untermodule, welche in 2 gezeigt werden, kombiniert werden und/oder weiter auf ähnliche Adaptionsteilbereiche des Sprachsystems 10 (1) aufgeteilt werden.
  • In verschiedenen beispielhaften Ausführungsformen beinhaltet das Adaptionsmodul 30 ein Datenlogger- bzw. Datensammelmodul 36, ein Daten-Analysiermodul 38, ein System-Aktualisierungsmodul 40, einen Protokolldaten-Datenspeicher 42 und einen Systemdaten-Datenspeicher 44. Die Datenspeicher 42, 44 können zeitweise oder andauernd Daten des Systems 10 speichern.
  • Das Datenlogger-Modul 36 protokolliert bzw. sammelt Daten von verschiedenen Quellen des Fahrzeugs 12 (z. B. der Fahrzeugsysteme 1624 und/oder der anderen Fahrzeugsysteme 26) in dem Protokoll- bzw. Aufzeichnungsdaten-Datenspeicher 42. Die Daten können zum Beispiel beinhalten, sind jedoch nicht begrenzt darauf: Fahrzeugdaten 46, Fahrzeugkontextdaten 48, Sprachsystemdaten 50 und Benutzer-Interaktionsdaten 52. Die Fahrzeugdaten 46 können zum Beispiel beinhalten: Geschwindigkeitsdaten, Umgebungsgeräusch-Pegeldaten, Passagier- bzw. Insassendaten (z. B. eine Anzahl von Passagieren, welche in dem Fahrzeug 12 detektiert sind), Fahrzeugsystemdaten (z. B. eine Anzahl der freigegebenen Fahrzeugsysteme), etc. Die Fahrzeugkontextdaten 48 können zum Beispiel beinhalten: Fahrzeugortsdaten, Straßenartdaten, Wetterdaten, Verkehrsdaten, etc. Die Sprachsystemdaten 40 können zum Beispiel beinhalten: gesprochene Befehlsdaten (z. B. Daten über von einem Insassen des Fahrzeugs 12 gesprochene Befehle) und Leistungsdaten (z. B. Daten über die Erkennungsleistung der gesprochenen Befehle). Die Benutzer-Interaktionsdaten 52 können zum Beispiel beinhalten: Interaktions-Sequenzdaten, Frequenzdaten der Benutzeranforderungen und Daten von anderen HMI-Modalitäten, wie zum Beispiel von Gesten-Interaktionsdaten des Berührungsschirmes oder von Anzeigedaten.
  • Das Daten-Analysiermodul 38 ruft die protokollierten Daten aus dem Protokolldaten-Datenspeicher 42 ab und analysiert die protokollierten Daten, um zu bestimmen, ob eine oder mehrere Sprachmodelle, welche von dem Sprachsystem 10 benutzt werden, zu adaptieren sind, ob Aufforderungen bzw. Benutzerführungen, welche durch das Sprachsystem 10 präsentiert werden, zu adaptieren sind und/oder ob Interaktionssequenzen oder Dialoge, welche durch das Sprachsystem bereitgestellt werden, zu adaptieren sind. Wenn bestimmt ist, dass eines oder mehrere der Sprachmodelle, der Benutzerführungen und der Interaktionssequenzen adaptiert werden sollten, werden vorgeschlagene Aktualisierungen als ein aktualisiertes Sprachmodell 43 oder als ein aktualisiertes Benutzerprofil 56, welches aktualisierte Benutzerführungen und/oder aktualisierte Interaktionssequenzen beinhaltet, erzeugt.
  • Das System-Aktualisierungsmodul 40 empfängt als Eingabe die aktualisierten Sprachmodelle 54 und das aktualisierte Benutzerprofil 56. Das System-Aktualisierungsmodul 40 speichert oder aktualisiert Sprachmodelle, Benutzerführungen und/oder Interaktionssequenzen aus dem Systemdaten-Datenspeicher 44 basierend auf den eingegebenen Eingaben. Wenn zum Beispiel ein aktualisiertes Sprachmodell 54 empfangen wird, kann das Aktualisierungs-Sprachmodell 54 mit einem Ursprungsmodell kombiniert werden, um zum Beispiel ein robusteres Sprachmodell zu bilden, indem das kleinere Sprachmodell (d. h. das aktualisierte Sprachmodell 54) für die kürzeren Verlaufs- bzw. Historie-Verteilungen (Unigram) benutzt werden und indem das detailliertere Sprachmodul (d. h. das gespeicherte Sprachmodul) für die eingestellte höhere-Historie-Verteilung (Trigram) benutzt wird. In einem anderen Beispiel kann das Benutzerprofil 56, welches die Benutzerführungen und/oder die Interaktionssequenzen beinhaltet, für den Gebrauch bei einem speziellen Benutzer gespeichert werden.
  • Mit Bezug nun auf 36 stellen Datenablaufdiagramme das Daten-Analysiermodul 38 der 2 entsprechend zu verschiedenen Ausführungsformen dar. Wie gewürdigt werden kann, können verschiedene Ausführungsformen der Daten-Analysiermodule 38 entsprechend der vorliegenden Offenbarung jegliche Anzahl von Untermodulen beinhalten. Zum Beispiel können die Untermodule, welche in 36 gezeigt werden, kombiniert werden und/oder weiter unterteilt werden, um in ähnlicher Weise die protokollierten Daten zu analysieren und Teilbereiche des Sprachsystems 10 zu adaptieren. Eingaben des Daten-Analysiermoduls 38 können aus dem Protokolldaten-Datenspeicher 42 abgerufen werden und/oder direkt von dem HMI-Modul 14 und/oder von einem oder mehreren der Fahrzeugsysteme 1626 abgerufen werden. In verschiedenen Ausführungsformen beinhaltet das Daten-Analysiermodul 38 ein Benutzer-Charakterisierungs-Adaptiermodul 62, ein Benutzerkompetenz-Adaptiermodul 64, ein Kontextdaten-Adaptiermodul 66 und/oder ein Systemmodell-Adaptiermodul 68. Wie gewürdigt werden kann, kann das Daten-Analysiermodul 38 nur eines der gezeigten Module beinhalten oder kann jegliche Kombination der gezeigten Module beinhalten und ist nicht auf das vorliegende Beispiel begrenzt.
  • Das Benutzer-Charakterisier-Adaptierungsmodul 62 ruft die aufgezeichneten Daten von dem Protokolldaten-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die aufgezeichneten Daten gesprochene Befehle 70, welche von dem Benutzer gesprochen wurden, und eine Darbietung bzw. Ausführung 72 der gesprochenen Befehle 70. Das Benutzer-Charakterisierungs-Adaptionsmodul 62 analysiert die Befehle 70 für verschiedene Charakteristika. Die Charakteristika können zum Beispiel beinhalten, sind jedoch nicht darauf begrenzt: Wortschatz, relationales Gespräch, Informationsverteilung, Benutzerdemographie, Ton der Kommunikation (z. B. Höflichkeitsphrasen), Alter und Geschlecht. In verschiedenen Ausführungsformen verfolgt das Benutzer-Charakterisierungs-Adaptionsmodul 62, wie oft der Befehl 70 zu einer speziellen Charakteristik gehört. Sobald der Befehl 70 der speziellen Charakteristik mit einer bestimmten Frequenz zugeordnet worden ist, bestimmt das Benutzer-Charakterisierungs-Adaptionsmodul 62 ein Sprachmodell 74 basierend auf den Charakteristika des Befehls 70 oder erzeugt ein neues Sprachmodell 74, indem mehrere Sprachmodelle (mit oder ohne Wichtungen) basierend auf den Charakteristika kombiniert werden.
  • In verschiedenen Ausführungsformen, wie in 4 gezeigt wird, beinhaltet das Benutzer-Charakterisierungs-Adaptionsmodul 62 ein oder mehrere charakteristische Detektormodule 100a100n und ein Sprachmodell-Auswahlglied und ein Zusammenlegungsmodul 102. Jedes charakteristische Detektormodul 100 analysiert den Befehl 70 nach einer oder mehreren Charakteristik bzw. Charakteristika (105a105n). In verschiedenen beispielhaften Ausführungsformen geben die charakteristischen Detektormodule 100a100n eine oder mehrere Charakteristika 105a105n basierend darauf aus, ob der spezielle Befehl 70 zu einer speziellen Charakteristik gehört und/oder in einen bestimmten Bereich einer speziellen Charakteristik bzw. spezieller Charakteristika fällt. Das Sprachmodell-Auswahlglied und das Zusammenlegungsmodul 102 bestimmen das Sprachmodell 74 basierend auf der detektierten Charakteristik bzw. Charakteristika 105a105n. In verschiedenen Ausführungsformen bestimmt das Sprachmodell-Auswahlglied und das Zusammenlegungsmodul 102 das geeignete Sprachmodell 74 aus den vorher gespeicherten Modellen oder einer gewichteten Kombination der Modelle.
  • In verschiedenen Ausführungsformen können die charakteristischen Detektormodule 100a100n sein: ein Wortschatz-Detektormodul, ein Höflichkeits-Detektormodul, ein Informationsverteilung-Detektormodul, ein Domäneverteilungs-Detektormodul, ein Formalitätspegel-Detektormodul, ein Alter-Detektormodul, ein Dialekt-Detektormodul und/oder ein Geschlechts-Detektormodul.
  • Das Wortschatz-Detektormodul analysiert zum Beispiel den Befehl 70 und schätzt den Prozentsatz der Ausschmückung und der nicht-funktioneller Wörter in der Aussprache ab und vergleicht diese mit einer bekannten Verteilung des Wortschatzes. Das Höflichkeits-Detektormodul zum Beispiel analysiert den Befehl 70 und extrahiert alle Anzeigewörter auf der Höflichkeitsebene. Ein gewichteter Betrag und Beziehungen innerhalb der unterschiedlichen Indikatorwörter werden dann benutzt, um den Grad an Höflichkeit zu detektieren. Das Informationsverteilung-Detektormodul zum Beispiel analysiert den Befehl 70, um einen Ort und die Menge der erforderlichen Informationen (auch als die Slot-Informationen bzw. Spalten-Informationen bekannt) zu detektieren. Basierend auf dieser Information kann das Informationsverteilung-Detektormodul einen Benutzer detektieren, welcher dazu neigt, die Information als eine einzelne Äußerung zu liefern, und einen Benutzer, welcher dies Stück für Stück durchführt.
  • Das Domäneverteilungs-Detektormodul analysiert zum Beispiel den Befehl 70 und detektiert eine Domäne bzw. ein Hauptgebiet basierend auf einem Vergleich zum historischen Verhalten des Benutzers. Das Formalitätspegel- bzw. -ebene-Detektormodul zum Beispiel analysiert den Befehl 70 und extrahiert das Vokabular. Das Vokabular jedes Pegels der Formalität ist die Grundlage des Raumes, in welchem das Detektieren stattfindet. Der Pegel bzw. die Ebene kann durch das Anwenden einer normierten Abstandsmessung bestimmt werden. Das Alter-Detektiermodul zum Beispiel analysiert die Äußerung des Befehls und benutzt ein Gaußsches-Mischungsmodell (GMM), um die Äußerung mit einem Bezugsmodell für jedes Alter oder jede Altersgruppe zu vergleichen.
  • Das Dialekt-Detektormodul zum Beispiel analysiert den Befehl 70 und extrahiert akustische Merkmale. Indem zum Beispiel Ankermodell-Techniken benutzt werden, wird eine Signatur erzeugt und Abstände werden gemessen. Das Geschlechts-Detektormodul zum Beispiel analysiert den Befehl 70, extrahiert akustische Merkmale und schätzt eine GMM-Verteilung für jedes Geschlecht. Durch das Übertragen des GMM in einen Supervektor (SV) wird ein Abstand geschätzt und eine Entscheidung durchgeführt. Wie gewürdigt werden kann, können andere Verfahren und Techniken von jedem der Detektormodule 100a100n durchgeführt werden. Demnach ist die Offenbarung nicht auf die vorliegenden Beispiele begrenzt.
  • Mit Bezug zurück auf 3 ruft das Benutzerkompetenz-Adaptierungsmodul 64 abgelegte bzw. gesammelte Daten aus dem Protokolldaten-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die protokollierten Daten gesprochene Befehle 76, welche von einem Benutzer gesprochen sind, und eine Darbietung 78 der gesprochenen Befehle 76. Das Benutzerkompetenz-Adaptierungsmodul 64 analysiert die Befehle 76 basierend auf der Darbietung 78 der Befehle 76. In verschiedenen Ausführungsformen kann die Darbietung 78 im Allgemeinen Parameter und Messungen für den Aufgaben-Erfüllungserfolg und für wiederauftretende Fehler des Benutzers und/oder Systems beinhalten. Zum Beispiel können die Parameter und Messungen eine Aufgaben-Erfüllungsrate und -zeit, Arbeits-Unterbrechungsereignisse, Antwortzeiten, Bestätigungs- und Begriffserklärungszyklen, Hilfeanforderungen und alle Ereignisse, welche von einer effizienten und erfolgreichen Interaktions- bzw. Betätigungsfolge abweichen, enthalten.
  • Das Benutzerkompetenz-Adaptionsmodul 64 analysiert die Befehle 76, um die Felder bzw. Muster zu identifizieren. Das Benutzerkompetenz-Adaptionsmodul 64 stellt vorgeschlagene Einstellungen für die Aufforderungen bzw. Benutzerführungen 80 und/oder Einstellungen für Interaktionssequenzen 82 basierend auf den identifizierten Mustern bereit. Die vorgeschlagenen Einstellungen können als Teil des Benutzerprofils 56 bereitgestellt werden (2). Zum Beispiel können die Benutzerführungen 80 in dem Benutzerprofil 56 aktualisiert werden, um mehr Hilfe und einen engeren Antwortraum zu enthalten, nachdem wiederholte Fehler durch den Benutzer oder das System identifiziert sind; und die Benutzerführungen 80 in dem Benutzerprofil 56 können zurück in Original-Benutzerführungen gewandelt werden, nachdem bestimmt ist, dass der Benutzer oder Systembenutzer ein optimales Interaktionsverhalten lernt. In verschiedenen Ausführungsformen können die Interaktionssequenzen 82 des Benutzerprofils 56 adaptiert werden, um den Benutzer eine höhere Initiative zu gestatten, nachdem bestimmt ist, dass der Benutzer das Interaktionsmuster gelernt hat. Dieses Adaptieren der Benutzereinstellungen fördert basierend auf einer Benutzerkompetenz eine verbesserte Benutzerkompetenz und erstellt ein Interaktionsmuster mit einer höheren Aufgaben-Erfüllungsrate.
  • Zum Beispiel kann ein Benutzer sehr vertraut mit Sprachsystemen im Allgemeinen sein, wobei er sie häufig nutzt, um Anwendungen über sein Mobiltelefon freizugeben. Deshalb besitzt er eine gleichbleibende Weise, seine Anforderung in einer Äußerung in einem Zug auszudrücken, wobei er selten Information später in einem darauffolgenden Dialog anzufügen hat. Nachdem das Benutzerkompetenz-Adaptionsmodul 64 die Perspektive gewinnt und dieses Muster lernt, kann es entscheiden, Minimalbefehle zu benutzen, um den Dialog effizient und die Aufgaben-Erfüllungszeit kurz zu halten.
  • In einem weiteren Beispiel kann der gleiche Benutzer es bevorzugen, Suchanforderungen durchzuführen, wie zum Beispiel nach einem Restaurant zu suchen (z. B. einem Point of Interest bzw. Punkt von Interesse (POI-Suche)). Basierend auf seiner Mobiltelefon-Erfahrung hat er die Gewohnheit entwickelt, durch eine große Suchliste zu gehen und die Interaktion auf dem Display fortzuführen, wobei er gründlich in die Optionen schaut und diese auswählt. Er kann darüber verwirrt sein, wie er durch Sprache eine Auswahl treffen soll, wenn die Anzeige den Suchinhalt aufgrund der Fahrsituation signifikant reduziert. Nachdem das Benutzerkompetenz-Adaptionsmodul 64 die Perspektive gewinnt und dieses Muster lernt, kann es entscheiden, den Benutzer Schritt für Schritt und mit hilfreichen Benutzerführungen durch diese spezielle Dialogsituation zu führen, so dass der Benutzer über die Zeit hinweg versteht, wie in den Optionen zu suchen ist.
  • In noch einem anderen Beispiel kann ein anderer Benutzer mit der Sprache nicht vertraut sein. Er versteht den Vorteil während des Fahrens und beginnt, mit Hilfe der Sprache einige seiner Kontakte aus seiner Kontaktliste anzurufen oder die Radiostation abzugleichen. Der Benutzer spricht über die Maßen langsam und laut, so dass das System beim Erkennen der meisten der Anforderungen Schwierigkeiten hat. Dies führt zu Bestätigungszyklen für falsch erkannte Kontakte oder Radiostationen. Der Benutzer wird irritiert und wird bei diesen Fehler-Wiederherstellungszyklen zögerlich in seinen Antworten. Das Benutzerkompetenz-Adaptionsmodul 64 beobachtet Arbeitsunterbrechungsereignisse, lange Antwortzeiten oder Wortschatz-Benutzeräußerungen für Bestätigungszyklen und führt den Benutzer durch diese Situationen durch das Hinzufügen möglicher Antworten, hilfreicher Hinweise oder das Ändern des Befehls zu strikten Ja/Nein-Antworten.
  • In verschiedenen beispielhaften Ausführungsformen, wie dies in 5 gezeigt wird, beinhaltet das Benutzerkompetenz-Anpassungsmodul 64 ein oder mehrere Muster-Detektierungsmodule 104a104n, ein oder mehrere Einstellungs-Berechnungsmodule 106 und ein oder mehrere Benutzerprofil-Adaptierungsmodule 108. Das eine oder mehrere Muster-Detektierungsmodule 104a104n analysieren die Daten, um spezielle Muster 107a107n zu identifizieren. Das eine oder mehrere Einstellungs-Berechnungsmodule 106 bestimmen Einstellungen 109 basierend auf den detektierten Mustern 107a107n. Das eine oder mehrere Benutzerprofil-Adaptierungsmodule 108 stellen die System-Benutzerführungen 80 und/oder die Interaktionssequenzen 82 für das Benutzerprofil 56 (2) basierend auf den Einstellungen 109 bereit.
  • Die Muster-Detektormodule 104a104n identifizieren Muster 107a107n, welche sich zum Beispiel auf Aufgaben-Erfüllungsrate und -zeit, Arbeits-Unterbrechungsereignisse, Benutzer-Antwortzeiten, Benutzerabweichung von effizient formulierten Aussprachen (z. B. Verzögerungen, Pausen, Wortschatz, etc.), ein niedriges Systemvertrauen, welches in Bestätigungszyklen resultiert, mehrdeutige Benutzeräußerungen, welche in Begriffserklärungszyklen resultieren, Hilfe-Anforderungen und alle Ereignisse, welche von einer effizienten und erfolgreichen Interaktionsfolge abweichen. Wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf eine Aufgaben-Erfüllungsrate und -zeit bezieht, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, welche die System-Benutzerführungen in mehr informative System-Benutzerführungen verändert, wenn die Rate unterhalb eines bestimmten Schwellwerts liegt. In verschiedenen Ausführungsformen, wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf Arbeits-Unterbrechungsereignisse, Benutzer-Antwortzeiten oder Benutzerabweichung von effizient formulierten Äußerungen bezieht, prüft das Einstellungs-Berechnungsgliedmodul 106 eine Beziehung zu einem aktuellen Dialogschritt, wenn der Dialogschritt wiederholt in dem gleichen Schritt ist, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die Benutzerführung und die Interaktionsfolge in kleinere Schritte mit geschlossenen Systemfragen zu verändern, für welche der Benutzer leicht weiß, wie er eine Antwort zu geben hat (z. B. da der mögliche Antwortraum eng ist).
  • Wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf niedriges Systemvertrauen bezieht, welches zu Bestätigungszyklen führt, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die Benutzerführungen in mehr informative System-Benutzerführungen zu ändern, so dass der Benutzer weiß, wie er zu antworten hat. Wenn das Muster-Detektormodul 104a ein Muster detektiert, welches sich auf mehrdeutige Benutzeräußerungen bezieht, welche zu Begriffserklärungszyklen führen, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die Benutzerführungen in System-Benutzerführungen zu ändern, welche dem Benutzer sagen, wie er genug Information in seine Antwort legt, um sie nicht mehrdeutig zu machen. In verschiedenen Ausführungsformen, wenn das Muster-Detektormodul 104a ein Muster identifiziert, welches sich auf Hilfe-Fragen bezieht, erzeugt das Einstellungs-Berechnungsgliedmodul 106 Einstellungen 109, um die System-Benutzerführungen in informativere Benutzerführungen zu verändern. Eine derartige Muster-Detektierung kann durch das Sammeln von Benutzerdaten durchgeführt werden, welche sich auf Erkennungskonfusionen des Systems beziehen, welche zum Beispiel dadurch detektiert sind, dass der Benutzer eine Bestätigung oder Mehrdeutigkeitsanforderungen zurückgewiesen oder korrigiert hat. In einem derartigen Fall werden die Daten in Konfusionsmatrizen gespeichert, welche wiederauftretende Konfusionen über die Zeit hinweg anzeigen.
  • Für alle identifizieren Muster, welche oben aufgelistet sind, sobald die Muster-Detektormodule 104a104n bestimmen, dass das Verhalten des Benutzers sich verändert hat, um effizienter und/oder leichter zu erkennen zu sein, erzeugt das Einstellungs-Berechnungsglied 106 Einstellungen 109, um die Sprachsystem-Benutzerführungen und/oder die Interaktionsfolge zurück zu einer ursprünglichen Einstellung zu verändern, wobei angenommen wird, dass der Benutzer Fachkenntnis im Benutzen des Systems gewonnen hat.
  • Mit Bezug zurück zu 3 ruft das Kontextdaten-Adaptionsmodul 66 aufgezeichnete Daten bzw. Protokoll-Daten von dem Datenaufzeichnungs-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die aufgezeichneten Daten Fahrzeugdaten 84, Fahrzeugkontextdaten 86 und Sprachsystemdaten 88. Die Fahrzeugdaten 84 können beinhalten, sind jedoch nicht darauf beschränkt: Fahrzeuggeschwindigkeitsdaten oder irgendwelche anderen Daten, welche in dem Kommunikationsbus 28 verfügbar sind. Die Fahrzeugkontextdaten 86 können beinhalten, sind jedoch nicht darauf begrenzt: aktueller Fahrort und aktuelle Fahrzeit, eine Straßenart, Verkehrsinformation, Wetter, einen Umgebungsgeräuschpegel, eine Anzahl von Insassen, eine Anzahl von angeschlossenen Benutzereinrichtungen, jegliche freigegebenen Internet- oder andere HMI-Anwendungen, jegliche freigegebenen Fahrzeugsysteme (d. h. Klimasteuerung, Fahrgeschwindigkeitssteuerung, Lichter, Getriebe, Scheibenwischer, etc.) oder jegliche anderen Daten, welche auf dem Kommunikationsbus oder direkt von den Fahrzeugsystemen 1626 verfügbar sind. Die Sprachsystemdaten 88 können beinhalten, sind jedoch nicht begrenzt auf: die Sprache, welche von dem Benutzer geäußert wird, die Sprachdarbietung und/oder andere Sprachcharakteristika, welche durch das Sprachsystem 10 identifiziert sind.
  • Das Kontextdaten-Adaptionsmodul 66 analysiert die aufgezeichneten Daten und detektiert wiederauftretende Muster zwischen dem Kontext, in welchem der Benutzer das System benutzt, und dem Interaktionsverhalten des Benutzers, wenn er das Sprachsystem 10 benutzt. Das Kontextdaten-Adaptionsmodul 66 stellt Aktualisierungen für die Aufgabenbevorzugungen 90 des Benutzers, Befehlspräferenzen 92 natürlicher Sprache und/oder Interaktionsfolge-Präferenzen 94 basierend auf den Mustern bereit. In verschiedenen Ausführungsformen werden die Einstellungen als Teil des Nutzerprofils 56 bereitgestellt (2).
  • Zum Beispiel stellen die Verkehrsdaten Information über einen Verkehrsstau auf der Route, auf welcher der Fahrer fährt, bereit. Zusätzlich unterstützen Geschwindigkeitsdaten von dem CAN-Bus, dass der Fahrer in dem Verkehrsstau ist, und Sicherheitssysteme (Sicherheitsgurt-Einstellungen) deuten an, dass er alleine in dem Wagen ist. Durch das Auswerten der aufgezeichneten Daten detektiert das Muster-Detektormodul 110a, dass der Benutzer eine große Anzahl von Telefonanrufen durchführt oder E-Mails diktiert, simst oder seinen Kalender zu diesen Zeiten aktualisiert. Das Benutzerprofil 56 (2) wird aktualisiert, um derartige Zeiten zu erkennen und um einen Erkennungsvorteil für diese Arten von Anforderungen während dieser Zustände bereitzustellen, und führt dies mit hoher Genauigkeit aus.
  • In einem anderen Beispiel fährt ein Fahrer mit anderen Leuten am Wochenende. Eine anfängliche Navigationsanforderung schlägt eine längere Fahrt zu einem Punkt von Interesse (POI) vor, welcher häufig von Touristen besucht wird. Zusätzlich hat der Fahrer sein iPod angeschlossen und verlangt danach, bestimmte Lieder zu hören. Durch das Auswerten der gesammelten bzw. aufgezeichneten Daten detektiert das Muster-Detektormodul 110a, dass der Fahrer POIs und Audio-Führungen zu POIs auf dem Weg anfordert und fordert an, zu einigen seiner Favoritenlieder oder auf die Audio-Führung zu dem POI von dem iPod bei derartigen Anlässen zu hören. Das Benutzerprofil 56 (2) wird aktualisiert, um derartige Zeiten zu erkennen und einen Erkennungsvorteil für diese Arten von Anforderungen während dieser Bedingungen bzw. Gegebenheiten bereitzustellen, und führt dies mit hoher Genauigkeit durch.
  • In verschiedenen beispielhaften Ausführungsformen, wie in 6 gezeigt wird, kann das Kontextdaten-Adaptionsmodul 66 beinhalten: ein oder mehrere Muster-Detektormodule 110a100n, ein oder mehrere Einstellungs-Berechnungsgliedmodule 112 und ein oder mehrere Benutzerprofil-Adaptierungsmodule 114. Die Muster-Detektormodule 110a100n analysieren die Daten für ein spezielles Muster 115a115n. Die Muster-Detektormodule 110a110n zum Beispiel detektieren Kontext-Cluster in Bezug auf Benutzeranforderungen oder Anforderungsarten. Die Einstellungs-Berechnungsgliedmodule 112 bestimmen Benutzerprofil-Einstellungen 117 basierend auf den detektierten Mustern 115a115n. Die Benutzerprofil-Adaptierungsmodule 114 stellen bereit: Benutzeraufgaben-Präferenzen 90, natürliche Sprachbefehle-Präferenzen 92 und/oder Interaktionsfolge-Präferenzen 94 für den Gebrauch in dem Benutzerprofil 56 (2) basierend auf den Einstellungen 117.
  • In verschiedenen Ausführungsformen bestimmen die Muster-Detektormodule 110a110n die Muster durch das Bestimmen einer Zunahme im Benutzerverhalten und durch das Bestimmen eines Musters des Kontextes während der Zunahme im Benutzerverhalten. Das Benutzerverhalten kann von verschiedenen Arten sein und kann sich auf die Frequenz bzw. Häufigkeit des Durchführens einer bestimmten Aufgabenart beziehen, das Benutzen eines bestimmten Vokabulars/Sprache, das Ausführen sich wiederholender Fehler oder das Bevorzugen einer bestimmten Informationsverteilung in seinen Äußerungen (z. B. das Bereitstellen inkrementierter Information in mehr als einer Äußerung gegenüber dem Sagen der gesamten Information, um eine Aufgabe in einer Äußerung zu vervollständigen, etc.). Sobald ein Muster 115a115n detektiert ist, stellen das Einstellungs-Berechnungsgliedmodul 112 und das Benutzerprofil-Adaptionsmodul 114 Einstellungen 117 und ein Benutzerprofil 56 (2) entsprechend zu dem erkannten Benutzerverhalten in dem Kontext bereit, z. B. entsprechend zu einer Aufgabenpräferenz bzw. -bevorzugung, einer Vokabularpräferenz, einer Kommandopräferenz und/oder einer Interaktionsfolge.
  • Mit Bezug zurück zu 3 ruft das Systemmodell-Adaptionsmodul 68 die aufgezeichneten bzw. gesammelten Daten von dem Protokolldaten-Datenspeicher 42 ab. In verschiedenen Ausführungsformen beinhalten die aufgezeichneten Daten einen gesprochenen Befehl 96, welcher von dem Benutzer gesprochen ist. In verschiedenen Ausführungsformen kann der Befehl 96 aus den aufgezeichneten Daten in dem Protokolldaten-Datenspeicher 42 (wie gezeigt) abgerufen werden oder kann alternativ in Echtzeit von dem HMI-Modul 14 (1) empfangen werden, wenn der Benutzer den Befehl spricht. Das Systemmodell-Adaptionsmodul 68 evaluiert den Befehl 96 und bestimmt ein optimales Modell für das Erkennen des Befehls. Zum Beispiel evaluiert das Systemmodell-Adaptionsmodul 68 den Befehl entsprechend wenigstens drei gesprochenen Sprachmodellen und ordnet den Befehl der Sprachäußerung einem der drei Modelle zu. Das Systemmodell-Adaptionsmodul 68 verfolgt, wie oft der Befehl 96 zu dem speziellen Modell gehört. Sobald der Befehl 96 dem speziellen Modell mit einer bestimmten Frequenz bzw. Häufigkeit zugeordnet ist, wird das Modell 98 ausgewählt, um mit dem Befehl 99 aktualisiert zu werden, indem der Befehl 99 dem Modell hinzugefügt wird, oder durch das Entfernen des Befehls 99 von dem Modell. Zusätzlich oder alternativ kann eine Gewichtung oder Wahrscheinlichkeit hinzugefügt werden, welche mit einer beobachteten Häufigkeit des Befehls 99 übereinstimmt oder welche mit einer beobachteten Häufigkeit von Wörtern, Phrasen oder Übergängen von Wörtern zu Wörtern innerhalb eines Befehls 99 übereinstimmt, und das Modell kann mit der Gewichtung oder Wahrscheinlichkeit aktualisiert werden.
  • Jedes benutzte Modell bietet einen Vorteil in wenigstens einem von Folgendem: der Anzahl von unterstützten Phrasen, der Tiefe der Phrasen, einer Wartezeit der Bearbeitung, der Genauigkeit der Erkennung und der Bearbeitungszeit. Die Kombination der gewählten Modelle stellt Vorteile bei wenigstens zwei der oben aufgelisteten bereit. Zum Beispiel ist in verschiedenen Ausführungsformen das erste Sprachmodell ein festes Modell, welches eine feste Liste von erkennbaren Befehlen beinhaltet, welches als ein festes Listenmodell 116 bezeichnet wird (10). Ein festes Listenmodell 116 bietet den Vorteil der verbesserten Wartezeit, verbesserter Genauigkeit und verbesserter Bearbeitungszeit und kann als ein optimaleres Modell betrachtet werden. Ein derartiges Modell kann eine Finite State Grammar bzw. Finite Status-Grammatik (FSG) beinhalten, ist jedoch nicht darauf begrenzt. Das zweite Sprachmodell besitzt einen breiteren Umfang an Erkennung von Phrasen, welche als ein Modell weiter gefassten Umfangs 118 (7) bezeichnet wird. Ein Modell 118 weiteren Umfangs erkennt einen weiteren Umfang an Befehlen, stellt jedoch eine höhere Wartezeit und verminderte Genauigkeit bereit. Ein derartiges Modell kann ein Statistische-Sprache-Modell (SLM) beinhalten, ist jedoch nicht darauf begrenzt. Das dritte Sprachmodell ist eine Kombination zwischen den zwei Modellen, so dass es die Ergebnisse der beiden Sprachmodelle vermitteln kann, welches als das Vermittlungsgliedmodell 120 bezeichnet wird (10). Ein derartiges Modell kann ein strukturelles Gleichungsmodell (SEM) beinhalten, ist jedoch nicht darauf beschränkt. Wie gewürdigt werden kann, können die Modelle, welche durch das Systemmodell-Adaptionsmodul 68 implementiert sind, jegliche Sprachmodelle sein und sind nicht auf die vorliegenden Beispiele begrenzt.
  • Wie gewürdigt werden kann, kann das Daten-Analysierungsmodul 38 ein Adaptionsmodul oder jegliche Kombination der oben beschriebenen Adaptionsmodule beinhalten. In dem Fall, in welchem viele Adaptionsmodule implementiert sind, kann sich der Ausgang eines Adaptionsmoduls auf andere Adaptionsmodule stützen und/oder kann auf gewisse Weise durch das System-Aktualisierungsmodul 40 kombiniert werden (2). Durch das Verfolgen der Befehle auf diese Weise und durch das Wandern der Befehle von einem weniger optimalen Modell zu einem optimaleren Modell wird das optimalere Modell als Vorteil hergenommen, ohne die Flexibilität des Systems zu opfern. Demnach wird sich das Erkennen der Befehle über die Zeit hinweg mit weniger Widerholungsanforderungen oder Bestätigungszyklen signifikant verbessern.
  • Mit Bezug nun auf 710 und mit fortlaufendem Bezug auf 16 stellen Abfolge- bzw. Sequenz-Diagramme die Adaptionsverfahren dar, welche durch das Sprachsystem 10 entsprechend zu verschiedenen beispielhaften Ausführungsformen durchgeführt werden können. Wie im Lichte der Offenbarung gewürdigt werden kann, ist die Reihenfolge des Betriebes innerhalb der Verfahren nicht auf das sequenzielle Ausführen begrenzt, wie es in 710 dargestellt wird, sondern kann in einer oder mehreren variierenden Reihenfolgen durchgeführt werden, wie es mit der vorliegenden Offenbarung anwendbar und entsprechend zu dieser ist. Wie ferner gewürdigt werden kann, kann einer oder mehrere Schritte der Verfahren hinzugefügt oder entfernt werden, ohne den Geist des Verfahrens zu ändern.
  • Mit Bezug auf 7 stellt ein Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 zu adaptieren, basierend auf einer Benutzer-Charakterisierung. Wie gezeigt wird, werden die Befehle, jegliche Kontextinformation und ihre Darbietung bei 200 zum Beispiel von dem HMI-Modul 14 (oder dem Kommunikationsbus 28) empfangen und durch das Daten-Sammlermodul 36 bei 202 aufgezeichnet. Die aufgezeichneten Daten werden von dem Protokolldaten-Datenspeicher 42 bei 210 aufgerufen und durch einen oder mehrere charakteristische Detektormodule 100a100n bei 220 evaluiert. Das Sprachmodell-Auswahlglied und das Zusammenlegungsmodul 102 evaluieren dann die identifizierten Charakteristika 105a105n, um zu sehen, ob die Charakteristik, welche mit einer bestimmten Frequenz bzw. Häufigkeit (z. B. X Anzahl von Zeitpunkten, wobei X eine konfigurierbare Anzahl größer als eins ist) und Vertrauen bei 230 auftreten. Wenn die Charakteristik mit einer bestimmten Häufigkeit aufgetreten ist, wird ein Sprachmodell 74, welches zu der Charakteristik gehört, ausgewählt und dem System-Aktualisierungsmodul 40 für das Aktualisieren bei 240 bereitgestellt. Das System-Aktualisierungsmodul 40 empfängt das Sprachmodell 74 bei 250 und aktualisiert ein aktuelles Sprachmodell, wobei das Sprachmodell 74 (z. B. durch Kombinieren der beiden Modelle oder auf irgendeine andere Weise) bei 260 benutzt wird.
  • Mit Bezug auf 8 stellt ein Abfolge- bzw. Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 zu adaptieren, basierend auf Benutzerkompetenz. Wie gezeigt wird, werden die Befehle und die Darbietungsdaten bei 310 zum Beispiel von dem HMI-Modul 14 empfangen und durch das Daten-Sammlermodul 36 bei 312 aufgezeichnet. Die aufgezeichneten Daten werden von dem Protokolldaten-Datenspeicher 42 bei 320 aufgerufen. Die Muster-Detektormodule 104a104n evaluieren die aufgezeichneten Daten und kompilieren wiederauftretende Muster 107a107n, welche zu der Benutzerkompetenz gehören, bei 330. Die Muster 107a107n werden dann zu dem Einstellungs-Berechnungsgliedmodul 106 bei 340 gesendet. Basierend auf den Mustern 107a107n berechnet das Einstellungen-Berechnungsgliedmodul 106 die empfohlenen System-Interaktionseinstellungen 109 für die gesamte Interaktionsstrategie (z. B. den allgemeinen Wortschatzpegel der Benutzerführungen) und/oder für spezielle Dialogsituationen (z. B. Bestätigung im speziellen Kontext) bei 350. Die Benutzersystem-Interaktions-einstellungen 109 werden zu dem Benutzerprofil-Adaptierungs-modul 108 bei 360 gesendet. Das Benutzerprofil-Adaptierungs-modul 108 adaptiert die Einstellungen des Benutzerprofils 370. Das Benutzerprofil wird an das System-Aktualisierungsmodul 40 bei 380 gesendet. Das System-Aktualisierungsmodul 40 aktualisiert die Systemeinstellungen mit dem adaptierten Benutzerprofil bei 390.
  • Mit Bezug auf 9 stellt ein Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 basierend auf den Kontextdaten zu adaptieren. Wie gezeigt wird, werden die Fahrzeugdaten 84, die Kontextdaten 86 und die Sprachsystemdaten 88 bei 410 empfangen und durch das Daten-Sammlermodul 36 bei 412 aufgezeichnet. Die aufgezeichneten Daten werden von dem Protokolldaten-Datenspeicher 42 bei 420 wiederaufgerufen. Die Muster-Detektormodule 110a110n evaluieren die aufgezeichneten Daten und kompilieren wiederkehrende Muster 115a115n, welche zu den Daten gehören, von dem anderen HMI-Modul 14 (z. B. Navigationssystem, Cluster-Stapel, Internet-Info) oder den Aufzeichnungssystemen des Fahrzeugs (CAN-Bus), Kontextdaten, wie zum Beispiel einen aktuellen Fahrort und eine aktuelle Fahrzeit, die Straßenart, den Verkehr, das Wetter, die Fahrgeschwindigkeit, den Umgebungsgeräuschpegel, die Anzahl der Insassen, angeschlossene Benutzereinrichtungen, freigegebene Internet- oder andere HMI-Anwendungen, freigegebene Fahrzeugsysteme, wie zum Beispiel eine Klimasteuerung, ein aktiver Tempomat, Lichter, Getriebe, Windschutzscheibenwischer, etc. bei 430.
  • Die Muster 115a115n werden zu dem Einstellungen-Berechnungsgliedmodul 112 bei 440 gesendet. Basierend auf den Mustern 115a115n bestimmt das Einstellungen-Berechnungsgliedmodul 112 die empfohlenen System-Interaktionseinstellungen 117 für die gesamte Interaktionsstrategie (z. B. allgemeiner Wortschatzpegel der Benutzerführungen) und/oder für spezielle Dialogsituationen (z. B. Bestätigung im speziellen Kontext) bei 450. Die Benutzersystem-Interaktionseinstellungen werden an das Benutzerprofil-Adaptermodul 114 bei 460 gesendet. Das Benutzerprofil-Adaptermodul 114 adaptiert die Einstellungen des Benutzerprofils bei 470. Das Benutzerprofil wird an das System-Aktualisierungsmodul 40 bei 480 gesendet. Das System-Aktualisierungsmodul 40 aktualisiert die Systemeinstellungen mit dem adaptierten Benutzerprofil bei 490.
  • Mit Bezug auf 10 stellt ein Sequenzdiagramm eine beispielhafte Sequenz dar, welche durchgeführt werden kann, um das Sprachsystem 10 basierend auf adaptierten Systemmodellen zu adaptieren. Wie gezeigt wird, wird der Befehl zum Beispiel bei 510 von dem HMI-Modul 14 empfangen und durch das Daten-Sammelmodul 36 bei 512 aufgezeichnet. Der Befehl wird von dem Protokolldaten-Datenspeicher 42 bei 520 aufgerufen. Alternativ wird der Befehl 96 direkt an dem HMI-Modul 14 bei 530 empfangen. Der Befehl 96 wird durch das Systemmodell-Adaptionsmodul 68 bearbeitet, um das optimale Sprachmodell für den Befehl zu bestimmen. Zum Beispiel wird der Befehl 96 durch das feste Listemodell 116 bei 540 bearbeitet und an das Vermittlermodell 120 bei 550 gesendet. Der Befehl 96 wird gleichzeitig oder kurz danach von dem Protokolldaten-Datenspeicher 42 bei 555 aufgerufen und durch das Modell 118 des weiteren Umfangs bei 560 bearbeitet. Alternativ wird der Befehl 96 direkt von dem HMI-Modul 14 bei 557 empfangen und durch das Modell 118 des weiteren Umfangs bei 560 bearbeitet.
  • Die Ergebnisse des Modells 118 des weiteren Umfangs werden zu dem Vermittlermodell 120 bei 570 gesendet. Die Ergebnisse für das fixierte Listemodell 116 und das Modell 118 des weiteren Umfangs werden durch das Vermittlermodell 120 bei 580 bearbeitet. Die Ergebnisse des Vermittlergliedes werden bei 590 evaluiert, um zu sehen, ob das Ergebnis mit einer bestimmten Häufigkeit (z. B. einer X Anzahl von Zeitpunkten, wobei X eine konfigurierbare Anzahl größer als eins ist) aufgetreten ist. Wenn das Ergebnis des Vermittlergliedes mit einer bestimmten Häufigkeit aufgetreten ist, werden das Ergebnis und das Modell dem System-Aktualisierungsmodul 40 für das Aktualisieren bei 600 bereitgestellt. Das System-Aktualisierungsmodul empfängt das Ergebnis und das Modell und aktualisiert das Systemmodell mit dem Ergebnis bei 610.
  • Während wenigstens eine beispielhafte Ausführungsform in der vorhergegangenen detaillierten Beschreibung präsentiert worden ist, sollte gewürdigt werden, dass eine große Anzahl von Variationen existiert. Es sollte auch gewürdigt werden, dass die beispielhafte Ausführungsform oder beispielhaften Ausführungsformen nur Beispiele sind und dass nicht beabsichtigt ist, dass diese den Umfang, die Anwendbarkeit oder die Konfiguration der Veröffentlichung in irgendeiner Weise begrenzen. Vielmehr wird die vorhergegangene detaillierte Beschreibung Fachleuten eine bequeme Anleitung für das Implementieren der beispielhaften Ausführungsform und beispielhaften Ausführungsformen bereitstellen. Es sollte davon ausgegangen werden, dass verschiedene Änderungen in der Funktion und in der Anordnung der Elemente durchgeführt werden können, ohne vom Umfang der Veröffentlichung abzuweichen, wie er in den angehängten Ansprüchen und den rechtlichen Äquivalenten davon dargelegt ist.
  • WEITERE AUSFÜHRUNGSFORMEN
    • 1. Verfahren für das Adaptieren eines Sprachsystems, welches aufweist: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf dem Evaluieren.
    • 2. Verfahren nach Ausführungsform 1, wobei das Bearbeiten des gesprochenen Befehls aufweist: Bearbeiten des gesprochenen Befehls, wobei ein erstes Sprachmodell eines ersten Modelltyps benutzt wird, um ein erstes Ergebnis zu erhalten; Bearbeiten des gesprochenen Befehls, wobei ein zweites Sprachmodell eines zweiten Modelltyps benutzt wird, um ein zweites Ergebnis zu erhalten; und Bearbeiten des ersten Ergebnisses und des zweiten Ergebnisses, wobei ein drittes Sprachmodul eines dritten Modelltyps benutzt wird, um ein drittes Ergebnis zu erhalten.
    • 3. Verfahren nach Ausführungsform 2, welches ferner aufweist: Auswählen wenigstens eines des ersten Sprachmodells und des ersten Ergebnisses und des zweiten Sprachmodells und des zweiten Ergebnisses, basierend auf dem dritten Ergebnis; und Aktualisieren eines Systemmodells, basierend auf dem Auswählen.
    • 4. Verfahren nach Ausführungsform 3, welches ferner das Bestimmen einer Frequenz des dritten Ergebnisses aufweist; und wobei das Auswählen des wenigstens einen, des ersten Sprachmodells und des ersten Ergebnisses, und des zweiten Sprachmodells und des zweiten Ergebnisses auf der Frequenz basiert.
    • 5. Verfahren nach Ausführungsform 1, wobei das Bearbeiten des gesprochenen Befehls das Bearbeiten des gesprochenen Befehls aufweist, wobei wenigstens drei Sprachmodelle von wenigstens drei unterschiedlichen Modelltypen benutzt werden.
    • 6. Verfahren nach Ausführungsform 5, wobei ein erstes Sprachmodell ein festgelegter Sprachmodelltyp ist, welcher eine festgelegte Liste von Befehlen erkennt.
    • 7. Verfahren nach Ausführungsform 5, wobei ein zweites Sprachmodell ein Modelltyp weiteren Umfangs ist, welcher Phrasen erkennt.
    • 8. Verfahren nach Ausführungsform 5, wobei ein drittes Sprachmodell ein Vermittler- bzw. Schiedsrichtermodelltyp ist, welcher die Ergebnisse von anderen Modellen schiedsrichterlich entscheidet.
    • 9. Verfahren nach Ausführungsform 5, wobei ein erstes Modell ein Modelltyp einer Finiter-Status-Grammatik ist, ein zweites Modell ein Modelltyp einer Statischen Sprache ist und ein drittes Modell ein Modelltyp einer Strukturellen Gleichung ist.
    • 10. Verfahren nach Ausführungsform 1, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren des einen oder mehrerer Modelle ist, um den gesprochenen Befehl zu beinhalten oder auszuschließen, basierend auf der Evaluierung.
    • 11. Verfahren nach Ausführungsform 1, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren wenigstens eines von Folgendem aufweist: eine Wichtung und eine Wahrscheinlichkeit innerhalb des Modells basierend auf der Evaluierung.
    • 12. System für das Aktualisieren eines Sprachsystems, welches aufweist: ein erstes Modul, welches einen gesprochenen Befehl mit einem oder mehreren Modellen eines oder mehrerer Modelltypen bearbeitet, um Modellergebnisse zu erreichen; ein zweites Modul, welches eine Frequenz der Modellergebnisse evaluiert; und ein drittes Modul, welches selektiv das eine oder mehrere Modelle des einen oder mehrerer Modelltypen aktualisiert, basierend auf der Evaluierung.
    • 13. System nach Ausführungsform 12, wobei das erste Modul den gesprochenen Befehl bearbeitet, wobei ein erstes Sprachmodell eines ersten Modelltyps benutzt wird, um ein erstes Ergebnis zu erhalten, den gesprochenen Befehl bearbeitet, wobei ein zweites Sprachmodell eines zweiten Modelltyps benutzt wird, um ein zweites Ergebnis zu erhalten, und das erste Ergebnis und das zweite Ergebnis bearbeitet, wobei ein drittes Sprachmodul eines dritten Modelltyps benutzt wird, um ein drittes Ergebnis zu erhalten.
    • 14. System nach Ausführungsform 12, wobei das zweite Modul wenigstens eines, des ersten Sprachmodells und des ersten Ergebnisses, und das zweite Sprachmodell und das zweite Ergebnis basierend auf dem dritten Ergebnis auswählt, und wobei das dritte Modul ein Systemmodell, basierend auf der Auswahl, aktualisiert.
    • 15. System nach Ausführungsform 14, wobei das zweite Modul eine Frequenz des dritten Ergebnisses bestimmt und das wenigstens eine, des ersten Sprachmodells und des ersten Ergebnisses, und das zweite Sprachmodell und das zweite Ergebnis, basierend auf der Frequenz, auswählt.
    • 16. System nach Ausführungsform 12, wobei das erste Modul den gesprochenen Befehl durch das Bearbeiten des gesprochenen Befehls bearbeitet, wobei wenigstens drei Sprachmodelle von wenigstens drei unterschiedlichen Modelltypen benutzt werden.
    • 17. System nach Ausführungsform 16, wobei ein erstes Sprachmodell ein festgelegter Sprachmodelltyp ist, welcher eine festgelegte Liste von Befehlen erkennt.
    • 18. System nach Ausführungsform 16, wobei ein zweites Sprachmodell ein Modelltyp weiteren Umfangs ist, welcher Phrasen erkennt.
    • 19. System nach Ausführungsform 16, wobei ein drittes Sprachmodell ein Schiedsrichter-Modelltyp ist, welcher Ergebnisse von anderen Modellen schiedsrichterlich entscheidet.
    • 20. System nach Ausführungsform 12, wobei das dritte Modul selektiv das eine oder mehrere Modelle aktualisiert, um den gesprochenen Befehl basierend auf der Evaluierung zu beinhalten oder auszuschließen.
    • 21. System nach Ausführungsform 12, wobei das dritte Modul selektiv wenigstens eines von Folgendem aktualisiert: eine Wichtung und eine Wahrscheinlichkeit des einen oder mehrerer Modelle, basierend auf der Evaluierung.

Claims (10)

  1. Verfahren für das Adaptieren eines Sprachsystems, welches aufweist: Bearbeiten eines gesprochenen Befehls mit einem oder mehreren Modellen eines oder mehrerer Modelltypen, um Modellergebnisse zu erreichen; Evaluieren einer Frequenz der Modellergebnisse; und selektives Aktualisieren des einen oder mehrerer Modelle des einen oder mehrerer Modelltypen basierend auf dem Evaluieren.
  2. Verfahren nach Anspruch 1, wobei das Bearbeiten des gesprochenen Befehls aufweist: Bearbeiten des gesprochenen Befehls, wobei ein erstes Sprachmodell eines ersten Modelltyps benutzt wird, um ein erstes Ergebnis zu erhalten; Bearbeiten des gesprochenen Befehls, wobei ein zweites Sprachmodell eines zweiten Modelltyps benutzt wird, um ein zweites Ergebnis zu erhalten; und Bearbeiten des ersten Ergebnisses und des zweiten Ergebnisses, wobei ein drittes Sprachmodul eines dritten Modelltyps benutzt wird, um ein drittes Ergebnis zu erhalten.
  3. Verfahren nach einem der vorherigen Ansprüche, welches ferner aufweist: Auswählen wenigstens eines, des ersten Sprachmodells und des ersten Ergebnisses, und des zweiten Sprachmodells und des zweiten Ergebnisses, basierend auf dem dritten Ergebnis; und Aktualisieren eines Systemmodells, basierend auf dem Auswählen.
  4. Verfahren nach einem der vorherigen Ansprüche, welches ferner das Bestimmen einer Frequenz des dritten Ergebnisses aufweist; und wobei das Auswählen des wenigstens einen, des ersten Sprachmodells und des ersten Ergebnisses, und des zweiten Sprachmodells und des zweiten Ergebnisses auf der Frequenz basiert.
  5. Verfahren nach einem der vorherigen Ansprüche, wobei das Bearbeiten des gesprochenen Befehls das Bearbeiten des gesprochenen Befehls aufweist, wobei wenigstens drei Sprachmodelle von wenigstens drei unterschiedlichen Modelltypen benutzt werden.
  6. Verfahren nach Anspruch 5, wobei ein erstes Sprachmodell ein festgelegter Sprachmodelltyp ist, welcher eine festgelegte Liste von Befehlen erkennt und/oder ein zweites Sprachmodell ein Modelltyp weiteren Umfangs ist, welcher Phrasen erkennt.
  7. Verfahren nach Anspruch 5 oder 6, wobei ein drittes Sprachmodell ein Vermittler- bzw. Schiedsrichtermodelltyp ist, welcher die Ergebnisse von anderen Modellen schiedsrichterlich entscheidet.
  8. Verfahren nach einem der vorherigen Ansprüche, wobei ein erstes Modell ein Modelltyp einer Finiter-Status-Grammatik ist, ein zweites Modell ein Modelltyp einer Statischen Sprache ist und ein drittes Modell ein Modelltyp einer Strukturellen Gleichung ist.
  9. Verfahren nach einem der vorherigen Ansprüche, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren des einen oder mehrerer Modelle ist, um den gesprochenen Befehl zu beinhalten oder auszuschließen, basierend auf der Evaluierung.
  10. Verfahren nach Ausführungsform 1, wobei das selektive Aktualisieren des einen oder mehrerer Modelle das selektive Aktualisieren wenigstens eines von Folgendem aufweist: eine Wichtung und eine Wahrscheinlichkeit innerhalb des Modells, basierend auf der Evaluierung.
DE102013223036.2A 2012-11-13 2013-11-12 Adaptionsverfahren für Sprachsysteme Active DE102013223036B4 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261725802P 2012-11-13 2012-11-13
US61/725,802 2012-11-13
US14/059,813 2013-10-22
US14/059,813 US9601111B2 (en) 2012-11-13 2013-10-22 Methods and systems for adapting speech systems

Publications (2)

Publication Number Publication Date
DE102013223036A1 true DE102013223036A1 (de) 2014-05-15
DE102013223036B4 DE102013223036B4 (de) 2022-12-15

Family

ID=50556088

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013223036.2A Active DE102013223036B4 (de) 2012-11-13 2013-11-12 Adaptionsverfahren für Sprachsysteme

Country Status (3)

Country Link
US (1) US9601111B2 (de)
CN (1) CN103811002B (de)
DE (1) DE102013223036B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018133149A1 (de) * 2018-12-20 2020-06-25 Bayerische Motoren Werke Aktiengesellschaft Multimodale Mehrstufeninteraktion

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US9858920B2 (en) * 2014-06-30 2018-01-02 GM Global Technology Operations LLC Adaptation methods and systems for speech systems
US20160328197A1 (en) * 2015-05-04 2016-11-10 GM Global Technology Operations LLC Vehicle data enforcement and contextual interference module for in-vehicle app development
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
US9972313B2 (en) 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10468019B1 (en) * 2017-10-27 2019-11-05 Kadho, Inc. System and method for automatic speech recognition using selection of speech models based on input characteristics
US10691894B2 (en) * 2018-05-01 2020-06-23 Disney Enterprises, Inc. Natural polite language generation system
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
EP3598377A1 (de) * 2018-07-20 2020-01-22 KBC Groep NV Verbesserte anspruchshandhabung
JP6731451B2 (ja) * 2018-07-20 2020-07-29 本田技研工業株式会社 車両管理システム、車両管理プログラム及び車両管理方法
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
CN109949797B (zh) * 2019-03-11 2021-11-12 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
US7203651B2 (en) * 2000-12-07 2007-04-10 Art-Advanced Recognition Technologies, Ltd. Voice control system with multiple voice recognition engines
US7072838B1 (en) * 2001-03-20 2006-07-04 Nuance Communications, Inc. Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US20040210437A1 (en) * 2003-04-15 2004-10-21 Aurilab, Llc Semi-discrete utterance recognizer for carefully articulated speech
WO2006003542A1 (en) * 2004-06-29 2006-01-12 Philips Intellectual Property & Standards Gmbh Interactive dialogue system
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7729911B2 (en) 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20070276651A1 (en) 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
US20080004880A1 (en) * 2006-06-15 2008-01-03 Microsoft Corporation Personalized speech services across a network
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
JP5127201B2 (ja) * 2006-11-08 2013-01-23 キヤノン株式会社 情報処理装置及び方法並びにプログラム
US7415409B2 (en) * 2006-12-01 2008-08-19 Coveo Solutions Inc. Method to train the language model of a speech recognition system to convert and index voicemails on a search engine
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
CN102037481A (zh) * 2008-03-19 2011-04-27 苹果核网络股份有限公司 用于检测行为模式的方法及设备
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
US8417526B2 (en) * 2009-03-13 2013-04-09 Adacel, Inc. Speech recognition learning system and method
US8571866B2 (en) * 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
US9484027B2 (en) 2009-12-10 2016-11-01 General Motors Llc Using pitch during speech recognition post-processing to improve recognition accuracy
KR101622111B1 (ko) * 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US9043205B2 (en) * 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US20140039893A1 (en) * 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018133149A1 (de) * 2018-12-20 2020-06-25 Bayerische Motoren Werke Aktiengesellschaft Multimodale Mehrstufeninteraktion

Also Published As

Publication number Publication date
DE102013223036B4 (de) 2022-12-15
CN103811002B (zh) 2017-07-18
US9601111B2 (en) 2017-03-21
CN103811002A (zh) 2014-05-21
US20140136200A1 (en) 2014-05-15

Similar Documents

Publication Publication Date Title
DE102013223036B4 (de) Adaptionsverfahren für Sprachsysteme
DE102013222507B4 (de) Verfahren zum Adaptieren eines Sprachsystems
DE102013222757A1 (de) Adaptionsverfahren und -systeme für Sprachsysteme
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE102014201676B4 (de) Verfahren für das Steuern des Dialogs von Sprachsystemen
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
DE102018128006A1 (de) Natürlichsprachliche generierung basierend auf dem benutzersprachstil
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE102014017384B4 (de) Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
DE102013007502A1 (de) Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen
DE102014203540A1 (de) Systeme und verfahren für das steuern eines dialog-kontextes in sprachsystemen
DE102014109121A1 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102018108947A1 (de) Vorrichtung zum Korrigieren eines Äußerungsfehlers eines Benutzers und Verfahren davon
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
EP2727773A1 (de) Verfahren zum Aktivieren einer Sprachinteraktion mit einem Insassen eines Fahrzeugs und Sprachinteraktionssystem für ein Fahrzeug
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung
DE102021212744A1 (de) Dialogsystem, fahrzeug mit demselben und verfahren zum steuern eines dialogsystems
DE102013222520B4 (de) Verfahren für ein sprachsystem eines fahrzeugs
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
Bechet et al. Mining spoken dialogue corpora for system evaluation and modelin
DE102018221712A1 (de) Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug
DE102015226408A1 (de) Verfahren und Vorrichtung zum Durchführen einer Spracherkennung zum Steuern zumindest einer Funktion eines Fahrzeugs

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0015060000

R016 Response to examination communication
R082 Change of representative

Representative=s name: LKGLOBAL LORENZ UND KOPF PATENTANWALT, ATTORNE, DE

Representative=s name: LKGLOBAL | LORENZ & KOPF PARTG MBB PATENTANWAE, DE

Representative=s name: LKGLOBAL ] LORENZ & KOPF PARTG MBB PATENTANWAE, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final