DE102013222520B4

DE102013222520B4 - Verfahren für ein sprachsystem eines fahrzeugs

Info

Publication number: DE102013222520B4
Application number: DE102013222520.2A
Authority: DE
Inventors: Ron M. Hecht; Omer Tsimhoni; Ute Winter; Robert D. Sims
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2012-11-13
Filing date: 2013-11-06
Publication date: 2016-09-22
Anticipated expiration: 2033-11-07
Also published as: US20140136204A1; CN103871400A; DE102013222520A1

Abstract

Verfahren für ein Sprachsystem (10) eines Fahrzeugs, welches aufweist: Erzeugen von Äußerungssignaturen (48) für eine Mehrzahl von Benutzern aus jeweils einer Sprachäußerung (46) der jeweiligen Benutzer, welche von den Benutzern des Sprachsystems (10) empfangen werden, Identifizieren der Benutzer basierend auf den Äußerungssignaturen (48); Schrittweises Entwickeln von Benutzersignaturen (50) für jeden der Benutzer basierend auf den Äußerungssignaturen (48); und Steuern von Dialogen mit zwei oder mehreren Benutzern basierend auf den entsprechenden Benutzersignaturen (50), wobei das Steuern der Dialoge das separate Verfolgen und Einstellen von Interaktionsfolgen für jeden der Benutzer aufweist.

Description

TECHNISCHER BEREICH
Der technische Bereich bezieht sich im Allgemeinen auf Sprachsysteme, und spezieller ausgedrückt bezieht er sich auf Verfahren und Systeme für das Erzeugen von Benutzersignaturen für Sprachsysteme eines Fahrzeugs.
HINTERGRUND
Fahrzeug-Sprachsysteme führen eine Spracherkennung bezüglich der Sprache durch, welche von Insassen des Fahrzeugs geäußert wird. Die Sprachäußerungen beinhalten typischerweise Befehle, welche ein oder mehrere Merkmale des Fahrzeugs oder andere Systeme steuern, welche von dem Fahrzeug aus zugreifbar sind, wie zum Beispiel Bankverkehr oder Einkaufen, jedoch nicht auf diese begrenzt. Die Sprach-Dialogsysteme nutzen generische Dialogtechniken, so dass Sprachäußerungen von irgendeinem Insassen des Fahrzeugs bearbeitet werden können. Jeder Benutzer kann unterschiedliche Fähigkeitsgrade und Präferenzen besitzen, wenn er das Sprach-Dialogsystem benutzt. Demnach kann ein generisches Dialogsystem nicht für alle Benutzer wünschenswert sein.
Entsprechend ist es wünschenswert, Verfahren und Systeme für das Identifizieren und Führen von Nutzern bereitzustellen. Entsprechend ist es ferner wünschenswert, Verfahren und Systeme für das Steuern und Adaptieren eines Dialogsystems bereitzustellen, basierend auf dem Identifizieren und Führen von Nutzern. Außerdem werden andere wünschenswerte Merkmale und Charakteristika der vorliegenden Erfindung aus der nachfolgenden detaillierten Beschreibung und den angehängten Ansprüchen offensichtlich, welche in Verbindung mit den beigefügten Zeichnungen und dem vorhergegangenen technischen Bereich und Hintergrund gegeben werden.
Die Druckschrift DE 101 91 732 B4 offenbart eine selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem. Die US 2003/0088414 A1 zeigt ein automatisches Adaptieren eines Sprechermodells an verschiedene Sprecher.
Die Aufgabe der vorliegenden Erfindung liegt darin eine Sprachsteuerung mit mehreren Benutzern zu verbessern. Diese Aufgabe wird gelöst durch ein Verfahren für ein Sprachsystem eines Fahrzeugs mit den Merkmalen des Patentanspruchs 1 und die Ausgestaltungen nach den Patentansprüchen 2 bis 9.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die beispielhaften Ausführungsformen werden hier nachfolgend in Verbindung mit den folgenden gezeichneten Figuren beschrieben, wobei gleiche Ziffern gleiche Elemente bezeichnen, und worin:
1 ein Blockdiagramm eines Fahrzeugs ist, welches ein Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen beinhaltet;
2 ein Datenflussdiagramm ist, welches eine Signaturmaschine des Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen darstellt; und
3 ein Abfolgediagramm ist, welches ein Signatur-Erzeugungsverfahren darstellt, welches von dem Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen durchgeführt werden kann.
DETAILLIERTE BESCHREIBUNG
Wie es hier gebraucht wird, bezieht sich der Term Modul auf eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, speziell zugeordnet oder Gruppe) und einen Speicher, welcher eines oder mehrere Software- oder Firmware-Programme ausführt, eine kombinierte logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktionalität bereitstellen.
Entsprechend zu beispielhaften Ausführungsformen der vorliegenden Offenbarung wird ein Sprachsystem 10 gezeigt, welches innerhalb eines Fahrzeugs 12 beinhaltet ist. In verschiedenen beispielhaften Ausführungsformen stellt das Sprachsystem 10 eine Spracherkennung und/oder einen Dialog für ein oder mehrere Fahrzeugsysteme über ein Human Machine Interface- bzw. Mensch-Maschine-Schnittstellen-(HMI-)Modul 14 bereit. Derartige Fahrzeugsysteme können zum Beispiel beinhalten, sind jedoch nicht darauf begrenzt, ein Telefonsystem 16, ein Navigationssystem 18, ein Mediensystem 20, ein Telematiksystem 22, ein Netzsystem 24 oder irgendein anderes Fahrzeugsystem, welches eine sprachabhängige Anwendung beinhalten kann. Wie gewürdigt werden kann, sind eine oder mehrere Ausführungsformen des Sprachsystems 10 bei anderen Nicht-Fahrzeugsystemen anwendbar, welche sprachabhängige Anwendungen besitzen, und demnach nicht auf das vorliegende Fahrzeugbeispiel begrenzt.
Das Sprachsystem 10 kommuniziert mit vielen Fahrzeugsystemen 16–24 über das HMI-Modul 14 und einen Kommunikationsbus und/oder andere Kommunikationseinrichtungen 26 (z. B. über Draht, über Kurzbereichsfunk oder über Weitbereichsfunk). Der Kommunikationsbus kann zum Beispiel ein CAN-Bus sein, ist jedoch nicht darauf begrenzt.
Das Sprachsystem 10 beinhaltet ein Speech Recognition Engine- bzw. Spracherkennungsmaschine-(ASR-)Modul 32 und ein Dialog-Steuermodul 34. Wie gewürdigt werden kann, können das ASR-Modul 32 und das Dialog-Steuermodul 34 als getrennte Systeme und/oder als ein kombiniertes System, wie gezeigt, implementiert werden. Das ASR-Modul 32 empfängt und bearbeitet Sprachäußerungen von dem HMI-Modul 14. Einige (z. B. basierend auf einem Vertrauensschwellwert) der erkannten Befehle aus der Sprachäußerung werden zu dem Dialog-Steuermodul 34 gesendet. Das Dialog-Steuermodul 34 steuert eine Interaktions- bzw. Betätigungssequenz und Aufforderungen bzw. Benutzerführungen basierend auf dem Befehl. In verschiedenen Ausführungsformen kann das Sprachsystem 10 ferner eine Text-zu-Sprache-Maschine (nicht gezeigt) beinhalten, welche Text, welcher von dem HMI-Modul empfangen ist, empfängt und bearbeitet. Die Text-zu-Sprache-Maschine erzeugt Befehle, welche in ähnlicher Weise für den Gebrauch durch das Dialog-Manager-Modul 34 sind.
In verschiedenen beispielhaften Ausführungsformen beinhaltet das Sprachsystem 10 ferner ein Signaturmaschine-Modul 30. Das Signaturmaschine-Modul 30 empfängt und bearbeitet die Sprach-äußerungen von dem HMI-Modul 14. Zusätzlich oder alternativ empfängt und bearbeitet das Signaturmaschine-Modul 30 Information, welche durch die Bearbeitung erzeugt ist, welche durch das ASR-Modul 32 durchgeführt ist (z. B. Merkmale, welche durch den Spracherkennungsprozess extrahiert sind, Wortgrenzen, welche durch den Spracherkennungsprozess identifiziert sind, etc.). Das Signaturmaschine-Modul 30 identifiziert Benutzer des Sprachsystems 10 und bildet eine Benutzersignatur für jeden Benutzer des Sprachsystems basierend auf den Sprach-äußerungen (und in einigen Fällen basierend auf der Information von dem ASR-Modul 32).
In verschiedenen beispielhaften Ausführungsformen bildet das Signaturmaschine-Modul 30 graduell die Benutzersignaturen über die Zeit hinweg basierend auf den Sprachäußerungen, ohne die Notwendigkeit für den Benutzer, sich selbst aktiv zu identifizieren. Das Dialog-Steuerungsmodul 34 benutzt dann die Benutzersignaturen, um die Abfragen und Interaktionsfolgen für jeden speziellen Nutzer zu verfolgen und einzustellen. Durch das Benutzen der Benutzersignaturen kann das Dialog-Steuerungsmodul 34 und damit das Sprachsystem 10 zwei oder mehrere Dialoge mit zwei oder mehreren Benutzern zur gleichen Zeit steuern.
Mit Bezug nun auf 2 stellt ein Datenflussdiagramm das Signaturmaschine-Modul 30 entsprechend zu verschiedenen beispielhaften Ausführungsformen dar. Wie gewürdigt werden kann, können verschiedene beispielhafte Ausführungsformen des Signaturmaschine-Moduls 30 entsprechend der vorliegenden Offenbarung jegliche Anzahl von Untermodulen beinhalten. In verschiedenen beispielhaften Ausführungsformen können die Untermodule, welche in 2 gezeigt werden, kombiniert und/oder weiter unterteilt werden, um in ähnlicher Weise Benutzersignaturen zu erzeugen. In verschiedenen beispielhaften Ausführungsformen beinhaltet das Signaturmaschine-Modul 30 ein Signatur-Erzeugungsgliedmodul, ein Signatur-Aufbau- bzw. -Erstellungsmodul 42 und einen Signaturdatenspeicher 44.
Das Signatur-Erzeugungsgliedmodul 40 empfängt als Eingang eine Sprachäußerung 46, welche durch einen Benutzer über das HMI-Modul 14 (1) bereitgestellt wird. Das Signatur-Erzeugungsgliedmodul 40 bearbeitet die Sprachäußerung 46 und erzeugt eine Aussprache-Signatur 48 basierend auf den Charakteristika der Sprachäußerung 46. Zum Beispiel kann das Signaturmaschine-Modul 40 eine Super-Vektor-Vorgehensweise implementieren, um eine Sprechererkennung durchzuführen und um die Aussprachsignatur 48 zu erzeugen. Diese Vorgehensweise wandelt einen Audiostrom in einen einzelnen Punkt in einem hohen dimensionalen Raum. Die Verschiebung von der ursprünglichen Darstellung (d. h. die Audio- zu der Zielrepräsentation) kann in mehreren Stufen durchgeführt werden. Zum Beispiel kann das Signal als Erstes in Fenster aufgeteilt werden, und eine Mel-Cepstrum-Transformation findet statt. Diese Repräsentation bildet jedes Fenster in einen Punkt in einem Raum ab, in welchem der Abstand auf die Phonem-Unterschiede bezogen ist. Je weiter zwei Punkte voneinander entfernt sind, desto weniger wahrscheinlich ist es, dass sie von dem gleichen Phonem sind. Wenn die Zeit vernachlässigt wird, kann dieser Satz von Punkten, einer für jedes Fenster, für eine Wahrscheinlichkeitsverteilung über den Mel-Cepstrum-Raum verallgemeinert werden. Diese Verteilung kann für jeden Sprecher äußerst einzigartig sein. Ein allgemeines Verfahren, die Verteilung darzustellen, geschieht durch das Gaußsche Mischmodell (GMM). Demnach kann die Signatur als ein GMM oder der Supervektor repräsentiert werden, welcher aus all den Gaußschen Mittelwerten der GMM erzeugt wird.
Das Signatur-Erstellungsmodul 42 empfängt als Eingangssignal die Äußerungssignatur 48. Basierend auf der Äußerungssignatur 48 aktualisiert das Signatur-Erstellungsmodul 42 den Signatur-Datenspeicher 44 mit einer Benutzersignatur 50. Wenn zum Beispiel eine Benutzersignatur 50 nicht in dem Signatur-Datenspeicher 44 existiert, speichert das Signatur-Erstellungsmodul 42 die Äußerungssignatur 48 als die Benutzersignatur 50 in dem Signatur-Datenspeicher 44. Wenn jedoch eine oder mehrere zuvor gespeicherte Benutzersignaturen 50 in dem Signatur-Datenspeicher 44 existieren, vergleicht das Signatur-Erstellungsmodul 42 die Äußerungssignatur 48 mit den zuvor gespeicherten Benutzer-Äußerungssignaturen 48. Wenn die Äußerungssignatur 48 einer Benutzersignatur 50 nicht ähnlich ist, wird die Äußerungssignatur 48 als eine neue Benutzersignatur 50 in dem Signatur-Datenspeicher 44 gespeichert. Wenn jedoch die Äußerungssignatur 48 einer gespeicherten Benutzersignatur 50 ähnlich ist, wird die ähnliche Benutzersignatur 50 mit der Äußerungssignatur 48 aktualisiert und in dem Signatur-Datenspeicher 44 gespeichert.
Zum Beispiel, durch das obige Beispiel bereitgestellt, in dem Fall, dass das GMM eines Redners ein MAP-Anpassen von einem universellen GMM von vielen Sprechern war, kann eine Justierung innerhalb der Verteilungsparameter des GMM sowohl der Äußerungssignatur 48 als auch der gespeicherten Benutzersignatur 50 durchgeführt werden. Der justierte Satz von Mittelwerten kann in einen einzelnen hochdimensionalen Vektor konkatiniert bzw. verknüpft werden. Der Abstand in diesem Raum wird auf den Unterschied innerhalb der Redner bezogen. Demnach kann der Abstand in den Vektoren evaluiert werden, um ähnliche Signaturen zu bestimmen. Sobald ähnliche Signaturen gefunden werden, kann die GMM für jede Signatur 48, 50 kombiniert und als eine aktualisierte Benutzersignatur 50 gespeichert werden.
Mit Bezug nun auf 3 zeigt ein Abfolgediagramm ein Signatur-Erzeugungsverfahren, welches von dem Sprachsystem 10 entsprechend zu verschiedenen beispielhaften Ausführungsformen durchgeführt werden kann. Wie im Lichte der Offenbarung gewürdigt werden kann, ist die Reihenfolge des Betriebs bzw. des Ablaufs des Verfahrens nicht auf die sequenzielle Ausführung begrenzt, wie sie in 3 dargestellt wird, sondern kann in einer oder mehreren variierenden Reihenfolgen durchgeführt werden, wenn diese anwendbar und entsprechend der vorliegenden Offenbarung sind.
Wie gezeigt wird, wird die Sprachäußerung durch den Benutzer durch das HMI-Modul 14 zu dem ASR-Modul 32 bei 100 bereitgestellt. Die Sprachäußerung wird durch das ASR-Modul 32 evaluiert, um den gesprochenen Befehl bei 110 zu bestimmen. Der gesprochene Befehl wird dem Dialog-Steuerungsmodul 34 bei 120 bereitgestellt, welchem ein Kriterium (z. B. eine Vertrauensbewertung) gegeben ist. Im Wesentlichem gleichzeitig oder kurz danach wird die Sprachäußerung durch das HMI-Modul 14 der Signaturmaschine 30 bei 130 bereitgestellt: Die Sprachäußerung wird dann durch die Signaturmaschine 30 evaluiert. Zum Beispiel bearbeitet das Signatur-Erzeugungsgliedmodul 40 die Sprachäußerung, wobei die Super-Vektor-Vorgehensweise oder eine gewisse andere Vorgehensweise benutzt wird, um eine Signatur bei 140 zu bestimmen. Das Signatur-Erstellungsmodul 42 benutzt die Signatur bei 150, um eine Benutzersignatur bei 160 zu bilden und zu speichern. Die Benutzersignatur oder eine mehr implizite Darstellung der Signatur, wie zum Beispiel Bewertungen, wird an den Dialog-Manager bzw. das Dialog-Steuerungsglied bei 170 geschickt. Das Dialog-Steuerungsmodul 40 benutzt die Benutzersignatur und den Befehl, um die Benutzerführungen bzw. Aufforderungen und/oder die Interaktionsfolge des Dialoges bei 180 zu bestimmen. Die oder der Befehl wird durch das Dialog-Steuerungsmodul für das HMI-Modul bei 190 bereitgestellt.
Wie gewürdigt werden kann, kann die Folge für jegliche Anzahl von Sprachäußerungen, welche von dem Benutzer bereitgestellt werden, wiederholt werden. Wie ferner gewürdigt werden kann, kann die gleiche oder eine ähnliche Folge für viele Sprachäußerungen durchgeführt werden, welche von vielen Benutzern zur gleichen Zeit bereitgestellt werden. In einem derartigen Fall werden individuelle Benutzersignaturen für jeden Benutzer entwickelt, und ein Dialog wird für jeden Benutzer basierend auf den individuellen Benutzersignaturen gesteuert.

Claims

Verfahren für ein Sprachsystem (10) eines Fahrzeugs, welches aufweist: Erzeugen von Äußerungssignaturen (48) für eine Mehrzahl von Benutzern aus jeweils einer Sprachäußerung (46) der jeweiligen Benutzer, welche von den Benutzern des Sprachsystems (10) empfangen werden, Identifizieren der Benutzer basierend auf den Äußerungssignaturen (48); Schrittweises Entwickeln von Benutzersignaturen (50) für jeden der Benutzer basierend auf den Äußerungssignaturen (48); und Steuern von Dialogen mit zwei oder mehreren Benutzern basierend auf den entsprechenden Benutzersignaturen (50), wobei das Steuern der Dialoge das separate Verfolgen und Einstellen von Interaktionsfolgen für jeden der Benutzer aufweist.
Verfahren nach Anspruch 1, wobei das Entwickeln das Entwickeln der Benutzersignatur (50) basierend auf der Äußerungssignatur (48) und einer gespeicherten Benutzersignatur (50) aufweist.
Verfahren nach Anspruch 2, wobei die gespeicherte Benutzersignatur (50) auf wenigstens zwei vorherige Äußerungssignaturen (48) basiert.
Verfahren nach einem der vorherigen Ansprüche, wobei das Entwickeln der Benutzersignatur (50) das Bestimmen aufweist, dass eine Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, nicht existiert, und Speichern der Äußerungssignatur (48) als die Benutzersignatur (50) in einem Datenspeicher.
Verfahren nach einem der vorherigen Ansprüche, wobei das Entwickeln der Benutzersignatur (50) das Bestimmen aufweist, dass eine Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, existiert, Aktualisieren der Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, mit der Äußerungssignatur (48) und Speichern der aktualisierten Benutzersignatur (50) in einem Datenspeicher.
Verfahren nach Anspruch 5, wobei das Bestimmen, dass die Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, existiert, das Bestimmen aufweist, dass eine Benutzersignatur (50) von einer gleichen Transaktion nicht existiert.
Verfahren nach Anspruch 5 oder 6, wobei das Bestimmen, dass die Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, existiert, das Bestimmen aufweist, dass eine Benutzersignatur (50) von einer unterschiedlichen Transaktion nicht existiert.
Verfahren nach einem der vorherigen Ansprüche, welches ferner im Wesentlichen das gleichzeitige Steuern eines Dialoges mit einem zweiten Benutzer, basierend auf einer zweiten Benutzersignatur (50), aufweist.
Verfahren nach einem der vorherigen Ansprüche, wobei das Steuern des Dialoges das Justieren wenigstens eines von einer Benutzerführung bzw. Aufforderung und von einer Interaktionsfolge mit dem Benutzer, basierend auf der Benutzersignatur (50), aufweist.