DE102013222520B4 - Verfahren für ein sprachsystem eines fahrzeugs - Google Patents

Verfahren für ein sprachsystem eines fahrzeugs Download PDF

Info

Publication number
DE102013222520B4
DE102013222520B4 DE102013222520.2A DE102013222520A DE102013222520B4 DE 102013222520 B4 DE102013222520 B4 DE 102013222520B4 DE 102013222520 A DE102013222520 A DE 102013222520A DE 102013222520 B4 DE102013222520 B4 DE 102013222520B4
Authority
DE
Germany
Prior art keywords
signature
user
utterance
signatures
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102013222520.2A
Other languages
English (en)
Other versions
DE102013222520A1 (de
Inventor
Ron M. Hecht
Omer Tsimhoni
Ute Winter
Robert D. Sims
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102013222520A1 publication Critical patent/DE102013222520A1/de
Application granted granted Critical
Publication of DE102013222520B4 publication Critical patent/DE102013222520B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren für ein Sprachsystem (10) eines Fahrzeugs, welches aufweist: Erzeugen von Äußerungssignaturen (48) für eine Mehrzahl von Benutzern aus jeweils einer Sprachäußerung (46) der jeweiligen Benutzer, welche von den Benutzern des Sprachsystems (10) empfangen werden, Identifizieren der Benutzer basierend auf den Äußerungssignaturen (48); Schrittweises Entwickeln von Benutzersignaturen (50) für jeden der Benutzer basierend auf den Äußerungssignaturen (48); und Steuern von Dialogen mit zwei oder mehreren Benutzern basierend auf den entsprechenden Benutzersignaturen (50), wobei das Steuern der Dialoge das separate Verfolgen und Einstellen von Interaktionsfolgen für jeden der Benutzer aufweist.

Description

  • TECHNISCHER BEREICH
  • Der technische Bereich bezieht sich im Allgemeinen auf Sprachsysteme, und spezieller ausgedrückt bezieht er sich auf Verfahren und Systeme für das Erzeugen von Benutzersignaturen für Sprachsysteme eines Fahrzeugs.
  • HINTERGRUND
  • Fahrzeug-Sprachsysteme führen eine Spracherkennung bezüglich der Sprache durch, welche von Insassen des Fahrzeugs geäußert wird. Die Sprachäußerungen beinhalten typischerweise Befehle, welche ein oder mehrere Merkmale des Fahrzeugs oder andere Systeme steuern, welche von dem Fahrzeug aus zugreifbar sind, wie zum Beispiel Bankverkehr oder Einkaufen, jedoch nicht auf diese begrenzt. Die Sprach-Dialogsysteme nutzen generische Dialogtechniken, so dass Sprachäußerungen von irgendeinem Insassen des Fahrzeugs bearbeitet werden können. Jeder Benutzer kann unterschiedliche Fähigkeitsgrade und Präferenzen besitzen, wenn er das Sprach-Dialogsystem benutzt. Demnach kann ein generisches Dialogsystem nicht für alle Benutzer wünschenswert sein.
  • Entsprechend ist es wünschenswert, Verfahren und Systeme für das Identifizieren und Führen von Nutzern bereitzustellen. Entsprechend ist es ferner wünschenswert, Verfahren und Systeme für das Steuern und Adaptieren eines Dialogsystems bereitzustellen, basierend auf dem Identifizieren und Führen von Nutzern. Außerdem werden andere wünschenswerte Merkmale und Charakteristika der vorliegenden Erfindung aus der nachfolgenden detaillierten Beschreibung und den angehängten Ansprüchen offensichtlich, welche in Verbindung mit den beigefügten Zeichnungen und dem vorhergegangenen technischen Bereich und Hintergrund gegeben werden.
  • Die Druckschrift DE 101 91 732 B4 offenbart eine selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem. Die US 2003/0088414 A1 zeigt ein automatisches Adaptieren eines Sprechermodells an verschiedene Sprecher.
  • Die Aufgabe der vorliegenden Erfindung liegt darin eine Sprachsteuerung mit mehreren Benutzern zu verbessern. Diese Aufgabe wird gelöst durch ein Verfahren für ein Sprachsystem eines Fahrzeugs mit den Merkmalen des Patentanspruchs 1 und die Ausgestaltungen nach den Patentansprüchen 2 bis 9.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die beispielhaften Ausführungsformen werden hier nachfolgend in Verbindung mit den folgenden gezeichneten Figuren beschrieben, wobei gleiche Ziffern gleiche Elemente bezeichnen, und worin:
  • 1 ein Blockdiagramm eines Fahrzeugs ist, welches ein Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen beinhaltet;
  • 2 ein Datenflussdiagramm ist, welches eine Signaturmaschine des Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen darstellt; und
  • 3 ein Abfolgediagramm ist, welches ein Signatur-Erzeugungsverfahren darstellt, welches von dem Sprachsystem entsprechend zu verschiedenen beispielhaften Ausführungsformen durchgeführt werden kann.
  • DETAILLIERTE BESCHREIBUNG
  • Wie es hier gebraucht wird, bezieht sich der Term Modul auf eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, speziell zugeordnet oder Gruppe) und einen Speicher, welcher eines oder mehrere Software- oder Firmware-Programme ausführt, eine kombinierte logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktionalität bereitstellen.
  • Entsprechend zu beispielhaften Ausführungsformen der vorliegenden Offenbarung wird ein Sprachsystem 10 gezeigt, welches innerhalb eines Fahrzeugs 12 beinhaltet ist. In verschiedenen beispielhaften Ausführungsformen stellt das Sprachsystem 10 eine Spracherkennung und/oder einen Dialog für ein oder mehrere Fahrzeugsysteme über ein Human Machine Interface- bzw. Mensch-Maschine-Schnittstellen-(HMI-)Modul 14 bereit. Derartige Fahrzeugsysteme können zum Beispiel beinhalten, sind jedoch nicht darauf begrenzt, ein Telefonsystem 16, ein Navigationssystem 18, ein Mediensystem 20, ein Telematiksystem 22, ein Netzsystem 24 oder irgendein anderes Fahrzeugsystem, welches eine sprachabhängige Anwendung beinhalten kann. Wie gewürdigt werden kann, sind eine oder mehrere Ausführungsformen des Sprachsystems 10 bei anderen Nicht-Fahrzeugsystemen anwendbar, welche sprachabhängige Anwendungen besitzen, und demnach nicht auf das vorliegende Fahrzeugbeispiel begrenzt.
  • Das Sprachsystem 10 kommuniziert mit vielen Fahrzeugsystemen 1624 über das HMI-Modul 14 und einen Kommunikationsbus und/oder andere Kommunikationseinrichtungen 26 (z. B. über Draht, über Kurzbereichsfunk oder über Weitbereichsfunk). Der Kommunikationsbus kann zum Beispiel ein CAN-Bus sein, ist jedoch nicht darauf begrenzt.
  • Das Sprachsystem 10 beinhaltet ein Speech Recognition Engine- bzw. Spracherkennungsmaschine-(ASR-)Modul 32 und ein Dialog-Steuermodul 34. Wie gewürdigt werden kann, können das ASR-Modul 32 und das Dialog-Steuermodul 34 als getrennte Systeme und/oder als ein kombiniertes System, wie gezeigt, implementiert werden. Das ASR-Modul 32 empfängt und bearbeitet Sprachäußerungen von dem HMI-Modul 14. Einige (z. B. basierend auf einem Vertrauensschwellwert) der erkannten Befehle aus der Sprachäußerung werden zu dem Dialog-Steuermodul 34 gesendet. Das Dialog-Steuermodul 34 steuert eine Interaktions- bzw. Betätigungssequenz und Aufforderungen bzw. Benutzerführungen basierend auf dem Befehl. In verschiedenen Ausführungsformen kann das Sprachsystem 10 ferner eine Text-zu-Sprache-Maschine (nicht gezeigt) beinhalten, welche Text, welcher von dem HMI-Modul empfangen ist, empfängt und bearbeitet. Die Text-zu-Sprache-Maschine erzeugt Befehle, welche in ähnlicher Weise für den Gebrauch durch das Dialog-Manager-Modul 34 sind.
  • In verschiedenen beispielhaften Ausführungsformen beinhaltet das Sprachsystem 10 ferner ein Signaturmaschine-Modul 30. Das Signaturmaschine-Modul 30 empfängt und bearbeitet die Sprach-äußerungen von dem HMI-Modul 14. Zusätzlich oder alternativ empfängt und bearbeitet das Signaturmaschine-Modul 30 Information, welche durch die Bearbeitung erzeugt ist, welche durch das ASR-Modul 32 durchgeführt ist (z. B. Merkmale, welche durch den Spracherkennungsprozess extrahiert sind, Wortgrenzen, welche durch den Spracherkennungsprozess identifiziert sind, etc.). Das Signaturmaschine-Modul 30 identifiziert Benutzer des Sprachsystems 10 und bildet eine Benutzersignatur für jeden Benutzer des Sprachsystems basierend auf den Sprach-äußerungen (und in einigen Fällen basierend auf der Information von dem ASR-Modul 32).
  • In verschiedenen beispielhaften Ausführungsformen bildet das Signaturmaschine-Modul 30 graduell die Benutzersignaturen über die Zeit hinweg basierend auf den Sprachäußerungen, ohne die Notwendigkeit für den Benutzer, sich selbst aktiv zu identifizieren. Das Dialog-Steuerungsmodul 34 benutzt dann die Benutzersignaturen, um die Abfragen und Interaktionsfolgen für jeden speziellen Nutzer zu verfolgen und einzustellen. Durch das Benutzen der Benutzersignaturen kann das Dialog-Steuerungsmodul 34 und damit das Sprachsystem 10 zwei oder mehrere Dialoge mit zwei oder mehreren Benutzern zur gleichen Zeit steuern.
  • Mit Bezug nun auf 2 stellt ein Datenflussdiagramm das Signaturmaschine-Modul 30 entsprechend zu verschiedenen beispielhaften Ausführungsformen dar. Wie gewürdigt werden kann, können verschiedene beispielhafte Ausführungsformen des Signaturmaschine-Moduls 30 entsprechend der vorliegenden Offenbarung jegliche Anzahl von Untermodulen beinhalten. In verschiedenen beispielhaften Ausführungsformen können die Untermodule, welche in 2 gezeigt werden, kombiniert und/oder weiter unterteilt werden, um in ähnlicher Weise Benutzersignaturen zu erzeugen. In verschiedenen beispielhaften Ausführungsformen beinhaltet das Signaturmaschine-Modul 30 ein Signatur-Erzeugungsgliedmodul, ein Signatur-Aufbau- bzw. -Erstellungsmodul 42 und einen Signaturdatenspeicher 44.
  • Das Signatur-Erzeugungsgliedmodul 40 empfängt als Eingang eine Sprachäußerung 46, welche durch einen Benutzer über das HMI-Modul 14 (1) bereitgestellt wird. Das Signatur-Erzeugungsgliedmodul 40 bearbeitet die Sprachäußerung 46 und erzeugt eine Aussprache-Signatur 48 basierend auf den Charakteristika der Sprachäußerung 46. Zum Beispiel kann das Signaturmaschine-Modul 40 eine Super-Vektor-Vorgehensweise implementieren, um eine Sprechererkennung durchzuführen und um die Aussprachsignatur 48 zu erzeugen. Diese Vorgehensweise wandelt einen Audiostrom in einen einzelnen Punkt in einem hohen dimensionalen Raum. Die Verschiebung von der ursprünglichen Darstellung (d. h. die Audio- zu der Zielrepräsentation) kann in mehreren Stufen durchgeführt werden. Zum Beispiel kann das Signal als Erstes in Fenster aufgeteilt werden, und eine Mel-Cepstrum-Transformation findet statt. Diese Repräsentation bildet jedes Fenster in einen Punkt in einem Raum ab, in welchem der Abstand auf die Phonem-Unterschiede bezogen ist. Je weiter zwei Punkte voneinander entfernt sind, desto weniger wahrscheinlich ist es, dass sie von dem gleichen Phonem sind. Wenn die Zeit vernachlässigt wird, kann dieser Satz von Punkten, einer für jedes Fenster, für eine Wahrscheinlichkeitsverteilung über den Mel-Cepstrum-Raum verallgemeinert werden. Diese Verteilung kann für jeden Sprecher äußerst einzigartig sein. Ein allgemeines Verfahren, die Verteilung darzustellen, geschieht durch das Gaußsche Mischmodell (GMM). Demnach kann die Signatur als ein GMM oder der Supervektor repräsentiert werden, welcher aus all den Gaußschen Mittelwerten der GMM erzeugt wird.
  • Das Signatur-Erstellungsmodul 42 empfängt als Eingangssignal die Äußerungssignatur 48. Basierend auf der Äußerungssignatur 48 aktualisiert das Signatur-Erstellungsmodul 42 den Signatur-Datenspeicher 44 mit einer Benutzersignatur 50. Wenn zum Beispiel eine Benutzersignatur 50 nicht in dem Signatur-Datenspeicher 44 existiert, speichert das Signatur-Erstellungsmodul 42 die Äußerungssignatur 48 als die Benutzersignatur 50 in dem Signatur-Datenspeicher 44. Wenn jedoch eine oder mehrere zuvor gespeicherte Benutzersignaturen 50 in dem Signatur-Datenspeicher 44 existieren, vergleicht das Signatur-Erstellungsmodul 42 die Äußerungssignatur 48 mit den zuvor gespeicherten Benutzer-Äußerungssignaturen 48. Wenn die Äußerungssignatur 48 einer Benutzersignatur 50 nicht ähnlich ist, wird die Äußerungssignatur 48 als eine neue Benutzersignatur 50 in dem Signatur-Datenspeicher 44 gespeichert. Wenn jedoch die Äußerungssignatur 48 einer gespeicherten Benutzersignatur 50 ähnlich ist, wird die ähnliche Benutzersignatur 50 mit der Äußerungssignatur 48 aktualisiert und in dem Signatur-Datenspeicher 44 gespeichert.
  • Zum Beispiel, durch das obige Beispiel bereitgestellt, in dem Fall, dass das GMM eines Redners ein MAP-Anpassen von einem universellen GMM von vielen Sprechern war, kann eine Justierung innerhalb der Verteilungsparameter des GMM sowohl der Äußerungssignatur 48 als auch der gespeicherten Benutzersignatur 50 durchgeführt werden. Der justierte Satz von Mittelwerten kann in einen einzelnen hochdimensionalen Vektor konkatiniert bzw. verknüpft werden. Der Abstand in diesem Raum wird auf den Unterschied innerhalb der Redner bezogen. Demnach kann der Abstand in den Vektoren evaluiert werden, um ähnliche Signaturen zu bestimmen. Sobald ähnliche Signaturen gefunden werden, kann die GMM für jede Signatur 48, 50 kombiniert und als eine aktualisierte Benutzersignatur 50 gespeichert werden.
  • Mit Bezug nun auf 3 zeigt ein Abfolgediagramm ein Signatur-Erzeugungsverfahren, welches von dem Sprachsystem 10 entsprechend zu verschiedenen beispielhaften Ausführungsformen durchgeführt werden kann. Wie im Lichte der Offenbarung gewürdigt werden kann, ist die Reihenfolge des Betriebs bzw. des Ablaufs des Verfahrens nicht auf die sequenzielle Ausführung begrenzt, wie sie in 3 dargestellt wird, sondern kann in einer oder mehreren variierenden Reihenfolgen durchgeführt werden, wenn diese anwendbar und entsprechend der vorliegenden Offenbarung sind.
  • Wie gezeigt wird, wird die Sprachäußerung durch den Benutzer durch das HMI-Modul 14 zu dem ASR-Modul 32 bei 100 bereitgestellt. Die Sprachäußerung wird durch das ASR-Modul 32 evaluiert, um den gesprochenen Befehl bei 110 zu bestimmen. Der gesprochene Befehl wird dem Dialog-Steuerungsmodul 34 bei 120 bereitgestellt, welchem ein Kriterium (z. B. eine Vertrauensbewertung) gegeben ist. Im Wesentlichem gleichzeitig oder kurz danach wird die Sprachäußerung durch das HMI-Modul 14 der Signaturmaschine 30 bei 130 bereitgestellt: Die Sprachäußerung wird dann durch die Signaturmaschine 30 evaluiert. Zum Beispiel bearbeitet das Signatur-Erzeugungsgliedmodul 40 die Sprachäußerung, wobei die Super-Vektor-Vorgehensweise oder eine gewisse andere Vorgehensweise benutzt wird, um eine Signatur bei 140 zu bestimmen. Das Signatur-Erstellungsmodul 42 benutzt die Signatur bei 150, um eine Benutzersignatur bei 160 zu bilden und zu speichern. Die Benutzersignatur oder eine mehr implizite Darstellung der Signatur, wie zum Beispiel Bewertungen, wird an den Dialog-Manager bzw. das Dialog-Steuerungsglied bei 170 geschickt. Das Dialog-Steuerungsmodul 40 benutzt die Benutzersignatur und den Befehl, um die Benutzerführungen bzw. Aufforderungen und/oder die Interaktionsfolge des Dialoges bei 180 zu bestimmen. Die oder der Befehl wird durch das Dialog-Steuerungsmodul für das HMI-Modul bei 190 bereitgestellt.
  • Wie gewürdigt werden kann, kann die Folge für jegliche Anzahl von Sprachäußerungen, welche von dem Benutzer bereitgestellt werden, wiederholt werden. Wie ferner gewürdigt werden kann, kann die gleiche oder eine ähnliche Folge für viele Sprachäußerungen durchgeführt werden, welche von vielen Benutzern zur gleichen Zeit bereitgestellt werden. In einem derartigen Fall werden individuelle Benutzersignaturen für jeden Benutzer entwickelt, und ein Dialog wird für jeden Benutzer basierend auf den individuellen Benutzersignaturen gesteuert.

Claims (9)

  1. Verfahren für ein Sprachsystem (10) eines Fahrzeugs, welches aufweist: Erzeugen von Äußerungssignaturen (48) für eine Mehrzahl von Benutzern aus jeweils einer Sprachäußerung (46) der jeweiligen Benutzer, welche von den Benutzern des Sprachsystems (10) empfangen werden, Identifizieren der Benutzer basierend auf den Äußerungssignaturen (48); Schrittweises Entwickeln von Benutzersignaturen (50) für jeden der Benutzer basierend auf den Äußerungssignaturen (48); und Steuern von Dialogen mit zwei oder mehreren Benutzern basierend auf den entsprechenden Benutzersignaturen (50), wobei das Steuern der Dialoge das separate Verfolgen und Einstellen von Interaktionsfolgen für jeden der Benutzer aufweist.
  2. Verfahren nach Anspruch 1, wobei das Entwickeln das Entwickeln der Benutzersignatur (50) basierend auf der Äußerungssignatur (48) und einer gespeicherten Benutzersignatur (50) aufweist.
  3. Verfahren nach Anspruch 2, wobei die gespeicherte Benutzersignatur (50) auf wenigstens zwei vorherige Äußerungssignaturen (48) basiert.
  4. Verfahren nach einem der vorherigen Ansprüche, wobei das Entwickeln der Benutzersignatur (50) das Bestimmen aufweist, dass eine Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, nicht existiert, und Speichern der Äußerungssignatur (48) als die Benutzersignatur (50) in einem Datenspeicher.
  5. Verfahren nach einem der vorherigen Ansprüche, wobei das Entwickeln der Benutzersignatur (50) das Bestimmen aufweist, dass eine Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, existiert, Aktualisieren der Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, mit der Äußerungssignatur (48) und Speichern der aktualisierten Benutzersignatur (50) in einem Datenspeicher.
  6. Verfahren nach Anspruch 5, wobei das Bestimmen, dass die Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, existiert, das Bestimmen aufweist, dass eine Benutzersignatur (50) von einer gleichen Transaktion nicht existiert.
  7. Verfahren nach Anspruch 5 oder 6, wobei das Bestimmen, dass die Benutzersignatur (50), welche ähnlich zu der Äußerungssignatur (48) ist, existiert, das Bestimmen aufweist, dass eine Benutzersignatur (50) von einer unterschiedlichen Transaktion nicht existiert.
  8. Verfahren nach einem der vorherigen Ansprüche, welches ferner im Wesentlichen das gleichzeitige Steuern eines Dialoges mit einem zweiten Benutzer, basierend auf einer zweiten Benutzersignatur (50), aufweist.
  9. Verfahren nach einem der vorherigen Ansprüche, wobei das Steuern des Dialoges das Justieren wenigstens eines von einer Benutzerführung bzw. Aufforderung und von einer Interaktionsfolge mit dem Benutzer, basierend auf der Benutzersignatur (50), aufweist.
DE102013222520.2A 2012-11-13 2013-11-06 Verfahren für ein sprachsystem eines fahrzeugs Expired - Fee Related DE102013222520B4 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261725804P 2012-11-13 2012-11-13
US61/725,804 2012-11-13
US14/059,955 US20140136204A1 (en) 2012-11-13 2013-10-22 Methods and systems for speech systems
US14/059,955 2013-10-22

Publications (2)

Publication Number Publication Date
DE102013222520A1 DE102013222520A1 (de) 2014-05-15
DE102013222520B4 true DE102013222520B4 (de) 2016-09-22

Family

ID=50556054

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013222520.2A Expired - Fee Related DE102013222520B4 (de) 2012-11-13 2013-11-06 Verfahren für ein sprachsystem eines fahrzeugs

Country Status (3)

Country Link
US (1) US20140136204A1 (de)
CN (1) CN103871400A (de)
DE (1) DE102013222520B4 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358538A1 (en) * 2013-05-28 2014-12-04 GM Global Technology Operations LLC Methods and systems for shaping dialog of speech systems
US9858920B2 (en) * 2014-06-30 2018-01-02 GM Global Technology Operations LLC Adaptation methods and systems for speech systems
CN110297702B (zh) * 2019-05-27 2021-06-18 北京蓦然认知科技有限公司 一种多任务并行处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030088414A1 (en) * 2001-05-10 2003-05-08 Chao-Shih Huang Background learning of speaker voices
DE10110316B4 (de) * 2000-03-15 2004-09-23 International Business Machines Corp. Sichere Passworteingabe
DE10191732B4 (de) * 2000-05-04 2005-10-06 Visteon Global Technologies, Inc., Dearborn Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
SE505522C2 (sv) * 1996-07-01 1997-09-08 Telia Ab Förfarande och arrangemang för adaptering av modeller vid exempelvis talarverifieringssystem
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
US6526335B1 (en) * 2000-01-24 2003-02-25 G. Victor Treyz Automobile personal computer systems
US6973426B1 (en) * 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US7054811B2 (en) * 2002-11-06 2006-05-30 Cellmax Systems Ltd. Method and system for verifying and enabling user access based on voice parameters
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
US7379868B2 (en) * 2002-07-18 2008-05-27 Massachusetts Institute Of Technology Method and apparatus for differential compression of speaker models
US20040138894A1 (en) * 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
JP2004348658A (ja) * 2003-05-26 2004-12-09 Nissan Motor Co Ltd 車両用情報提供方法および車両用情報提供装置
US7454349B2 (en) * 2003-12-15 2008-11-18 Rsa Security Inc. Virtual voiceprint system and method for generating voiceprints
US20050273333A1 (en) * 2004-06-02 2005-12-08 Philippe Morin Speaker verification for security systems with mixed mode machine-human authentication
DE602005008005D1 (de) * 2005-02-23 2008-08-21 Harman Becker Automotive Sys Spracherkennungssytem in einem Kraftfahrzeug
US7519531B2 (en) * 2005-03-30 2009-04-14 Microsoft Corporation Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation
US20060293892A1 (en) * 2005-06-22 2006-12-28 Jan Pathuel Biometric control systems and associated methods of use
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US20080080678A1 (en) * 2006-09-29 2008-04-03 Motorola, Inc. Method and system for personalized voice dialogue
WO2008086216A2 (en) * 2007-01-05 2008-07-17 Johnson Controls Technology Company System and method for customized audio prompting
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
EP2048656B1 (de) * 2007-10-10 2010-02-10 Harman/Becker Automotive Systems GmbH Sprechererkennung
US8332223B2 (en) * 2008-10-24 2012-12-11 Nuance Communications, Inc. Speaker verification methods and apparatus
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US20120284026A1 (en) * 2011-05-06 2012-11-08 Nexidia Inc. Speaker verification system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10110316B4 (de) * 2000-03-15 2004-09-23 International Business Machines Corp. Sichere Passworteingabe
DE10191732B4 (de) * 2000-05-04 2005-10-06 Visteon Global Technologies, Inc., Dearborn Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem
US20030088414A1 (en) * 2001-05-10 2003-05-08 Chao-Shih Huang Background learning of speaker voices

Also Published As

Publication number Publication date
US20140136204A1 (en) 2014-05-15
CN103871400A (zh) 2014-06-18
DE102013222520A1 (de) 2014-05-15

Similar Documents

Publication Publication Date Title
DE102013223036B4 (de) Adaptionsverfahren für Sprachsysteme
DE102013222507B4 (de) Verfahren zum Adaptieren eines Sprachsystems
DE102014201676B4 (de) Verfahren für das Steuern des Dialogs von Sprachsystemen
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
DE102013222757A1 (de) Adaptionsverfahren und -systeme für Sprachsysteme
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
DE102015109758B4 (de) Verfahren und Systeme zum Anpassen von Sprachsystemen
EP1892700A1 (de) Verfahren zur Spracherkennung und Sprachwiedergabe
WO2009140781A1 (de) Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE102015109379A1 (de) Systeme und Verfahren für ein Navigationssystem, das eine Suche mit Diktieren und Teilübereinstimmung verwendet
DE112015006831T5 (de) Dynamisches Akustikmodell für Fahrzeug
DE102013222520B4 (de) Verfahren für ein sprachsystem eines fahrzeugs
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102016204315A1 (de) Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe
EP1238250A2 (de) Spracherkennungsverfahren und -einrichtung
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
EP3115886A1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE102017216571B4 (de) Kraftfahrzeug

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee