DE102011103528A1 - Modulare Spracherkennungsarchitektur - Google Patents

Modulare Spracherkennungsarchitektur Download PDF

Info

Publication number
DE102011103528A1
DE102011103528A1 DE102011103528A DE102011103528A DE102011103528A1 DE 102011103528 A1 DE102011103528 A1 DE 102011103528A1 DE 102011103528 A DE102011103528 A DE 102011103528A DE 102011103528 A DE102011103528 A DE 102011103528A DE 102011103528 A1 DE102011103528 A1 DE 102011103528A1
Authority
DE
Germany
Prior art keywords
module
dialog manager
domain
speech recognition
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102011103528A
Other languages
English (en)
Inventor
Robert D. Sims
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102011103528A1 publication Critical patent/DE102011103528A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Ein Spracherkennungssystem wird geschaffen. Das Spracherkennungssystem umfasst ein Spracherkennungsmodul; mehrere domänenspezifische Dialogmanagermodule, die mit dem Spracherkennungsmodul kommunizieren, um eine Spracherkennung durchzuführen; und ein Sprachschnittstellenmodul, das mit den mehreren domänenspezifischen Dialogmanagermodulen kommuniziert, um selektiv die Spracherkennung zu aktivieren.

Description

  • GEBIET DER ERFINDUNG
  • Beispielhafte Ausführungsformen der vorliegenden Erfindung beziehen sich auf Spracherkennungssysteme und insbesondere auf Spracherkennungssysteme und -verfahren für Fahrzeuganwendungen.
  • HINTERGRUND
  • Die Spracherkennung wandelt gesprochene Worte in Text um. Verschiedene Spracherkennungsanwendungen machen von dem Text Gebrauch, um eine Dateneingabe durchzuführen, um Baugruppen zu steuern und/oder um Dokumente zu erstellen.
  • Fahrzeuge können beispielsweise mehrere Anwendungen mit Spracherkennungsfähigkeiten umfassen. Systeme wie z. B. Navigationssysteme, Radiosysteme, Telematiksysteme, Telefonsysteme und Mediensysteme können beispielsweise jeweils eine Spracherkennungsanwendung umfassen. Jede Spracherkennungsanwendung wird unabhängig entwickelt und geprüft, bevor sie in die Fahrzeugarchitektur eingebaut wird. Eine solche unabhängige Entwicklung und Prüfung können redundant und zeitraubend sein. Folglich ist es erwünscht, ein einzelnes Spracherkennungssystem zu schaffen, das auf die Systeme des Fahrzeugs anwendbar sein kann.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • In einer beispielhaften Ausführungsform wird ein Spracherkennungssystem geschaffen. Das Spracherkennungssystem umfasst ein Spracherkennungsmodul; mehrere domänenspezifische Dialogmanagermodule, die mit dem Spracherkennungsmodul kommunizieren, um eine Spracherkennung durchzuführen; und ein Sprachschnittstellenmodul, das mit den mehreren domänenspezifischen Dialogmanagermodulen kommuniziert, um selektiv die Spracherkennung zu aktivieren.
  • Die obigen Merkmale und Vorteile und weitere Merkmale und Vorteile der vorliegenden Erfindung sind aus der folgenden ausführlichen Beschreibung der Erfindung in Verbindung mit den begleitenden Zeichnungen leicht ersichtlich.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Weitere Aufgaben, Merkmale, Vorteile und Details zeigen sich nur beispielhaft in der folgenden ausführlichen Beschreibung von Ausführungsformen, wobei die ausführliche Beschreibung auf die Zeichnungen Bezug nimmt, in denen:
  • 1 eine Darstellung eines Fahrzeugs mit einem modularen Spracherkennungssystem gemäß einer beispielhaften Ausführungsform ist;
  • 2 bis 6 Datenflussidagramme sind, die das modulare Spracherkennungssystem gemäß beispielhaften Ausführungsformen darstellen; und
  • 7 bis 9 Sequenzdiagramme sind, die modulare Spracherkennungsverfahren gemäß einer beispielhaften Ausführungsform darstellen.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Die folgende Beschreibung ist dem Wesen nach lediglich beispielhaft und soll die vorliegende Offenbarung, Anwendung oder Verwendungen nicht begrenzen. Selbstverständlich geben in den ganzen Zeichnungen entsprechende Bezugszeichen gleiche oder entsprechende Teile und Merkmale an. Wie hier verwendet, bezieht sich der Begriff Modul auf eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, zweckgebunden oder Gruppe) und einen Speicher, die ein oder mehrere Software- oder Firmwareprogramme ausführen, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten, die die beschriebene Funktionalität bereitstellen.
  • Gemäß beispielhaften Ausführungsformen der vorliegenden Erfindung wird ein modulares Spracherkennungssystem 10 als in einem Fahrzeug 12 mit mehreren sprachabhängigen Anwendungen enthalten gezeigt. Solche Anwendungen können beispielsweise eine Telefonanwendung 14, eine Navigationsanwendung 16, eine Medienanwendung 18, eine Telematikanwendung 20, eine Netzanwendung 22 oder irgendeine andere Sprachanwendung für Fahrzeuge umfassen, sind jedoch nicht darauf begrenzt. Wie zu erkennen ist, kann das modulare Spracherkennungssystem 10 auf verschiedene andere Systeme mit mehreren sprachabhängigen Anwendungen anwendbar sein und ist folglich nicht auf das vorliegende Fahrzeugbeispiel begrenzt.
  • Im Allgemeinen verwaltet das modulare Spracherkennungssystem 10 eine Spracheingabe, die beispielsweise von einem Mikrophon 24 empfangen wird. Im vorliegenden Beispiel wird die Spracheingabe von einem Fahrer oder Insassen des Fahrzeugs 12 vorgesehen, so dass sie mit einer oder mehreren der sprachabhängigen Anwendungen 1422 zusammenwirkt. Das modulare Spracherkennungssystem 10 wird gemäß einer modularisierten Systemarchitektur implementiert, die jede der verschiedenen Spracherkennungsdomänen aufnimmt. Das modularisierte System ermöglicht, dass verschiedene Anwendungen mit dem Spracherkennungssystem 10 verbinden und dieses verwenden. Eine Steuerlogik für eine spezielle Domäne, die mit einer speziellen Anwendung in Beziehung steht, kann beispielsweise individuell entwickelt und/oder kalibriert werden. Wenn diese Domäne oder Anwendung in das Fahrzeug 12 eingebaut wird, kann die Steuerlogik in das modulare Spracherkennungssystem 10 geladen werden oder auf sie kann durch das modulare Spracherkennungssystem 10 beispielsweise über ein Netz 26 zugegriffen werden. Das Netz 26 kann ein beliebiges verdrahtetes oder drahtloses Netz innerhalb oder außerhalb des Fahrzeugs 12 sein. In dieser Weise kann die Steuerlogik für jede Anwendung oder Domäne ohne Ändern der Spracherkennungsfunktionalität aktualisiert werden.
  • Mit Bezug auf 2 bis 6 stellen Datenflussdiagramme das modulare Spracherkennungssystem 10 gemäß verschiedenen Ausführungsformen dar. Wie zu erkennen ist, können verschiedene Ausführungsformen von modularen Spracherkennungssystemen 10 gemäß der vorliegenden Offenbarung eine beliebige Anzahl von Modulen umfassen. Die in 2 gezeigten Module können kombiniert und/oder weiter unterteilt werden, um die Spracherkennung für die mehreren sprachabhängigen Anwendungen 1422 ähnlich zu verwalten. Eingaben in das modulare Spracherkennungssystem 10 können von einer oder mehreren sensorischen Eingaben des Fahrzeugs 12 (1) empfangen werden, von anderen Modulen (nicht dargestellt) innerhalb des Fahrzeugs 12 (1) empfangen werden, durch andere Module (nicht dargestellt) innerhalb des modularen Spracherkennungssystems 10 bestimmt/modelliert werden und/oder von einer externen Quelle über ein Netz (z. B. das Internet) empfangen werden.
  • In verschiedenen Ausführungsformen umfasst das modulare Spracherkennungssystem 10 ein Mensch-Maschine-Schnittstellen-Modul (HMI-Modul) 30, ein Sprachschnittstellenmodul 32, ein oder mehrere domänenspezifische Dialogmanagermodule 3442 und ein Spracherkennungsmodul 44. Die domänenspezifischen Dialogmanagermodule können beispielsweise ein Telefondialogmanagermodul 34, ein Navigationsdialogmanagermodul 36, ein Mediendialogmanagermodul 38, ein Telematikdialogmanagermodul 40 und ein Netzdialogmanagermodul 42 umfassen, ohne jedoch darauf begrenzt zu sein.
  • Das HMI-Modul 30 koppelt mit dem Sprachschnittstellenmodul 32 über eine Schnittstelle. Das HMI-Modul 30 verwaltet die Wechselwirkung zwischen einer Benutzerschnittstelle der sprachabhängigen Anwendung 1420 (1) und dem Benutzer. Wie in 3 gezeigt, empfangt das HMI-Modul 30 beispielsweise eine Benutzereingabe 50 als Eingabe. Die Benutzereingabe 50 kann auf der Basis der Wechselwirkung eines Benutzers mit einer Benutzerschnittstelle der sprachabhängigen Anwendung 1420 (1) erzeugt werden. Auf der Basis der Benutzereingabe 50 bestimmt das HMI-Modul 30, wann eine Spracherkennung erwünscht ist, und erzeugt eine Anforderung zum Aktivieren der Spracherkennung. Die Anforderung kann einen Sprachtastenidentifizierer 52 umfassen, der identifiziert, welche Anwendung die Spracherkennung anfordert. Nachdem die Spracherkennung aktiviert wurde, liefert das HMI-Modul 30 eine Anzeigerückmeldung oder steuert ein oder mehrere Merkmale der sprachabhängigen Anwendung 1420 (1) über die Anzeige/Handlung 59 auf der Basis von Spracherkennungsinformationen 51. Die Spracherkennungsinformationen 51 können vom Sprachschnittstellenmodul 32 empfangen werden. Wie nachstehend genauer erörtert wird, können die Spracherkennungsinformationen 51 eine Sprachanzeige 54, eine Sprachhandlung 56 und einen HMI-Zustand 58 umfassen.
  • Mit Rückbezug auf 2 koppelt das Sprachschnittstellenmodul 32 über eine Schnittstelle mit dem HMI-Modul 30 und den verschiedenen domänenspezifischen Dialogmanagermodulen 3442, um die Spracherkennung zu koordinieren. Wie in 4 gezeigt, verwaltet das Sprachschnittstellenmodul 32 beispielsweise ankommende Anforderungen vom HMI-Modul. Die ankommenden Anforderungen können Anforderungen zum Aktivieren der Spracherkennung umfassen, wie beispielsweise die Sprachtastenidentifizierer 52. In verschiedenen Ausführungsformen können die ankommenden Anforderungen kontextspezifische Domäneninformationen umfassen.
  • Auf der Basis der ankommenden Anforderungen koordiniert das Sprachschnittstellenmodul 32 mit einem oder allen der domänenspezifischen Dialogmanagermodule 3442, um die Spracherkennung auszuführen. Das Sprachschnittstellenmodul 32 kann beispielsweise Domäneninformationen 60 von den domänenspezifischen Dialogmanagermodulen 3442 empfangen, die die verfügbaren Grammatiklisten oder Landessprachmodelle für die oberen Befehle, die den Domänen zugeordnet sind, umfassen. Auf der Basis des Sprachtastenidentifizierers 52 und der Domäneninformationen 60 kann das Sprachschnittstellenmodul 32 einen Ladebefehl 62 für alle domänenspezifischen Dialogmanagermodule 3442 zum Laden einer Grammatik und/oder eines Landessprachmodells oberer Ebene oder einen Ladebefehl 62 zum Laden einer Grammatik, die einem spezifischen Ereignis einer speziellen Domäne zugeordnet ist, senden.
  • Das Sprachschnittstellenmodul 32 verwaltet ferner Rückmeldungsinformationen 63 von den domänenspezifischen Dialogmanagermodulen 3442. Wie nachstehend genauer erörtert wird, können die Rückmeldungsinformationen 63 eine Anzeigerückmeldung 64 und einen aktuellen Zustand 66 umfassen. Auf der Basis der Rückmeldungsinformationen 63 meldet das Sprachschnittstellenmodul 32 die Spracherkennungs-Rückmeldungsinformationen an das HMI-Modul 30 über eine Sprachanzeige 54, eine Sprachhandlung 56 und/oder einen HMI-Zustand 58. Die Sprachanzeige 54 umfasst die Anzeigeinformationen zum Anzeigen der erkannten Ergebnisse. Die Sprachhandlung 56 umfasst Spracherkennungsinformationen zum Steuern von sprachfähigen Komponenten (z. B. Abstimmen des Radios, Wiedergeben von Musik usw.). Der HMI-Zustand 58 umfasst den aktuellen Zustand der System-HMI.
  • Mit Rückbezug auf 2 koppeln die verschiedenen domänenspezifischen Dialogmanagermodule 3442 über eine Schnittstelle mit dem Sprachschnittstellenmodul 32 und dem Spracherkennungsmodul 44. Jedes domänenspezifische Dialogmanagermodul 3442 steuert den Dialog zwischen dem Benutzer und der Benutzerschnittstelle auf der Basis der domänenspezifischen Steuerlogik. Die Steuerlogik kann eine Anzeigelogik, eine Spracherkennungslogik und eine Fehlerlogik umfassen, ist jedoch nicht darauf begrenzt. In verschiedenen Ausführungsformen umfasst jedes domänenspezifische Dialogmanagermodul 3442 eine oder mehrere Grammatiken und ein Landessprachmodell für diese spezifische Domäne, Die domänenspezifischen Dialogmanagermodule 3442 steuern die Spracherkennung auf der Basis der Spracherkennungslogik, der Grammatik und des Landessprachmodells.
  • Wie in 5 gezeigt, kann jedes Domänendialogmanagermodul 3442 Domäneninformationen 60 zum Sprachschnittstellenmodul 32 liefern. Die Domäneninformationen 60 können Steuertastenidentifizierer, die dieser Domäne zugeordnet sind, und eine Liste der verfügbaren Grammatiken und/oder Landessprachmodelle von diesem Modul umfassen, ohne jedoch darauf begrenzt zu sein. Das domänenspezifische Dialogmanagermodul 3442 kann dafür einen Ladebefehl 62 zum Laden von einer oder mehreren Grammatiken und/oder Landessprachmodulen in das Spracherkennungsmodul 44 empfangen.
  • Jedes domänenspezifische Dialogmanagermodul 3442 überträgt die Grammatik und/oder das Landessprachmodell 70 und eine Grammatiksteueranforderung 68 zum Spracherkennungsmodul 44 auf der Basis der Spracherkennungslogik und des Ladebefehls 62. Das domänenspezifische Dialogmanagermodul 3442 empfängt dafür ein erkanntes Ergebnis 72 vom Spracherkennungsmodul 44. Jedes domänenspezifische Dialogmanagermodul 3442 bestimmt die Anzeigerückmeldung 64 und den aktuellen Zustand 66 auf der Basis des erkannten Ergebnisses 72 und der Anzeigelogik und/oder der Fehlerlogik.
  • In verschiedenen Ausführungsformen können ein oder mehrere domänenspezifische Dialogmanagermodule 3440 durch das Netzschnittstellenmodul 42 ersetzt oder als dieses verwendet werden. Wie zu erkennen ist, können die Steuerlogik, die Grammatik und/oder das Landessprachmodell ein Teil des Netzschnittstellenmoduls 42 ähnlich zu den anderen domänenspezifischen Dialogmanagermodulen sein. Alternativ kann die Steuerlogik entfernt angeordnet sein und mit ihr kann über das Netzschnittstellenmodul 42 kommuniziert werden. In verschiedenen anderen Ausführungsformen kann das Netzschnittstellenmodul 42 eine Steuerlogik zum Kommunizieren zwischen den Modulen umfassen. Wenn beispielsweise das Modul A eine spezifische Spracherkennungs-HMI-Logik enthält, kann das Modul A mit dem Modul B unter Verwendung des Netzschnittstellen-Dialogmanagermoduls 42 kommunizieren.
  • Mit Rückbezug auf 2 koppelt das Spracherkennungsmodul 44 mit jedem der domänenspezifischen Dialogmanagermodule 3442 über eine Schnittstelle. Das Spracherkennungsmodul 44 führt eine Spracherkennung an vom Benutzer geäußerter Sprache durch. Wie in 6 gezeigt, empfängt das Spracherkennungsmodul 44 beispielsweise als Eingabe den vom Benutzer geäußerten Sprachbefehl 74. Das Spracherkennungsmodul 44 führt eine Spracherkennung am Sprachbefehl 74 auf der Basis der Grammatik und/oder des Landessprachmodells 70, die vom domänenspezifischen Dialogmanagermodul 3442 empfangen werden, durch. Das Spracherkennungsmodul 44 lädt selektiv eine spezielle Grammatik, die im Spracherkennungsprozess verwendet werden soll, auf der Basis der Grammatiksteueranforderung 68, die vom spezifischen Dialogmanagermodul 3442 ausgegeben wird. Die Grammatiksteueranforderung 68 kann eine Anforderung für ein spezielles statistisches Landessprachmodell umfassen. Das Spracherkennungsmodul 44 erzeugt dann das erkannte Ergebnis 72. Das erkannte Ergebnis 72 kann beispielsweise ein Ergebnis und/oder einen aktuellen Zustand des Erkennungsprozesses umfassen. Das erkannte Ergebnis 72 kann zum anfordernden domänenspezifischen Dialogmanagermodul 3442 übertragen werden.
  • Mit Bezug auf 7 bis 9 stellen Sequenzdiagramme Spracherkennungsverfahren, die vom Modulspracherkennungssystem 10 (1) durchgeführt werden können, gemäß beispielhaften Ausführungsformen dar. Insbesondere stellt 7 ein Initialisierungsverfahren gemäß einer beispielhaften Ausführungsform dar. 8 stellt ein Managerdownloadverfahren gemäß einer beispielhaften Ausführungsform dar. 9 stellt ein Sprachwechselwirkungsverfahren gemäß einer beispielhaften Ausführungsform dar.
  • Wie in 7 gezeigt, fordert bei der Initialisierung eines geladenen Dialogmanagermoduls durch das HMI-Modul 30 bei 100 das Sprachschnittstellenmodul 32 domänenspezifische Steuerinformationen bei 102 an. Das spezielle Dialogmanagermodul 3442 gibt die domänenspezifischen Steuerinformationen bei 104 zurück. Bei der Initialisierung eines entfernten Dialogmanagermoduls bei 106 fordert das Sprachschnittstellenmodul 32 bei 108 domänenspezifische Steuerinformationen an. Das Dialogmanagermodul 3442 gibt die domänenspezifischen Steuerinformationen bei 110 zurück. Das Dialogmanagermodul 3442 sendet dann seine Grammatik zum Spracherkennungsmodul 44 und registriert sie bei 112 und 114. Bei der Vollendung der Registrierung bestätigt das Spracherkennungsmodul 44 bei 116, dass die Registrierung vollständig ist.
  • Wie in 8 gezeigt, beginnt die Sequenz damit, dass das Sprachschnittstellenmodul 32 einen Download eines speziellen Dialogmanagermoduls 3442 von irgendeiner externen Quelle bei 120 durchführt. Bei Vollendung des Downloads erzeugt das Sprachschnittstellenmodul 32 eine Anforderung zum Erzeugen oder Austauschen einer Schnittstelle, die dem Dialogmanagermodul 3442 zugeordnet ist, und/oder eine Anforderung zum Erhalten von domänenspezifischen Schnittstelleninformationen bei 122 und 124. Das Dialogmanagermodul 3442 gibt die domänenspezifischen Schnittstelleninformationen bei 126 zurück. Das Dialogmanagermodul 3442 liefert dann seine Grammatik zum Spracherkennungsmodul 44 und registriert sie bei 128 und 130. Bei der Vollendung der Registrierung bestätigt das Spracherkennungsmodul 44 bei 132, dass die Registrierung vollständig ist. Nach dem Download des Dialogmanagermoduls 3442 kann das Dialogmanagermodul 3442 gespeichert werden, wenn es nicht ausgetauscht oder entfernt wird. Nach dem Download kann die reguläre Domäneninitialisierung durchgeführt werden, wie in 7 gezeigt.
  • Wie in 9 gezeigt, beginnt die Sequenz damit, dass ein Benutzer bei 140 eine Sprachtaste der Benutzerschnittstelle drückt. Das HMI-Modul 30 ruft dann das Sprachereignis auf der Basis des Sprachtastenidentifizierers bei 142 auf. Das Sprachschnittstellenmodul 32 stellt bei 144 fest, ob das Sprachereignis sich auf ein spezifisches Dialogmanagermodul 3442 bezieht. Wenn sich das Sprachereignis auf ein spezifisches Dialogmanagermodul 3442 bezieht, ruft das Sprachschnittstellenmodul 32 das für das Dialogmanagermodul spezifische Ereignis bei 146 auf. Wenn sich jedoch das Sprachereignis nicht auf ein spezifisches Dialogmanagermodul 3442 bezieht, ruft das Sprachschnittstellenmodul 32 bei 148 alle Dialogmanagermodule zum Laden einer Grammatik oberer Ebene auf. Die Grammatiken und/oder Landessprachmodelle werden bei 150 oder 152 geladen. Der Benutzer äußert dann bei 154 einen Sprachbefehl. Unter Verwendung der geladenen Grammatik führt das Spracherkennungsmodul 44 auf die Äußerung hin eine Spracherkennung bei 156 durch. Das Spracherkennungsmodul 44 gibt die erkannten Ergebnisse an das Dialogmanagermodul bei 158 zurück. Das Dialogmanagermodul benachrichtigt das Sprachschnittstellenmodul 32 über die Ergebnisse bei 160. Das Sprachschnittstellenmodul 32 benachrichtigt das HMI-Modul über die Ergebnisse bei 162. Und der Betrachter betrachtet die Ergebnisse bei 164. Die Sequenz fährt fort, bis der Dialog vollendet ist.
  • Obwohl die Erfindung mit Bezug auf beispielhafte Ausführungsformen beschrieben wurde, ist für den Fachmann auf dem Gebiet verständlich, dass verschiedene Änderungen durchgeführt werden können und Elemente davon gegen Äquivalente ausgetauscht werden können, ohne vom Schutzbereich der Erfindung abzuweichen. Außerdem können viele Modifikationen vorgenommen werden, um eine spezielle Situation oder ein spezielles Material an die Lehren der Erfindung anzupassen, ohne von deren wesentlichem Schutzbereich abzuweichen. Daher ist vorgesehen, dass die Erfindung nicht auf die speziellen Ausführungsformen begrenzt ist, die als beste Art offenbart wurden, die zur Ausführung dieser Erfindung in Erwägung gezogen wird, sondern dass die Erfindung alle Ausführungsformen umfasst, die in den Schutzbereich der vorliegenden Anmeldung fallen.

Claims (10)

  1. Spracherkennungssystem, das umfasst: ein Spracherkennungsmodul; mehrere domänenspezifische Dialogmanagermodule, die mit dem Spracherkennungsmodul kommunizieren, um eine Spracherkennung durchzuführen; und ein Sprachschnittstellenmodul, das mit den mehreren domänenspezifischen Dialogmanagermodulen kommuniziert, um selektiv die Spracherkennung zu aktivieren.
  2. System nach Anspruch 1, das ferner ein Mensch-Maschine-Schnittstellenmodul (HMI-Modul) umfasst, das mit dem Sprachschnittstellenmodul auf der Basis einer Benutzereingabe kommuniziert.
  3. System nach Anspruch 2, wobei das Sprachschnittstellenmodul Spracherkennungsergebnisse an das HMI-Modul überträgt.
  4. System nach Anspruch 3, wobei die domänenspezifischen Dialogmanagermodule die Spracherkennungsergebnisse an das Sprachschnittstellenmodul übertragen.
  5. System nach Anspruch 1, wobei die mehreren domänenspezifischen Dialogmanagermodule jeweils eine domänenspezifische Steuerlogik umfassen.
  6. System nach Anspruch 1, wobei die mehreren domänenspezifischen Dialogmanagermodule mindestens eine Grammatik umfassen.
  7. System nach Anspruch 1, wobei die mehreren domänenspezifischen Dialogmanagermodule ein Landessprachmodell umfassen.
  8. System nach Anspruch 1, wobei die mehreren domänenspezifischen Dialogmanagermodule ein Telefondialogmanagermodul und/oder ein Navigationsdialogmanagermodul und/oder ein Mediendialogmanagermodul und/oder ein Telematikdialogmanagermodul umfassen.
  9. System nach Anspruch 1, wobei mindestens eines der mehreren domänenspezifischen Dialogmanagermodule ein Netzschnittstellen-Managermodul umfasst.
  10. Fahrzeug, das umfasst: mehrere sprachfähige Anwendungen; und ein Spracherkennungssystem, das mit jeder der mehreren sprachfähigen Anwendungen kommuniziert, um eine Spracherkennung durchzuführen.
DE102011103528A 2010-06-10 2011-06-07 Modulare Spracherkennungsarchitektur Withdrawn DE102011103528A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/797,977 2010-06-10
US12/797,977 US20110307250A1 (en) 2010-06-10 2010-06-10 Modular Speech Recognition Architecture

Publications (1)

Publication Number Publication Date
DE102011103528A1 true DE102011103528A1 (de) 2011-12-15

Family

ID=45020251

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102011103528A Withdrawn DE102011103528A1 (de) 2010-06-10 2011-06-07 Modulare Spracherkennungsarchitektur

Country Status (3)

Country Link
US (1) US20110307250A1 (de)
CN (1) CN102280105A (de)
DE (1) DE102011103528A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013022218A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing user interface thereof
EP4235365A3 (de) 2011-08-05 2023-11-01 Samsung Electronics Co., Ltd. Verfahren zur steuerung einer elektronischen vorrichtung auf grundlage von spracherkennung und bewegungserkennung und elektronische vorrichtung damit
US9576573B2 (en) * 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
US9620146B2 (en) * 2012-05-16 2017-04-11 Nuance Communications, Inc. Speech communication system for combined voice recognition, hands-free telephony and in-car communication
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9202459B2 (en) * 2013-04-19 2015-12-01 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
KR20200072020A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성인식시스템의 대화 안내 방법
KR20200072021A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성인식시스템의 도메인 관리 방법

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030093281A1 (en) * 1999-05-21 2003-05-15 Michael Geilhufe Method and apparatus for machine to machine communication using speech
EP1192789B1 (de) * 1999-06-11 2008-10-15 Telstra Corporation Limited Verfahren zur entwicklung eines interaktiven systems
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
GB2357943B (en) * 1999-12-30 2004-12-08 Nokia Mobile Phones Ltd User interface for text to speech conversion
DE10013879A1 (de) * 2000-03-21 2001-09-27 Bosch Gmbh Robert Verfahren zur Sprachsteuerung eines elektrischen Geräts
US20030125958A1 (en) * 2001-06-19 2003-07-03 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
US20020035474A1 (en) * 2000-07-18 2002-03-21 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
US6934684B2 (en) * 2000-03-24 2005-08-23 Dialsurf, Inc. Voice-interactive marketplace providing promotion and promotion tracking, loyalty reward and redemption, and other features
DE60039076D1 (de) * 2000-06-26 2008-07-10 Mitsubishi Electric Corp System zum Betreiben eines Gerätes
US6957184B2 (en) * 2000-07-20 2005-10-18 Microsoft Corporation Context free grammar engine for speech recognition system
US7027975B1 (en) * 2000-08-08 2006-04-11 Object Services And Consulting, Inc. Guided natural language interface system and method
JP2002123279A (ja) * 2000-10-16 2002-04-26 Pioneer Electronic Corp 施設検索装置ならびにその方法
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US7805310B2 (en) * 2001-02-26 2010-09-28 Rohwer Elizabeth A Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment
US7324945B2 (en) * 2001-06-28 2008-01-29 Sri International Method of dynamically altering grammars in a memory efficient speech recognition system
ES2228739T3 (es) * 2001-12-12 2005-04-16 Siemens Aktiengesellschaft Procedimiento para sistema de reconocimiento de lenguaje y procedimiento para el funcionamiento de un sistema asi.
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
US7315613B2 (en) * 2002-03-11 2008-01-01 International Business Machines Corporation Multi-modal messaging
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
DE602004017955D1 (de) * 2004-01-29 2009-01-08 Daimler Ag Verfahren und System zur Sprachdialogschnittstelle
US7373248B2 (en) * 2004-09-10 2008-05-13 Atx Group, Inc. Systems and methods for off-board voice-automated vehicle navigation
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
GB0503456D0 (en) * 2005-02-18 2005-03-30 Southwing S L Personal communications systems
US8139725B2 (en) * 2005-04-22 2012-03-20 The Invention Science Fund I, Llc Associated information in structured voice interaction systems
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
US8532678B2 (en) * 2006-03-08 2013-09-10 Tomtom International B.V. Portable GPS navigation device
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
JP4547721B2 (ja) * 2008-05-21 2010-09-22 株式会社デンソー 自動車用情報提供システム
US9598070B2 (en) * 2010-03-02 2017-03-21 GM Global Technology Operations LLC Infotainment system control

Also Published As

Publication number Publication date
CN102280105A (zh) 2011-12-14
US20110307250A1 (en) 2011-12-15

Similar Documents

Publication Publication Date Title
DE102011103528A1 (de) Modulare Spracherkennungsarchitektur
DE60015531T2 (de) Client-server spracherkennungssystem
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
DE102014109121A1 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102007033472A1 (de) Verfahren zur Spracherkennung
DE102016104060A1 (de) Stimmprofilbasierte Identitätsidentifikation für fahrzeuginternes Infotainment
DE102018116832A1 (de) Spracherkennungsbenutzermakros zum verbessern von fahrzeuggrammatiken
DE102015109758A1 (de) Verfahren und Systeme zum Anpassen von Sprachsystemen
DE112015006831T5 (de) Dynamisches Akustikmodell für Fahrzeug
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
EP1239460B1 (de) Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
DE10127559A1 (de) Benutzergruppenspezifisches Musterverarbeitungssystem
DE102013222520B4 (de) Verfahren für ein sprachsystem eines fahrzeugs
EP2907048B1 (de) Kraftwagen mit einem sprachübersetzungssystem
DE112015006999T5 (de) Fahrzeugspracherkennung umfassend eine tragbare Vorrichtung
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
EP3576084B1 (de) Effiziente dialoggestaltung
DE102020131203A1 (de) Agentensystem, Endgerät und Agentenprogramm
DE102008025532B4 (de) Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung
DE102019131886A1 (de) Verfahren zum Betreiben eines Kommunikationsassistenten
DE102013216427B4 (de) Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
WO2018091662A1 (de) Verfahren zur erstellung und/oder veränderung einer sammlung von datensätzen für ein dialoggeführtes technisches hilfsmittel zur unterstützung bei der erstellung und/oder veränderung von datenverarbeitungsprogrammen oder datenbankeinträgen
DE102016004287A1 (de) Verfahren zur Spracherkennung in einem Kraftfahrzeug
EP2945155A1 (de) Vorrichtung und verfahren zur spracherkennung, insbesondere in einem fahrzeug

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee