DE112015007147T5 - Sprachdialogvorrichtung und Sprachdialogverfahren - Google Patents

Sprachdialogvorrichtung und Sprachdialogverfahren Download PDF

Info

Publication number
DE112015007147T5
DE112015007147T5 DE112015007147.4T DE112015007147T DE112015007147T5 DE 112015007147 T5 DE112015007147 T5 DE 112015007147T5 DE 112015007147 T DE112015007147 T DE 112015007147T DE 112015007147 T5 DE112015007147 T5 DE 112015007147T5
Authority
DE
Germany
Prior art keywords
speech
unit
dialogue
mode
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE112015007147.4T
Other languages
English (en)
Inventor
Naoya Baba
Yuki Furumoto
Masanobu Osawa
Takumi Takei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112015007147T5 publication Critical patent/DE112015007147T5/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

In einer Antwortmodus-Korrespondenztabelle (14) wird eine Korrespondenzbeziehung zwischen Schlüsselwörtern zur Anweisung des Beginns eines Sprachdialogs und den Antwortmodi definiert. Eine Antwortmodus-Auswahleinheit (13) wählt unter Verwendung der Antwortmodus-Korrespondenztabelle (14) einen Antwortmodus aus, der einem Schlüsselwort entspricht, das im Erkennungsergebnis einer Spracherkennungseinheit (10) enthalten ist. Eine Dialogsteuereinheit (15) startet den Sprachdialog, wenn das Schlüsselwort im Erkennungsergebnis der Spracherkennungseinheit (10) enthalten ist, ermittelt eine Antwort entsprechend dem nachfolgenden Erkennungsergebnis der Spracherkennungseinheit (10) und steuert einen Antwortmodus so, dass er dem von der Antwortmodus-Auswahleinheit (13) gewählten Modus entspricht. Eine Sprachausgabe-Steuereinheit (17) erzeugt Sprachdaten auf Basis der von der Dialogsteuereinheit (15) gesteuerten Reaktion und Betriebsart und gibt die Sprachdaten an einen Lautsprecher (4) aus.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf eine Sprachdialogvorrichtung und ein Sprachdialogverfahren zur Bedienung einer Zielvorrichtung in Übereinstimmung mit dem Ergebnis der Erkennung der Äußerung durch einen Benutzer.
  • ALLGEMEINER STAND DER TECHNIK
  • Eine konventionelle Sprachdialogvorrichtung, die in einem Fahrzeugnavigationsgerät oder dergleichen eingebaut ist, erhält von einem Benutzer die Anweisung, die Spracherkennung zu starten. Damit soll eine fehlerhafte Erkennung durch Rauschen und dergleichen, außer der Äußerung durch den Benutzer, verhindert werden. Aus diesem Grund ist z.B. ein Lenkrad o.ä. mit einer Taste zum Anweisen des Starts der Spracherkennung versehen (nachfolgend „Anweisungstaste zum Starten der Spracherkennung“ genannt). Nachdem der Benutzer die Anweisungstaste zum Starten der Spracherkennung gedrückt hat, gibt er einen Befehl oder ähnliches zur Bedienung einer Zielvorrichtung aus (nachfolgend „Gerätebedienungsbefehl oder ähnliches“ genannt). Die Sprachdialogvorrichtung startet die Erkennung, wenn das Drücken der Befehlsschaltfläche zum Starten der Spracherkennung erkannt wird, und erkennt den Gerätebedienungsbefehl oder ähnliches aus der geäußerten Sprache.
  • Da die Benutzer, die die Sprachdialogvorrichtung verwenden, vom Anfänger bis zum Fortgeschrittenen in Bezug auf die Vertrautheit mit dem Sprachdialog variieren, muss die Sprachdialogvorrichtung auf Benutzer mit unterschiedlichen Sprachkenntnissen reagieren. Dementsprechend beschreibt Patentliteratur 1 eine Technik zur Änderung einer Systemantwort entsprechend dem Kenntnisstand des Benutzers im Sprachdialog. Die Antwort des Systems enthält eine Anleitung zu den Inhalten, auf die ein Benutzer reagiert.
  • LITERATURLISTE
  • PATENTSCHRIFTEN
  • Patentschrift 1: JP 2004-258233 A
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • TECHNISCHES PROBLEM
  • Wenn die Befehlsschaltfläche zum Starten der Spracherkennung gedrückt wird, startet die konventionelle Sprachdialogvorrichtung die Spracherkennung des Gerätebetriebsbefehls o.ä. und ändert den Antwortmodus während des Dialogs, z.B. wenn die Anzahl der Ausgänge der Führung einen vorgegebenen Schwellenwert überschreitet. Daher dauert es eine Weile, bis der Antwortmodus geändert wird. Insbesondere ist es nicht möglich, den Antwortmodus sofort zu ändern, wenn ein Gerät von einer Vielzahl von Benutzern mit unterschiedlichen Sprachkenntnissen genutzt wird, wie z.B. bei einem Navigationsgerät im Fahrzeug.
  • Um den Antwortmodus schnell zu ändern, kann die Sprachdialogvorrichtung so konfiguriert werden, dass auf der Anzeige Schaltflächen angezeigt werden, in denen vorab Antwortmodi definiert sind (nachfolgend „Preset-Tasten“ genannt) und ein Sprachdialog im Antwortmodus entsprechend der vom Benutzer gedrückten Preset-Taste gestartet wird. Wird ein Gerät jedoch, wie z.B. ein Fahrzeugnavigationsgerät, von einer Vielzahl von Benutzern mit unterschiedlichen Sprachkenntnissen gemeinsam genutzt, muss ein Benutzer eine Preset-Taste auswählen und drücken, in der ein gewünschter Antwortmodus definiert ist, und zwar aus der Vielzahl der Preset-Tasten für jeden Lautsprecherwechsel, was problematisch ist. Darüber hinaus ist die Anzeige der Vielzahl von Preset-Tasten in einem Gerät mit Anzeigeeinschränkungen, wie z.B. in Fahrzeugen, schwierig.
  • Da die konventionelle Sprachdialogvorrichtung die oben beschriebene Konfiguration hat, besteht das Problem, dass es nicht möglich ist, den Antwortmodus in einem Sprachdialog sofort und einfach zu ändern.
  • Die vorliegende Erfindung wurde entwickelt, um das oben beschriebene Problem zu lösen, und die Aufgabe der Erfindung ist es, den Antwortmodus in einem Sprachdialog sofort und einfach zu ändern.
  • PROBLEMLÖSUNG
  • Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung umfasst eine Spracherkennungseinheit zum Erkennen von ausgesprochener Sprache, eine Antwortmodus-Auswahleinheit zum Auswählen eines Antwortmodus entsprechend einem in einem Erkennungsergebnis der Spracherkennungseinheit enthaltenen Schlüsselwort unter Verwendung einer Antwortmodus-Korrespondenztabelle, die eine Korrespondenzbeziehung zwischen dem Schlüsselwort zum Anweisen des Beginns eines Sprachdialogs und dem Antwortmodus definiert, eine Dialogsteuereinheit zum Starten des Sprachdialogs, wenn das Schlüsselwort in dem Erkennungsergebnis enthalten ist, zum Bestimmen einer Antwort gemäß eines nachfolgenden Erkennungsergebnisses von der Spracherkennungseinheit und zum Steuern eines Antwortmodus derart, dass er dem von der Antwortmodus-Auswahleinheit ausgewählten Modus entspricht, und eine Sprachausgabesteuereinheit zum Erzeugen von Sprachdaten aus der von der Dialogsteuereinheit gesteuerten Antwort und zum Ausgeben der Sprachdaten an einen Lautsprecher.
  • VORTEILHAFTE EFFEKTE DER ERFINDUNG
  • Nach der vorliegenden Erfindung ist die Steuerung gemacht, um ein Antwortmodus zu werden, der einem Schlüsselwort für den Beginn eines Sprachdialogs entspricht. Wenn der Benutzer also das Schlüsselwort für den Start des Sprachdialogs ausspricht, schaltet die Sprachdialogvorrichtung beim Start des Sprachdialogs den Antwortmodus um. Daher kann der Antwortmodus im Sprachdialog sofort und einfach geändert werden.
  • Figurenliste
    • 1 ist ein Blockschaltbild, das eine Gesamtkonfiguration eines Sprachdialogsystems darstellt, an dem eine Sprachdialogvorrichtung nach einer ersten Ausführungsform der vorliegenden Erfindung verwendet wird.
    • 2 ist ein Blockschaltbild, das eine beispielhafte Konfiguration der Sprachdialogvorrichtung nach der ersten Ausführung darstellt.
    • 3 ist ein Diagramm, das ein Beispiel für eine Antwortmodus-Korrespondenztabelle in der Sprachdialogvorrichtung nach der ersten Ausführungsform darstellt.
    • 4 ist ein Diagramm, das ein Beispiel für eine Antwortmodus-Datenbank in der Sprachdialogvorrichtung entsprechend der ersten Ausführungsform darstellt.
    • 5A ist ein Flussdiagramm, das den Betrieb im Standby-Modus für eine Anweisung zum Starten eines Sprachdialogs in der Sprachdialogvorrichtung entsprechend der ersten Ausführungsform veranschaulicht.
    • 5B ist ein Flussdiagramm, das den Ablauf der Spracherkennung nach dem Start des Sprachdialogs in der Sprachdialogvorrichtung entsprechend der ersten Ausführungsform veranschaulicht.
    • 6 ist ein Beispiel für eine Antwortanzeige mit einer großen Menge an Informationen für Anfänger in der Sprachdialogvorrichtung entsprechend der ersten Ausführungsform.
    • 7 ist ein Beispiel für eine Antwortanzeige mit einer normalen Informationsmenge für Zwischenprodukte in der Sprachdialogvorrichtung entsprechend der ersten Ausführungsform.
    • 8 ist ein Beispiel für eine Antwortanzeige mit einer kleinen Informationsmenge für den Fortgeschrittenen in der Sprachdialogvorrichtung entsprechend der ersten Ausführungsform.
    • 9 ist ein Blockschaltbild, das eine beispielhafte Konfiguration eines Sprachdialogsystems nach einer zweiten Ausführungsform der vorliegenden Erfindung darstellt.
    • 10 ist ein Flussdiagramm, das den Betrieb veranschaulicht, wenn eine Benutzer-ID in der Sprachdialogvorrichtung 1 entsprechend der zweiten Ausführungsform registriert ist.
    • 11 ist ein Flussdiagramm, das die Bedienung veranschaulicht, wenn die Benutzer-ID und eine Antwortmodus-ID übereinstimmen und in der Sprachdialogvorrichtung 1 entsprechend der zweiten Ausführungsform registriert sind.
    • 12 ist ein Flussdiagramm, das die Bedienung veranschaulicht, wenn in der Sprachdialogvorrichtung 1 entsprechend der zweiten Ausführungsform eine Taste zum Einleiten eines Sprachdialogs gedrückt wird.
    • 13 ist ein Diagramm einer Hardwarekonfiguration des Sprachdialogsystems, in dem die Sprachdialogvorrichtung entsprechend der jeweiligen Ausführungsform der vorliegenden Erfindung verwendet wird.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Im Folgenden werden die Ausführungsformen der vorliegenden Erfindung mit Bezug auf begleitende Abbildungen beschrieben, um die vorliegende Erfindung näher zu beschreiben.
  • Erste Ausführungsform.
  • 1 ist ein Blockdiagramm, das eine Gesamtkonfiguration eines Sprachdialogsystems darstellt, an dem eine Sprachdialogvorrichtung 1 entsprechend der ersten Ausführungsform der vorliegenden Erfindung verwendet wird. In diesem Sprachdialogsystem führt die Sprachdialogvorrichtung 1 einen Sprachdialog mit einem Benutzer durch, und eine Zielvorrichtung 6 wird entsprechend dem Ergebnis der Spracherkennung durch den Benutzer bedient. An diese Sprachdialogvorrichtung 1 sind ein Mikrofon 2, eine Spracheingabeeinheit 3, ein Lautsprecher 4, eine Anzeige 5 und die Zielvorrichtung 6 angeschlossen. Die erste Ausführungsform wird im Folgenden anhand eines Beispiels beschrieben, bei dem das Sprachdialogsystem in einem Fahrzeug angeordnet ist.
  • Das Beispiel in 1 zeigt eine Konfiguration, bei der die Sprachdialogvorrichtung 1 und die Zielvorrichtung 6 unabhängig voneinander sind, aber die Konfiguration kann so sein, dass die Sprachdialogvorrichtung 1 in die Zielvorrichtung 6 integriert ist. Die Sprachdialogvorrichtung 1 ist beispielsweise ein mobiles Informationsterminal wie ein Personal Computer (PC), ein Tablet-PC oder ein Smartphone. Alternativ kann die Sprachdialogvorrichtung 1 in ein Auto-Navigationsgerät, ein Auto-Audiogerät oder ähnliches als Zielvorrichtung 6 eingebaut werden. Alternativ können die in der Sprachdialogvorrichtung 1 enthaltenen Funktionen auf einen Server in einem Netzwerk, ein mobiles Informationsterminal wie ein Smartphone und ein Fahrzeuggerät wie ein Navigationsgerät verteilt werden.
  • 2 ist ein Blockdiagramm, das eine beispielhafte Konfiguration der Sprachdialogvorrichtung 1 nach der ersten Ausführungsform darstellt. Diese Sprachdialogvorrichtung 1 umfasst eine Spracherkennungseinheit 10, eine Wörterbuchauswahleinheit 11, ein lokales Spracherkennungswörterbuch 12, eine Antwortmodus-Auswahleinheit 13, eine Antwortmodus-Korrespondenztabelle 14, eine Dialogsteuereinheit 15, eine Antwortmodus-Datenbank (DB) 16, eine Sprachausgabe-Steuereinheit 17 und eine Anzeigeausgabesteuereinheit 18.
  • Das Mikrofon 2 nimmt die vom Benutzer geäußerte Sprache auf und gibt sie an die Spracheingabeeinheit 3 aus. Die Spracheingabeeinheit 3 führt z.B. die Analog/Digital (A/D)-Wandlung der Sprache von Mikrofon 2 durch Pulscodemodulation (PCM) durch und gibt die Sprache an die Sprachdialogvorrichtung 1 weiter.
  • Die Spracherkennungseinheit 10 enthält eine lokale Erkennungseinheit 10a und eine Servererkennungseinheit 10b, wobei die Servererkennungseinheit 10b kein wesentliches Element ist.
  • Die Spracherkennungseinheit 10 empfängt die digitalisierten Sprachdaten von der Spracheingabeeinheit 3. Die Spracherkennungseinheit 10 erkennt aus den Sprachdaten einen Sprachabschnitt (nachfolgend „gesprochener Abschnitt“ genannt), der dem vom Benutzer ausgesprochenem Inhalt entspricht, und gibt den Sprachabschnitt an die lokale Erkennungseinheit 10a oder die Servererkennungseinheit 10b aus.
  • Die lokale Erkennungseinheit 10a extrahiert einen Merkmalsbetrag aus den Sprachdaten im gesprochenen Abschnitt, der eingegeben wurde. Anschließend führt die lokale Erkennungseinheit 10a die Erkennungsverarbeitung mit einem Standby-Wörterbuch 12a oder einem Sprachdialog-Wörterbuch 12b im lokalen Spracherkennungs-Wörterbuch 12 auf Basis des Merkmalswertes durch und gibt das Erkennungsergebnis an die Antwort-Modus-Auswahleinheit 13 oder die Dialogsteuereinheit 15 aus. Da eine allgemeine Methode, wie z.B. ein verstecktes Markov-Modell (HMM), nur als Methode der Erkennungsverarbeitung in der lokalen Erkennungseinheit 10a verwendet und durchgeführt werden muss, entfällt deren detaillierte Beschreibung.
  • Die Server-Erkennungseinheit 10b gibt die Sprachdaten im eingegebenen Sprachausgabebereich an einen Spracherkennungsserver 7 im Netzwerk aus und empfängt das Erkennungsergebnis vom Spracherkennungsserver 7. Der Spracherkennungsserver 7 enthält ein nicht abgebildetes Spracherkennungswörterbuch und führt die Verarbeitung zur Erkennung der von der Servererkennungseinheit 10b empfangenen Sprachdaten durch, der Spracherkennungsserver 7 gibt dann das Erkennungsergebnis an die Servererkennungseinheit 10b aus, wobei in der Sprachdialogvorrichtung 1 eine Begrenzung der Speicherkapazität vorhanden ist, im Spracherkennungsserver 7 jedoch keine Begrenzung der Speicherkapazität besteht. Daher ist der Spracherkennungsserver 7 in der Lage, eine leistungsstarke Spracherkennungsverarbeitung durchzuführen, indem er ein größeres Spracherkennungswörterbuch als das in der Sprachdialogvorrichtung 1 gespeicherte lokale Spracherkennungswörterbuch 12 verwendet.
  • In dem Fall, dass das Standby-Wörterbuch 12a durch die später beschriebene Wörterbuch-Auswahleinheit 11 ausgewählt wird, erkennt die Spracherkennungseinheit 10 den ausgesprochenen Teil der von der Spracheingabeeinheit 3 empfangenen Sprachdaten und führt die oben beschriebene Erkennungsverarbeitung in einem vorgegebenen Zeitraum durch. Die „voreingestellte Zeit“ umfasst z.B. einen Zeitraum von der Aktivierung oder Wiederaufnahme der Sprachdialogvorrichtung 1 bis zum Beenden oder Stoppen der Sprachdialogvorrichtung 1, einen Zeitraum, in dem die Spracherkennungseinheit 10 läuft, oder dergleichen.
  • Wird das Standby-Wörterbuch 12a durch die Wörterbuch-Auswahleinheit 11 ausgewählt, gibt die Spracherkennungseinheit 10 zusätzlich das Erkennungsergebnis an die Antwortmodus-Auswahleinheit 13 aus. Bei Auswahl des Sprachdialogwörterbuchs 12b gibt die Spracherkennungseinheit 10 das Erkennungsergebnis an die Dialogsteuereinheit 15 aus.
  • Es ist zu beachten, dass das von der Spracherkennungseinheit 10 ausgegebene Erkennungsergebnis zwar als eine bestimmte Zeichenfolge, wie z.B. ein Befehl oder ähnliches, beschrieben wird, das Erkennungsergebnis jedoch alles sein kann, wie z.B. eine durch Ziffern dargestellte ID, sofern die Befehle oder dergleichen voneinander unterschieden werden können.
  • Zusätzlich kann die Erkennungsverarbeitung entweder von der lokalen Erkennungseinheit 10a oder der Servererkennungseinheit 10b durchgeführt werden, wobei bei dieser ersten Ausführungsform, wenn das Standby-Wörterbuch 12a von der Wörterbuch-Auswahleinheit 11 ausgewählt wird, die Erkennungsverarbeitung von der lokalen Erkennungseinheit 10a über das Standby-Wörterbuch 12a durchgeführt wird. Bei Auswahl des Sprachdialogwörterbuchs 12b erfolgt die Erkennung durch die lokale Erkennungseinheit 10a mit dem Sprachdialog-Wörterbuch 12b oder die Erkennung durch die Servererkennungseinheit 10b mit dem Spracherkennungsserver 7. Bei Auswahl des Sprachdialog-Wörterbuchs 12b sendet die später beschriebene Dialogsteuereinheit 15 eine Benachrichtigung darüber, ob die Erkennungsverarbeitung von der lokalen Erkennungseinheit 10a oder der Servererkennungseinheit 10b durchgeführt wird.
  • Die Wörterbuch-Auswahleinheit 11 wählt das Standby-Wörterbuch 12a oder das Sprachdialog-Wörterbuch 12b im lokalen Spracherkennungswörterbuch 12 nach dem Befehl der Dialogsteuereinheit 15 aus. Wenn die Sprachdialogvorrichtung 1 aktiviert oder wieder aufgenommen wird oder wenn die Spracherkennungseinheit 10 aktiviert wird, wählt die Wörterbuch-Auswahleinheit 11 das Standby-Wörterbuch 12a, und wenn der Benutzer den Start eines Sprachdialogs anweist und die Dialogsteuereinheit 15 das Umschalten des Wörterbuchs anweist, wählt die Wörterbuch-Auswahleinheit 11 die Wörterbuch-Auswahleinheit 11b.
  • Das lokale Spracherkennungswörterbuch 12 ist in der Sprachdialogvorrichtung 1 gespeichert und enthält das Standby-Wörterbuch 12a und das Sprachdialog-Wörterbuch 12b.
  • Das Standby-Wörterbuch 12a definiert „Schlüsselwörter“, mit denen der Benutzer den Start eines Sprachdialogs anweist. Mit einem Schlüsselwort wird ausdrücklich der Beginn eines Sprachdialogs bezeichnet, wenn der Benutzer der Sprachdialogvorrichtung 1 einen Befehl oder ähnliches zur Bedienung der Zielvorrichtung 6 (nachfolgend „Gerätebedienungsbefehl oder ähnliches“ genannt) gibt. In dieser ersten Verkörperung entspricht zudem die Schlüsselwort-Äußerung des Benutzers der Anweisung, einen Sprachdialog zu starten.
  • Es ist zu beachten, dass die Schlüsselwörter vom Benutzer definiert werden können, so dass das Standby-Wörterbuch 12a entsprechend geändert werden kann.
  • Das Sprachdialog-Wörterbuch 12b ist ein Wörterbuch, das von der Spracherkennungseinheit 10 nach dem Start des Sprachdialogs verwendet wird. Der Gerätebedienungsbefehl oder dergleichen ist im Sprachdialog-Wörterbuch 12b vordefiniert, die detaillierte Beschreibung entfällt, da der Inhalt des Sprachdialog-Wörterbuchs 12b von der Zielvorrichtung 6 abhängt. Im Übrigen, wenn die Zielvorrichtung 6 ein Auto-Navigationsgerät ist, werden Befehle wie „Karte vergrößern“, Einrichtungsnamen, Adressen und dergleichen als Erkennungswortschatz im Sprachdialog-Wörterbuch 12b definiert.
  • Die Antwortmodus-Auswahleinheit 13 empfängt das Erkennungsergebnis von der Spracherkennungseinheit 10. Die Antwortmodus-Auswahleinheit 13 bezieht sich dann auf die Antwortmodus-Korrespondenztabelle 14 und wählt eine Antwortmodus-ID entsprechend dem im Erkennungsergebnis enthaltenen Schlüsselwort aus. Die Antwortmodus-Auswahleinheit 13 gibt dann die Antwortmodus-ID an die Dialogsteuereinheit 15 aus.
  • Hier veranschaulicht 3 ein Beispiel für die Antwortmodus-Korrespondenztabelle 14. In der Antwortmodus-Korrespondenztabelle 14, wie in 3 dargestellt, sind z.B. Antwortmodus-IDs den Schlüsselwörtern zugeordnet, die als Anleitung zum Starten eines Sprachdialogs dienen.
  • Es ist zu beachten, dass die in der Antwortmodus-Korrespondenztabelle 14 definierten Antwortmodus-IDs im Beispiel von 3 Alphabete sind, aber die Antwortmodus-IDs können beliebige Zeichenketten oder durch Ziffern dargestellte IDs sein, sofern die Antwortmodi voneinander unterschieden werden können.
  • Der Antwortmodus DB 16 speichert für jede Antwortmodus-ID einen Antwortmodus.
  • 4 zeigt hier ein Beispiel für den Response-Mode DB 16. Im Antwortmodus DB 16 ist den Antwortmodus-IDs mindestens ein Sprachtyp, Sprachtyp, Erkennungstyp, Ausprägungstyp und Ausgabetyp zugeordnet.
  • Die Sprachart gibt an, welche Geschwindigkeit, welches Geschlecht, welche Altersgruppe, welche Lautstärke und welches musikalische Intervall die vom Lautsprecher 4 ausgegebene Sprachausgabe hat.
  • Der Sprachtyp gibt mindestens eine Sprache der vom Lautsprecher 4 ausgegebenen Sprachausgabe oder eine Sprache der auf dem Display 5 angezeigten Antwortanzeige und einen Dialekt in jeder Sprache an.
  • Die Erkennungsart gibt an, ob das Erkennungsergebnis der lokalen Erkennungseinheit 10a oder das Erkennungsergebnis der Servererkennungseinheit 10b als Erkennungsergebnis verwendet werden soll.
  • Der Ausprägungstyp gibt die Informationsmenge in der Antwort an, die dem Ausprägungsgrad entspricht, z.B. für Anfänger, Fortgeschrittene oder Fortgeschrittene. Im Beispiel von 4, für Anfänger, wird die Informationsmenge in der Antwort erhöht und eine sorgfältige Sprach- oder Display-Antwort gegeben. Da das Niveau des Sprachdialogs von fortgeschrittenen Anfängern zu Fortgeschrittenen steigt, wird die Informationsmenge in der Antwort reduziert und eine einfache Sprach- oder Display-Antwort gegeben.
  • Der Ausgabetyp gibt entweder die Ausgabeform der vom Lautsprecher 4 ausgegebenen Sprachausgabe oder die Ausgabeform der auf dem Display 5 angezeigten Antwortanzeige an.
  • Es ist zu beachten, dass die Antwortmodi vom Benutzer definiert werden können, so dass der Antwortmodus DB 16 entsprechend geändert werden kann.
  • Nach Aktivierung bzw. Wiederaufnahme der Sprachdialogvorrichtung 1 oder nach Aktivierung der Spracherkennungseinheit 10 erhält die Dialogsteuereinheit 15 zunächst eine Antwortmodus-ID, die einem Schlüsselwort für den Start eines Sprachdialogs entspricht. Die Dialogsteuereinheit 15 bezieht sich dann auf den Antwortmodus DB 16 und erhält einen Antwortmodus entsprechend der Antwortmodus-ID. Die Dialogsteuereinheit 15 stellt dann ein Szenario für den Sprachdialog entsprechend dem Antwortmodus ein.
  • Das Szenario zeigt z.B. eine Regel der Reaktion der Sprachdialogvorrichtung 1 auf die Äußerung des Benutzers vom Beginn eines Sprachdialogs mit dem Benutzer bis zum Abschluss der Bedienung der Zielvorrichtung 6. Beispielsweise enthält das Szenario, dass das als Zielvorrichtung 6 dienende Fahrzeugnavigationsgerät eine Suche nach einer peripheren Einrichtung ausführt, eine Antwort, die den Benutzer auffordert, einen Suchbereich wie die Adresse auszusprechen, eine Antwort, die den Benutzer auffordert, einen Anlagennamen auszusprechen, eine Antwort, die den Benutzer auffordert, den Namen der gewünschten Einrichtung auszuwählen, indem eine Liste der Ergebnisse der Suche unter Verwendung des Einrichtungenamens und dergleichen präsentiert wird.
  • Die Dialogsteuereinheit 15 kann dynamisch ein Szenario auf Basis des aus dem Antwortmodus DB 16 gewonnenen Antwortmodus generieren oder ein für jeden Antwortmodus vordefiniertes Szenario auswählen. Beispielsweise wird bei dem für Anfänger eingestellten Antwortmodus das Szenario so eingestellt, dass der Benutzer aufgefordert wird, nacheinander einen Suchbereich, einen Einrichtungsnamen und ähnliches für die oben beschriebene periphere Einrichtungssuche zu äußern. Im Gegensatz dazu ist das Szenario bei dem für die erweiterte Suche eingestellten Antwortmodus so eingestellt, dass der Benutzer aufgefordert wird, einen Suchbereich, einen Einrichtungenamen und dergleichen frei auszusprechen, die für die Suche nach peripheren Einrichtungen erforderlich sind.
  • Nach Abschluss der Szenario-Einstellung weist die Dialogsteuereinheit 15 die Wörterbuch-Auswahleinheit 11 an, vom Standby-Wörterbuch 12a in das Sprachdialog-Wörterbuch 12b zu wechseln, und die Dialogsteuereinheit 15 weist die Spracherkennungseinheit 10 an, die Spracherkennung des Gerätebetriebsbefehls oder ähnliches zu starten. Es ist zu beachten, dass die Dialogsteuereinheit 15 die Spracherkennungseinheit 10 anweist, zwischen der lokalen Erkennungseinheit 10a und der Servererkennungseinheit 10b umzuschalten, wenn die Erkennungsart im Antwortmodus aus dem Antwortmodus DB 16 eingestellt ist.
  • Nachdem die Spracherkennungseinheit 10 die Erkennungsverarbeitung mit dem Sprachdialog-Wörterbuch 12b gestartet hat, erhält die Dialogsteuereinheit 15 das Erkennungsergebnis von der Spracherkennungseinheit 10. Die Dialogsteuereinheit 15 ermittelt eine dem Erkennungsergebnis entsprechende Antwort entsprechend dem Szenario und steuert die Antwort im Modus aus dem Antwortmodus DB 16. Die Dialog-Steuereinheit 15 gibt dann die Antwort entweder an die Sprachausgabe-Steuereinheit 17 oder an die Display-Ausgabe-Steuereinheit 18 aus.
  • Wenn die Dialogsteuereinheit 15 den Sprachdialog entsprechend dem Szenario durchführt und das Ergebnis der Erkennung des Gerätebedienbefehls oder ähnliches von der Spracherkennungseinheit 10 erhält, benachrichtigt die Dialogsteuereinheit 15 die Zielvorrichtung 6 über diesen Gerätebedienbefehl oder ähnliches. Wenn das Ergebnis der Erkennung des Gerätebedienungsbefehls o.ä. z.B. „Karte vergrößern“ ist, weist die Dialogsteuereinheit 15 die Zielvorrichtung 6 an, die Kartenanzeige zu vergrößern.
  • Die Sprachausgabe-Steuereinheit 17 erzeugt auf Basis der von der Dialogsteuereinheit 15 empfangenen Antwort und Betriebsart synthetisierte Sprache und gibt die erzeugten synthetisierten Sprachdaten an den Sprecher 4 aus. Da die Sprachsynthese nur mit einer öffentlich bekannten Technik durchgeführt werden muss, entfällt deren Beschreibung. Der Lautsprecher 4 empfängt die synthetisierten Sprachdaten von der Sprachausgabe-Steuereinheit 17 und gibt die synthetisierten Sprachdaten per Sprache aus.
  • Das Display-Ausgabesteuergerät 18 erzeugt die Anzeigedaten auf Basis der von der Dialog-Steuereinheit 15 empfangenen Antwort und des Modus und gibt die erzeugten Anzeigedaten an den Bildschirm 5 aus. Der Bildschirm 5 empfängt die Anzeigedaten von der Anzeigeausgabesteuereinheit 18 und zeigt die Anzeigedaten an. Die Anzeige 5 ist eine Flüssigkristallanzeige, eine organische Elektrolumineszenzanzeige (EL), eine Head-up-Anzeige oder ähnliches.
  • Es ist zu beachten, dass die Eingabe des Benutzers während des Sprachdialogs nicht auf die Spracheingabe über die Spracherkennung beschränkt ist, sondern durch manuelle Bedienung über eine Eingabevorrichtung wie ein Touchscreen oder eine Hardwaretaste erfolgen kann. Wenn z.B. die Informationen der Einrichtungsliste als Ergebnis der Ausführung der peripheren Einrichtungssuche auf der Anzeige 5 angezeigt werden, kann der Benutzer einen gewünschten Einrichtungsnamen aus der Einrichtungsliste eingeben oder die gewünschte Einrichtung durch Bedienung der Eingabevorrichtung auswählen. Die Dialogsteuereinheit 15 erhält das Ergebnis der Erkennung des Anlagennamens oder der Eingabe von der Eingabevorrichtung.
  • Als nächstes wird die exemplarische Bedienung der Sprachdialogvorrichtung 1 nach der ersten Ausführungsform anhand der in 5A und 5B dargestellten Flussdiagrammen und spezifischen Beispielen beschrieben. 5A ist ein Flussdiagramm, das den Betrieb der Sprachdialogvorrichtung 1 im Standby-Modus für die Anweisung zum Starten eines Sprachdialogs veranschaulicht. 5B ist ein Flussdiagramm, das die Funktionsweise der Sprachdialogvorrichtung 1 bei der Spracherkennung nach dem Start des Sprachdialogs veranschaulicht.
  • Zuerst wird der Betrieb der Sprachdialogvorrichtung 1 im Standby-Modus für die Anweisung zum Starten eines Sprachdialogs in 5A beschrieben.
  • In Schritt ST001 wählt die Wörterbuch-Auswahleinheit 11 das Standby-Wörterbuch 12a aus.
  • In Schritt ST002 beginnt die Spracherkennungseinheit 10 mit der Erfassung von Sprachdaten über das Mikrofon 2 und die Spracheingabeeinheit 3. In diesem Zustand werden die Sprachdaten dieser Äußerung in die Spracherkennungseinheit 10 eingegeben, wenn der Benutzer ein Schlüsselwort wie z.B. „Starte einfache Sprachbedienung“ eingibt, wie in 3 dargestellt.
  • In Schritt ST003 erkennt die Spracherkennungseinheit 10 einen geäußerten Teil der von der Spracheingabeeinheit 3 empfangenen Sprachdaten und gibt die Sprachdaten im geäußerten Teil an die lokale Erkennungseinheit 10a aus.
  • Im Schritt ST004 extrahiert die lokale Erkennungseinheit 10a einen Merkmalswert aus den Sprachdaten im gesprochenen Abschnitt. Die lokale Erkennungseinheit 10a führt dann die Erkennungsverarbeitung mit Hilfe des Standby-Wörterbuchs 12a anhand der Merkmalsmenge durch und erkennt das Schlüsselwort für den Start eines Sprachdialogs.
  • In Schritt ST005, wenn die lokale Erkennungseinheit 10a das Schlüsselwort für den Start eines Sprachdialogs erkennt (Schritt ST005 „JA“), geht die Verarbeitung zu Schritt ST006 über. Wird das Schlüsselwort nicht erkannt (Schritt ST005 „NO“), kehrt die Verarbeitung zu Schritt ST002 zurück.
  • In Schritt ST006 gibt die lokale Erkennungseinheit 10a das erkannte Schlüsselwort an die Antwortmodus-Auswahleinheit 13 aus. Die Antwortmodus-Auswahleinheit 13 wählt aus der Antwortmodus-Korrespondenztabelle 14 eine Antwortmodus-ID entsprechend dem Schlüsselwort der lokalen Erkennungseinheit 10a und gibt die Antwortmodus-ID an die Dialogsteuereinheit 15 aus. In diesem Beispiel ist, wie in 3 dargestellt, das Schlüsselwort „Starte einfachen Sprachbetrieb“ und damit die Antwortmodus-ID „A“ gewählt.
  • In Schritt ST007 erhält die Dialogsteuereinheit 15 aus dem Antwortmodus DB 16 einen Antwortmodus wie z.B. den Sprachtyp und dergleichen, der der Antwortmodus-ID der Antwortmodus-Auswahleinheit 13 entspricht. Anschließend stellt die Dialogsteuereinheit 15 ein Szenario ein, das dem aus dem Antwortmodus DB 16 gewonnenen Antwortmodus entspricht. In diesem Beispiel wird die Antwortmodus-ID „A“ gewählt. Daher wird, wie in 4 dargestellt, der Antwortmodus als langsame Geschwindigkeit, eine Rede einer Sprecherin in der jungen Altersgruppe, Japanisch, lokale Spracherkennung, die Menge an Informationen für Anfänger und eine Antwort durch Sprache und Anzeige eingestellt.
  • Anschließend wird die Bedienung der Sprachdialogvorrichtung 1 in 5B beschrieben, wenn nach dem Start des Sprachdialogs eine Spracherkennung durchgeführt wird.
  • Nachdem die Dialogsteuereinheit 15 das Szenario für den Sprachdialog in Schritt ST007 in 5A eingestellt hat, geht die Verarbeitung zu Schritt ST008 in 5B über.
  • Im Schritt ST008 weist die Dialogsteuereinheit 15 die Wörterbuchauswahleinheit 11 an, vom Standby-Wörterbuch 12a in das Sprachdialog-Wörterbuch 12b zu wechseln, die Wörterbuchauswahleinheit 11 wählt das Sprachdialog-Wörterbuch 12b nach dem Befehl der Dialogsteuereinheit 15 aus.
  • Zusätzlich weist die Dialogsteuereinheit 15 die Spracherkennungseinheit 10 an, nach der Einstellung auf die lokale Erkennungseinheit 10a oder die Servererkennungseinheit 10b umzuschalten. In diesem Beispiel wird die lokale Spracherkennung als Antwortmodus der Antwortmodus-ID „A“ eingestellt. Daher schaltet die Spracherkennungseinheit 10 auf die lokale Erkennungseinheit 10a um, entsprechend der Anweisung der Dialogsteuerung 15.
  • In Schritt ST009 beginnt die Spracherkennungseinheit 10 mit der Erfassung von Sprachdaten über das Mikrofon 2 und die Spracheingabeeinheit 3. In diesem Zustand, wenn der Benutzer z.B. „periphere Einrichtungssuche“ ausführt, werden die Sprachdaten dieser Äußerung in die Spracherkennungseinheit 10 eingegeben.
  • In Schritt ST010 erkennt die Spracherkennungseinheit 10 einen geäußerten Teil der von der Spracheingabeeinheit 3 empfangenen Sprachdaten und gibt die Sprachdaten im geäußerten Teil an die lokale Erkennungseinheit 10a aus.
  • Im Schritt ST011 extrahiert die lokale Erkennungseinheit 10a einen Merkmalswert aus den Sprachdaten im geäußerten Abschnitt. Dann führt die lokale Erkennungseinheit 10a die Erkennungsverarbeitung mit Hilfe des Sprachdialog-Wörterbuchs 12b auf Basis der Merkmalsmenge durch und erhält das Ergebnis der Erkennung des Gerätebetriebsbefehls oder ähnliches. Die lokale Erkennungseinheit 10a gibt dann das Erkennungsergebnis an die Dialogsteuerung 15 aus.
  • Im Schritt ST012 führt die Dialogsteuerungseinheit 15 eine dem Erkennungsergebnis der lokalen Erkennungseinheit 10a entsprechende Verarbeitung entsprechend dem Szenario durch. Wenn in diesem Beispiel die Dialogsteuereinheit 15 das Erkennungsergebnis „periphere Einrichtungssuche“ erhält, weist die Dialogsteuereinheit 15 die Sprachausgabe Steuereinheit 17 an, eine Antwort in Japanisch mit einer großen Menge an Informationen wie „periphere Einrichtungssuche startet. Bitte sprechen Sie den Namen der Einrichtung deutlich nach dem Ton.“ auszugeben durch die Rede einer Frau in der jungen Altersgruppe mit langsamer Geschwindigkeit. Darüber hinaus weist das Dialog-Steuergerät 15 das Display-Ausgangs-Steuergerät 18 an, die Antwort in Japanisch mit einer großen Menge an Informationen anzuzeigen, wie z.B. in 6 dargestellt. Auf Anweisung der Dialogsteuereinheit 15 veranlasst die Sprachausgabe-Steuereinheit 17 den Lautsprecher 4, die Sprachausgabe durchzuführen. Auf Anweisung der Dialogsteuereinheit 15 bewirkt die Display-Ausgangssteuereinheit 18, dass die Anzeige 5 die Antwortanzeige ausgibt.
  • Wenn in Schritt ST013 der Sprachdialog entsprechend dem Szenario abgeschlossen ist (Schritt ST013 „JA“), kehrt die Dialogsteuereinheit 15 zu Schritt ST001 zurück, wenn nicht abgeschlossen (Schritt ST013 „NEIN“), kehrt die Dialogsteuereinheit 15 zu Schritt ST009 zurück. Es ist zu beachten, dass die Dialogsteuereinheit 15 neben der Feststellung, ob der Sprachdialog entsprechend dem Szenario abgeschlossen ist, auch feststellen kann, dass der Sprachdialog beendet ist, wenn die Dialogsteuereinheit 15 zum Beispiel durch eine Spracheingabe über die Spracherkennung oder durch eine Eingabe per Handbedienung über eine Eingabevorrichtung eine Abbruchanweisung vom Benutzer erhält.
  • Hier zeigen 6, 7 und 8 Beispiele für die Antwortanzeige entsprechend dem Erkennungsergebnis „periphere Einrichtungssuche“.
  • 6 zeigt ein Beispiel für die Antwortanzeige mit vielen Informationen für Einsteiger. Auf der Anzeige 5 erscheint ein vorsichtiger Text „Bitte sprechen Sie den Anlagennamen „deutlich“ nach dem Ton.” sowie Äußerungsbeispiele. Darüber hinaus wird die Anleitung zum Beenden der „peripheren Einrichtungssuche“ angezeigt.
  • Zudem gibt der Lautsprecher 4 synthetisierte Sprache mit sorgfältigem Inhalt aus, wie z.B. „Periphere Anlagensuche startet. Bitte sprechen Sie den Namen der Einrichtung deutlich nach dem Ton“, was ein Beispiel für die Sprachausgabe mit einer großen Menge an Informationen für Anfänger ist.
  • 7 zeigt ein Bespiel der Antwortanzeige mit einer normalen Informationsmenge für die fortgeschrittenen Anfänger. Auf der Anzeige 5 erscheint ein einfacher Text „Bitte sprechen Sie den Namen der Einrichtung.“ sowie Äußerungsbeispiele. Bei fortgeschrittenen Anfängern entfällt die Anzeige der Anleitung zum Beenden der „peripheren Einrichtungssuche“.
  • Darüber hinaus gibt der Lautsprecher 4 synthetisierte Sprache mit einfachen Inhalten wie z.B. „Bitte sprechen Sie den Namen der Einrichtung aus.“, was ein Beispiel für die Antwortsprache mit einer normalen Menge an Informationen für fortgeschrittene Anfänger ist.
  • 8 zeigt ein Beispiel der Antwortanzeige mit einer kleinen Menge an Informationen für Fortgeschrittene. Auf der Anzeige 5 erscheint ein einfacher Text „Bitte sprechen Sie den Namen der Einrichtung”. in kleiner Größe, um die ursprünglich angezeigte Kartenanzeige nicht zu verbergen. Für Fortgeschrittene entfällt die Anzeige der Äußerungsbeispiele der „peripheren Einrichtungssuche“ und der Abbruchanleitung.
  • Zusätzlich wird als Beispiel für die Sprachausgabe mit einer kleinen Informationsmenge für Fortgeschrittene nicht die synthetisierte Sprache aus dem Lautsprecher 4 ausgegeben, sondern nur der Ton, der den Beginn der Äußerung anzeigt.
  • Wie oben beschrieben, umfasst die Sprachdialogvorrichtung 1 gemäß der ersten Ausführungsform die Spracherkennungseinheit 10, die Antwortmodus-Auswahleinheit 13, die Dialogsteuereinheit 15 und die Sprachausgabe-Steuereinheit 17. Die Spracherkennungseinheit 10 erkennt gesprochene Sprache. Die Antwortmodus-Auswahleinheit 13 wählt anhand der Antwortmodus-Korrespondenztabelle 14 einen Antwortmodus aus, der einem Schlüsselwort entspricht, das im Erkennungsergebnis der Spracherkennungseinheit 10 enthalten ist. Die Antwort-Modus-Korrespondenztabelle 14 definiert eine Korrespondenzbeziehung zwischen Schlüsselwörtern zur Anweisung des Beginns eines Sprachdialogs und die Antwortmodi. Die Dialogsteuereinheit 15 startet den Sprachdialog, wenn das Schlüsselwort im Erkennungsergebnis der Spracherkennungseinheit 10 enthalten ist, ermittelt eine Antwort entsprechend dem nachfolgenden Erkennungsergebnis der Spracherkennungseinheit 10 und steuert einen Antwortmodus so, dass er dem von der Antwortmodus-Auswahleinheit 13 gewählten Modus entspricht. Die Sprachausgabesteuerung 17 erzeugt und gibt die Sprachdaten auf Basis der von der Dialogsteuerung 15 gesteuerten Reaktion und Betriebsart an den Lautsprecher 4 aus. Bei dieser Konfiguration kann der Befehl zum Starten eines Sprachdialogs durch die Äußerung des Benutzers gegeben werden. Außerdem kann der Antwortmodus entsprechend dem Inhalt, der als Anweisung zum Starten des Sprachdialogs ausgegeben wird, geändert werden. Daher kann der Antwortmodus im Sprachdialog sofort und einfach geändert werden. Dies ist besonders effektiv, wenn die Sprachdialogvorrichtung 1 in einem Fahrzeug angeordnet ist. Dies liegt daran, dass das Umschalten zwischen den Antwortmodi häufig auftreten kann, wenn die Sprachdialogvorrichtung 1 von einer Vielzahl von Benutzern wie einem Benutzer auf dem Fahrersitz und einem Benutzer auf dem Beifahrersitz gemeinsam genutzt wird und jeder der Benutzer ein unterschiedliches Niveau für den Sprachdialog, Vorlieben und dergleichen hat.
  • Zusätzlich ist die Antwortmodus-Auswahleinheit 13 so konfiguriert, dass sie die Geschwindigkeit, das Geschlecht, das Alter, die Lautstärke oder das musikalische Intervall der Antwortsprache als Antwortmodus wählt. Zusätzlich kann die Antwortmodus-Auswahleinheit 13 auch so konfiguriert werden, dass eine Sprache der Antwort oder ein Dialekt in jeder Sprache als Antwortmodus ausgewählt wird. Zusätzlich kann die Antwortmodus-Auswahleinheit 13 auch so konfiguriert werden, dass sie entweder die Sprachausgabe aus dem Lautsprecher 4 oder die Anzeigeantwort auf der Anzeige 5 als Antwortmodus wählt. Dies ermöglicht das Umschalten des Antwortmodus entsprechend der Präferenz des Benutzers.
  • Zusätzlich umfasst die Spracherkennungseinheit 10 nach der ersten Ausführungsform die lokale Erkennungseinheit 10a und die Servererkennungseinheit 10b. Die lokale Erkennungseinheit 10a erkennt gesprochene Sprache mit dem lokalen Spracherkennungswörterbuch 12 in der Sprachdialogvorrichtung 1. Die Server-Erkennungseinheit 10b verwendet und veranlasst den externen Spracherkennungsserver 7, gesprochene Sprache zu erkennen und das Erkennungsergebnis zu erhalten. Anschließend wird die Dialogsteuereinheit 15 so konfiguriert, dass sie aus dem Erkennungsergebnis der lokalen Erkennungseinheit 10a oder dem Erkennungsergebnis der Server-Erkennungseinheit 10b eine Antwort ermittelt und somit eine leistungsfähige Spracherkennung durch den Spracherkennungsserver 7 ermöglicht.
  • Zusätzlich ist die Antwortmodus-Auswahleinheit 13 so konfiguriert, dass sie als Antwortmodus die Informationsmenge in der Antwort entsprechend dem Kenntnisstand des Benutzers im Sprachdialog auswählt. Dies ermöglicht das Umschalten des Antwortmodus entsprechend dem Kenntnisstand des Anwenders.
  • Zweite Ausführungsform
  • In der Konfiguration der oben beschriebenen ersten Ausführungsform wird der Befehl zum Starten eines Sprachdialogs durch die Äußerung des Benutzers gegeben. In der Konfiguration dieser zweiten Ausführungsform wird dagegen der Befehl zum Starten eines Sprachdialogs gegeben, wenn der Benutzer eine Taste drückt.
  • 9 ist ein Blockdiagramm, das eine exemplarische Konfiguration einer Sprachdialogvorrichtung 1 nach der zweiten Ausführungsform der vorliegenden Erfindung darstellt. Eine Taste 21, eine Kamera 22 und eine Bildinformationseingabeeinheit 23 werden zu einem Sprachdialogsystem hinzugefügt, in dem die Sprachdialogvorrichtung 1 entsprechend der zweiten Ausführungsform verwendet wird. Die Taste 21 weist den Start eines Sprachdialogs an. Zusätzlich werden der Sprachdialogvorrichtung 1 eine Einzelidentifikationseinheit 31, eine Einzelidentifikationsdaten-Verwaltungseinheit 32 und eine Benutzer-Antwortmodus-Korrespondenztabelle 33 hinzugefügt. Die individuelle Identifikationseinheit 31 identifiziert den Benutzer, der die Taste 21 zum Einleiten eines Sprachdialogs betätigt hat. Die individuelle Identifikationsdaten-Verwaltungseinheit 32 verwaltet die für die Benutzeridentifikation notwendigen Daten. Die Benutzer-Antwortmodus-Korrespondenztabelle 33 definiert eine Korrespondenzbeziehung zwischen Benutzern und Antwortmodi.
  • Es ist zu beachten, dass Teile identisch oder gleichwertig mit denen in 1 und 2 durch die gleichen Zeichen in 9 gekennzeichnet sind, wobei deren Beschreibung entfällt.
  • Die zweite Ausführungsform wird im Folgenden anhand eines Beispiels beschrieben, bei dem das Sprachdialogsystem in einem Fahrzeug angeordnet ist.
  • In der zweiten Ausführungsform ist ein Mikrofon 2 ein Mikrofon-Array. Eine Spracheingabeeinheit 3 identifiziert eine Schallquellenrichtung der Äußerung anhand der Phasendifferenz oder dergleichen zwischen den Schallempfangssignalen des Mikrofon-Arrays und erzeugt geäußerte Richtungsinformationen, die anzeigen, von welcher Seite die Äußerung erfolgt, entweder vom Fahrersitz oder vom Beifahrersitz. Die Spracheingabeeinheit 3 gibt dann die gesprochene Richtungsinformation an die individuelle Identifikationseinheit 31 aus.
  • Die Taste 21 zum Anweisen des Beginns eines Sprachdialogs benachrichtigt eine Dialogsteuereinheit 15 und die individuelle Identifikationseinheit 31 über den Beginn des Sprachdialogs, wenn die Taste 21 vom Benutzer gedrückt wird. Diese Taste 21 ist eine Eingabevorrichtung wie z.B. ein Touchscreen oder ein Hardwaretaster.
  • Die Kamera 22 nimmt ein Bild des Fahrzeuginnenraums auf und gibt Bildinformationen an die Bildinformationseingabeeinheit 23 aus. Diese Kamera 22 nimmt z.B. den Oberkörper jedes Benutzers auf dem Fahrersitz und dem Beifahrersitz auf.
  • Die Bildinformationseingabeeinheit 23 empfängt die Bildinformation von der Kamera 22 und gibt die Bildinformation an die individuelle Identifikationseinheit 31 aus.
  • 10 ist ein Flussdiagramm, das den Vorgang bei der Registrierung einer Benutzerkennung in der Sprachdialogvorrichtung 1 entsprechend der zweiten Ausführungsform veranschaulicht.
  • Wenn in Schritt ST101 die individuelle Identifikationseinheit 31 eine Anweisung erhält, eine Benutzer-ID vom Benutzer über eine Spracheingabe oder eine Eingabe in eine Eingabevorrichtung zu registrieren, die nicht abgebildet ist, empfängt die individuelle Identifikationseinheit 31 Bildinformationen über die Kamera 22 und die Bildinformationseingabeeinheit 23 und erhält ein Gesichtsbild aus den Bildinformationen.
  • Im Schritt ST102 registriert die individuelle Identifikationseinheit 31 das Gesichtsbild des Benutzers und eine beliebige ID in Verbindung miteinander in der individuellen Identifikationsdaten-Verwaltungseinheit 32. Beispielsweise registriert die individuelle Identifikationseinheit 31 das Gesichtsbild des auf dem Fahrersitz sitzenden Benutzers als Benutzer-ID „001“ und das Gesichtsbild des auf dem Beifahrersitz sitzenden Benutzers als Benutzer-ID „002“.
  • 11 ist ein Flussdiagramm, das den Vorgang veranschaulicht, wenn eine Benutzer-ID und eine Antwortmodus-ID in der Sprachdialogvorrichtung 1 entsprechend der zweiten Ausführungsform miteinander verknüpft sind. In dieser zweiten Ausführungsform, wenn ein Schlüsselwort zur Anweisung des Beginns eines Sprachdialogs ausgesprochen wird, wird nicht nur die Steuerung zum Antwortmodus gemacht, der diesem Schlüsselwort entspricht, wie bei der oben beschriebenen ersten Ausführungsform, sondern auch die Verarbeitung zur Identifizierung des Benutzers, der das Schlüsselwort ausgesprochen hat, und die Registrierung des Benutzers und des Antwortmodus in Verbindung miteinander durchgeführt.
  • Wenn die Sprachdialogvorrichtung 1 für den Befehl zum Starten eines Sprachdialogs bereitsteht, empfängt die individuelle Identifikationseinheit 31 Bildinformationen von der Bildinformationseingabeeinheit 23 in Schritt ST201.
  • In Schritt ST202 erhält die individuelle Identifikationseinheit 31 von der Spracheingabeeinheit 3 parallel zu Schritt ST201 gesprochene Richtungsinformationen.
  • In Schritt ST203 erkennt die individuelle Identifikationseinheit 31 aus den von der Bildinformationseingabeeinheit 23 empfangenen Bildinformationen Gesichtsbilder der jeweiligen Benutzer auf dem Fahrersitz und dem Beifahrersitz und führt eine individuelle Identifikation durch, indem sie die Gesichtsbilder mit den von der individuellen Identifikationsdatenverwaltungseinheit 32 verwalteten Gesichtsbildern vergleicht. Die individuelle Identifikationseinheit 31 erhält dann die Benutzer-IDs. Da eine allgemeine Methode wie z.B. die Karhunen-Loeve (KL)-Erweiterungsmethode des Fourier-Spektrums nur als Vergleichsmethode verwendet werden muss, entfällt die Beschreibung.
  • Anhand der von der Spracheingabeeinheit 3 empfangenen Richtungsinformationen bestimmt die individuelle Identifikationseinheit 31, welcher Benutzer spricht, entweder der Benutzer auf dem Fahrersitz oder der Benutzer auf dem Beifahrersitz. Die individuelle Identifikationseinheit 31 gibt dann die Benutzerkennung des sprechenden Benutzers an eine Response-Mode-Auswahleinheit 13 aus. Die Benutzer-ID, die von der individuellen Identifikationseinheit 31 an die Antwortmodus-Auswahleinheit 13 ausgegeben wird, ist die Benutzer-ID, die den aktuell sprechenden Benutzer angibt.
  • Da die Verarbeitung in den Schritten ST204 bis ST208 der Verarbeitung in den Schritten ST001 bis ST005 ähnlich ist, die in 5A in der oben beschriebenen ersten Ausführungsform dargestellt ist, entfällt die Beschreibung. Es ist zu beachten, dass die Verarbeitung in den Schritten ST204 bis ST208 parallel zur Verarbeitung in den Schritten ST201 bis ST203 erfolgt.
  • Wenn die Antwortmodus-Auswahleinheit 13 von einer Spracherkennungseinheit 10 ein Schlüsselwort erhält, wählt die Antwortmodus-Auswahleinheit 13 eine Antwortmodus-ID, die dem Schlüsselwort aus einer Antwortmodus-Korrespondenztabelle 14 in Schritt ST209 entspricht.
  • Zu dem Zeitpunkt, zu dem die Antwortmodus-Auswahleinheit 13 das Schlüsselwort von der Spracherkennungseinheit 10 empfängt, registriert die Antwortmodus-Auswahleinheit 13 die von der individuellen Identifikationseinheit 31 empfangene Benutzerkennung und die aus der Antwortmodus-Korrespondenztabelle 14 ausgewählte Antwortmodus-ID in Verbindung miteinander in der Benutzer-Antwortmodus-Korrespondenztabelle 33 in Schritt ST210. Auf diese Weise wird die Benutzer-ID des Benutzers, der das Schlüsselwort ausgesprochen hat, mit der vom Benutzer durch die Äußerung des Schlüsselwortes angewiesenen Anwendungsmodus-ID verknüpft.
  • In Schritt ST211 gibt die Antwortmodus-Auswahleinheit 13 die in Schritt ST209 gewählte Antwortmodus-ID an die Dialogsteuereinheit 15 aus. Die Dialogsteuereinheit 15 erhält aus einem Antwortmodus DB 16 einen Antwortmodus wie z.B. den Sprachtyp und dergleichen, der der Antwortmodus-ID der Antwortmodus-Auswahleinheit 13 entspricht. Nachdem die Dialogsteuereinheit 15 ein Szenario eingestellt hat, das dem Antwortmodus aus dem Antwortmodus DB 16 entspricht, geht die Dialogsteuereinheit 15 zu den Schritten ST008 bis ST013 über, die in 5B in der ersten oben beschriebenen Ausführung dargestellt sind.
  • Es ist zu beachten, dass in der Benutzer-Antwortmodus-Korrespondenztabelle 33 eine Benutzer-ID in Verbindung mit der letzten, nur einer Antwort-Modus-ID registriert werden kann, oder wenn ein Benutzer die Schlüsselwort-Operation mehrmals durchführt, z.B. eine Benutzer-ID, die diesen Benutzer angibt, in Verbindung mit einer Vielzahl von Antwort-Modus-IDs registriert werden kann. Wenn die Antwortmodus-Auswahleinheit 13 eine Antwortmodus-ID erhält, die einer bestimmten Benutzer-ID aus der Benutzer-Antwortmodus-Korrespondenztabelle 33 entspricht, kann die Antwortmodus-Auswahleinheit 13 die letzte dieser Benutzer-ID zugeordnete Antwortmodus-ID oder die dieser Benutzer-ID am meisten zugeordnete Antwortmodus-ID erhalten, indem sie die Vielzahl von Antwortmodus-IDs so registriert, dass die Anzahl der Male oder die Registrierungsreihenfolge für jede Antwortmodus-ID identifiziert werden kann.
  • 12 ist ein Flussdiagramm, das die Bedienung veranschaulicht, wenn in der Sprachdialogvorrichtung 1 die Taste 21 für den Start eines Sprachdialogs entsprechend der zweiten Ausführungsform gedrückt wird.
  • Wenn die Sprachdialogvorrichtung 1 für die Anweisung zum Starten eines Sprachdialogs steht, beginnt die individuelle Identifikationseinheit 31, Bildinformationen von der Bildinformationseingabeeinheit 23 in Schritt ST301 zu empfangen.
  • Im Schritt ST302 gibt die Taste 21 bei Betätigung der Taste 21 zum Starten eines Sprachdialogs den Befehl zum Starten eines Sprachdialogs an die Dialogsteuereinheit 15 und die individuelle Identifikationseinheit 31 aus.
  • In Schritt ST303, wenn die individuelle Identifikationseinheit 31 den Befehl zum Starten eines Sprachdialogs von der Taste 21 erhält, verwendet die individuelle Identifikationseinheit 31 ein Mustererkennungsverfahren, wie z.B. eine Trägervektormaschine (SVM), um aus den Bildinformationen eine Benutzerbewegung zu erkennen, die einem vorab erlernten Bewegungsmodell ähnlich ist, wenn die Taste 21 gedrückt wird. Das vorab erlernte Bewegungsmodell ist das Modell für die Bewegung, bei der der Benutzer auf dem Fahrersitz die Taste 21 drückt und die Bewegung, bei der der Benutzer auf dem Beifahrersitz die Taste 21 drückt. Erkennt die individuelle Identifikationseinheit 31 die Bewegung ähnlich dem Bewegungsmodell, erkennt die individuelle Identifikationseinheit 31, welcher Benutzer auf dem Fahrer- oder Beifahrersitz die Taste 21 gedrückt hat und generiert Informationen über die gedrückte Richtung.
  • In Schritt ST304 führt die individuelle Identifikationseinheit 31 eine individuelle Identifizierung durch, indem sie die Gesichtsbilder der jeweiligen Benutzer auf dem Fahrersitz und dem Beifahrersitz mit den von der individuellen Identifikationsdaten-Verwaltungseinheit 32 verwalteten Gesichtsbildern vergleicht. Die individuelle Identifikationseinheit 31 erhält dann die Benutzerkennung jedes Benutzers. Die individuelle Identifikationseinheit 31 identifiziert dann den Benutzer, der die Taste 21 gedrückt hat, anhand des Identifikationsergebnisses jedes auf dem Fahrersitz und dem Beifahrersitz sitzenden Benutzers und der Information über die gedrückte Richtung und gibt die diesem Benutzer zugeordnete Benutzerkennung an die Antwortmodus-Auswahleinheit 13 aus. Hat z.B. der auf dem Fahrersitz sitzende Benutzer die Taste 21 gedrückt, um den Start eines Sprachdialogs anzuweisen, wird die diesem Benutzer entsprechende Benutzerkennung „001“ von der individuellen Identifikationseinheit 31 an die Antwortwahleinheit 13 ausgegeben.
  • In Schritt ST305 wählt die Antwortmodus-Auswahleinheit 13 aus der Benutzer-Antwortmodus-Korrespondenztabelle 33 eine Antwortmodus-ID entsprechend der Benutzer-ID der individuellen Identifikationseinheit 31 aus und gibt die Antwortmodus-ID an die Dialogsteuereinheit 15 aus. In diesem Beispiel wird die Antwortmodus-ID „A“ in Verbindung mit der Benutzer-ID „001“ in der Benutzer-Antwortmodus-Korrespondenztabelle 33 gespeichert. Somit wird die Antwortmodus-ID „A“ von der Antwortmodus-Auswahleinheit 13 an die Dialogsteuereinheit 15 ausgegeben.
  • Da die Verarbeitung in den Schritten ST306 bis ST311 der Verarbeitung in den Schritten ST008 bis ST013 ähnlich ist, die in 5B in der oben beschriebenen ersten Ausführungsform dargestellt ist, entfällt die Beschreibung.
  • Nachdem die Benutzer-ID und die Antwortmodus-ID miteinander verknüpft sind, kann nicht nur durch das Aussprechen eines Schlüsselwortes zum Starten eines Sprachdialogs, sondern auch durch Drücken der Taste 21 zum Starten eines Sprachdialogs sofort in den Antwortmodus gewechselt werden. Das entlastet den Anwender mehr.
  • Es ist zu beachten, dass die im Flussdiagramm in 11 dargestellte Operation und die im Flussdiagramm in 12 dargestellte Operation parallel ausgeführt wird, so dass die Sprachdialogvorrichtung 1 einen Sprachdialog starten kann, unabhängig davon, ob ein Schlüsselwort ausgesprochen oder die Taste 21 gedrückt wird.
  • Wie oben beschrieben, enthält die Sprachdialogvorrichtung 1 gemäß der zweiten Ausführungsform die individuelle Identifikationseinheit 31 zur Identifikation des Benutzers, der die Taste 21 zur Anweisung des Beginns eines Sprachdialogs betätigt hat. Dann wählt die Antwortmodus-Auswahleinheit 13 einen Antwortmodus aus, der dem durch die individuelle Identifikationseinheit 31 identifizierten Benutzer entspricht, indem sie die Benutzer-Antwortmodus-Korrespondenztabelle 33 der Antwortmodus-Korrespondenz verwendet, die eine Korrespondenzbeziehung zwischen Benutzern und den Antwortmodi definiert. Die Dialogsteuereinheit 15 startet den Sprachdialog bei Betätigung der Taste 21, ermittelt eine Antwort entsprechend dem nachfolgenden Erkennungsergebnis der Spracherkennungseinheit 10 und steuert einen Antwortmodus so, dass er dem von der Antwortmodus-Auswahleinheit 13 gewählten Modus entspricht. Bei dieser Konfiguration kann der Befehl zum Starten eines Sprachdialogs über die Tastenbedienung gegeben werden. Außerdem kann der Antwortmodus entsprechend dem Benutzer, der diese Taste betätigt hat, geändert werden. Daher kann der Antwortmodus im Sprachdialog sofort und einfach geändert werden. Zusätzlich müssen konventionell eine Vielzahl von Preset-Tasten, in denen vorab Antwortmodi definiert sind, auf dem Bildschirm angezeigt werden. Da jedoch nach dieser zweiten Ausführungsform nur eine Taste erforderlich ist, ist sie für ein Gerät mit Anzeigeeinschränkungen wie z.B. Fahrzeugausrüstung wirksam.
  • Zusätzlich ist die individuelle Identifikationseinheit 31 entsprechend der zweiten Ausführungsform so konfiguriert, dass sie den Benutzer identifiziert, der ein Schlüsselwort zur Anweisung des Beginns eines Sprachdialogs ausgesprochen hat. Die Antwortmodus-Auswahleinheit 13 ist so konfiguriert, dass sie den durch die individuelle Identifikationseinheit 31 identifizierten Benutzer und einen dem Schlüsselwort entsprechenden Antwortmodus in Verbindung miteinander in der Benutzer-Antwortmodus-Korrespondenztabelle 33 registriert. Auf diese Weise kann die Benutzer-ID automatisch mit der Antwortmodus-ID verknüpft werden, wenn der Benutzer ein Schlüsselwort eingibt und einen Sprachdialog startet. Daher ist es möglich, nach der Assoziation sofort in den Antwortmodus zu wechseln, der den Vorlieben des Benutzers, seinem Kenntnisstand oder ähnlichem entspricht, und zwar sogar durch Drücken der Taste 21, um den Start eines Sprachdialogs anzuweisen. Das entlastet den Anwender mehr.
  • Schließlich wird eine beispielhafte Hardwarekonfiguration des Sprachdialogsystems entsprechend der jeweiligen Verkörperung der vorliegenden Erfindung unter Bezugnahme auf 13 beschrieben.
  • In 13 umfasst das Sprachdialogsystem einen Prozessor 101, einen Speicher 102, eine Kommunikationsvorrichtung 103, eine Eingabevorrichtung 104, eine Ausgabevorrichtung 105 und die Zielvorrichtung 6.
  • In der Server-Erkennungseinheit 10b realisiert die Kommunikationsvorrichtung 103 die Funktion der Kommunikation mit dem Spracherkennungsserver 7.
  • Das Mikrofon 2, die Spracheingabeeinheit 3, die Taste 21 für den Start eines Sprachdialogs, die Kamera 22 und die Bildinformationseingabeeinheit 23 sind die Eingabevorrichtung 104. Der Lautsprecher 4 und die Anzeige 5 sind die Ausgabevorrichtung 105.
  • Zusätzlich sind die Spracherkennungseinheit 10, die Wörterbuch-Auswahleinheit 11, die Antwort-Modus-Auswahleinheit 13, die Dialogsteuereinheit 15, die Sprachausgabesteuereinheit 17, die Display-Ausgabesteuereinheit 18 und die individuelle Identifikationseinheit 31 in der Sprachdialogvorrichtung 1 der Prozessor 101 zur Ausführung eines im Speicher 102 gespeicherten Programms. Der Prozessor 101 wird auch als Zentraleinheit (CPU), Verarbeitungsgerät, Rechengerät, Mikroprozessor, Mikrocomputer, digitaler Signalprozessor (DSP) oder ähnliches bezeichnet.
  • Jede Funktion der Spracherkennungseinheit 10, der Wörterbuch-Auswahleinheit 11, der Antwort-Modus-Auswahleinheit 13, der Dialogsteuereinheit 15, der Sprachausgabesteuereinheit 17, der Display-Ausgabesteuereinheit 18 und der individuellen Identifikationseinheit 31 wird durch Software, Firmware oder eine Kombination aus Software und Firmware realisiert. Die Software oder die Firmware wird als Programm beschrieben und im Speicher 102 abgelegt. Der Prozessor 101 implementiert die Funktion jeder Einheit, indem er das im Speicher 102 gespeicherte Programm liest und ausführt. Das heißt, die Sprachdialogvorrichtung 1 enthält den Speicher 102 zum Speichern des Programms, mit dem jeder Schritt in 5A, 5B, 10, 11 und 12 dargestellt wird und folglich bei der Ausführung durch den Prozessor 101 ausgeführt wird. Außerdem kann man sagen, dass dieses Programm einen Computer veranlasst, die Prozeduren oder Methoden für jede Einheit der Sprachdialogvorrichtung 1 auszuführen.
  • Zusätzlich sind das lokale Spracherkennungswörterbuch 12, die Antwortmodus-Korrespondenztabelle 14, der Antwortmodus DB 16, die individuelle Identifikationsdaten-Verwaltungseinheit 32 und die Benutzer-Antwortmodus-Korrespondenztabelle 33 in der Sprachdialogvorrichtung 1 der Speicher 102. Der Speicher 102 kann z.B. ein nichtflüchtiger oder flüchtiger Halbleiterspeicher wie ein Arbeitsspeicher (RAM), ein Festwertspeicher (ROM), ein Flash-Speicher, ein löschbares programmierbares ROM (EPROM) sein, und ein elektrisches EPROM (EEPROM), kann eine Magnetplatte wie eine Festplatte und eine flexible Platte sein, oder eine optische Platte wie eine Mini-Disc, eine Compact-Disc (CD) und eine digitale vielseitige Disc (DVD).
  • Es ist zu beachten, dass beliebige Kombinationen der Ausführungsformen, Änderungen an beliebigen Bestandteilen in den Ausführungsformen oder das Weglassen beliebiger Bestandteile in den Ausführungsformen in der vorliegenden Erfindung im Rahmen der Erfindung vorgenommen werden können.
  • Darüber hinaus kann die Sprachdialogvorrichtung 1, obwohl die Beschreibung der Anwendung, in der die Sprachdialogvorrichtung 1 in der ersten und zweiten Ausführung im Fahrzeug angeordnet ist, für andere Anwendungen als das Fahrzeug verwendet werden.
  • GEWERBLICHE ANWENDBARKEIT
  • Die Sprachdialogvorrichtung nach der vorliegenden Erfindung kann den Antwortmodus in einem Sprachdialog augenblicklich und leicht ändern. Daher ist die Sprachdialogvorrichtung nach der vorliegenden Erfindung für den Einsatz in einer Sprachdialogvorrichtung oder dergleichen geeignet, das von einer Vielzahl von Benutzern mit unterschiedlichen Sprachkenntnissen, wie z.B. Fahrzeugnavigationsgeräten, gemeinsam genutzt wird.
  • Bezugszeichenliste
  • 1: Sprachdialogvorrichtung, 2: Mikrofon, 3: Spracheingabeeinheit, 4: Lautsprecher, 5: Anzeige, 6: Zielvorrichtung, 7: Spracherkennungsserver, 10: Spracherkennungseinheit, 10a: lokale Erkennungseinheit, 10b: Servererkennungseinheit, 11: Wörterbuchauswahleinheit, 12: Lokales Spracherkennungswörterbuch, 12a: Standby-Wörterbuch, 12b: Sprachdialog-Wörterbuch, 13: Antwort-Modus-Auswahleinheit, 14: Antwort-Modus-Korrespondenztabelle, 15: Dialogsteuereinheit, 16: Antwortmodus DB, 17: Sprachausgabesteuereinheit, 18: Anzeige-Ausgabesteuereinheit, 21: Taste, 22: Kamera, 23: Bildinformationseingabeeinheit, 31: individuelle Identifikationseinheit, 32: individuelle Identifikationsverwaltungstabelle, 33: Benutzer-Antwortmodus-Korrespondenztabelle, 101: Prozessor, 102: Speicher, 103: Kommunikationsvorrichtung, 104: Eingabevorrichtung, 105: Ausgabevorrichtung
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2004258233 A [0004]

Claims (9)

  1. Eine Sprachdialogvorrichtung umfassend: eine Spracherkennungseinheit zur Erkennung von gesprochener Sprache; eine Antwortmodus-Auswahleinheit zum Auswählen eines Antwortmodus, der einem Schlüsselwort entspricht, das in einem Erkennungsergebnis der Spracherkennungseinheit enthalten ist, unter Verwendung einer Antwortmodus-Korrespondenztabelle, die eine Korrespondenzbeziehung zwischen dem Schlüsselwort zum Anweisen des Beginns eines Sprachdialogs und dem Antwortmodus definiert; eine Dialogsteuereinheit zum Starten des Sprachdialogs, wenn das Schlüsselwort im Erkennungsergebnis der Spracherkennungseinheit enthalten ist, zum Bestimmen einer Antwort gemäß einem nachfolgenden Erkennungsergebnis von der Spracherkennungseinheit und zum Steuern eines Antwortmodus derart, dass er dem von der Antwortmodus-Auswahleinheit ausgewählten Modus entspricht; und eine Sprachausgabesteuereinheit zur Erzeugung von Sprachdaten auf Basis der Antwort und des Modus, die von der Dialogsteuereinheit gesteuert werden, und zur Ausgabe der Sprachdaten an einen Lautsprecher.
  2. Die Sprachdialogvorrichtung nach Anspruch 1, weiter umfassend: eine individuelle Identifikationseinheit zur Identifizierung eines Benutzers, der eine Taste zum Starten eines Sprachdialogs betätigt hat, wobei die Antwortmodus-Auswahleinheit einen Antwortmodus auswählt, der dem durch die individuelle Identifikationseinheit identifizierten Benutzer entspricht, unter Verwendung einer Benutzer-Antwortmodus-Korrespondenztabelle, die eine Korrespondenzbeziehung zwischen dem Benutzer und dem Antwortmodus definiert, und die Dialogsteuereinheit den Sprachdialog startet, wenn die Taste betätigt wird, eine Antwort entsprechend einem nachfolgenden Erkennungsergebnis der Spracherkennungseinheit ermittelt und einen Antwortmodus so steuert, dass er dem von der Antwortmodus-Auswahleinheit gewählten Modus entspricht.
  3. Die Sprachdialogvorrichtung nach Anspruch 1, wobei die Antwortmodus-Auswahleinheit als Antwortmodus Geschwindigkeit, Geschlecht, Alter, Lautstärke oder ein musikalisches Sprachintervall der Antwort auswählt.
  4. Die Sprachdialogvorrichtung nach Anspruch 1, wobei die Antwortmodus-Auswahleinheit als Antwortmodus eine Sprache der Antwort oder einen Dialekt in jeder Sprache auswählt.
  5. Die Sprachdialogvorrichtung nach Anspruch 1, wobei die Spracherkennungseinheit umfasst: eine lokale Erkennungseinheit zum Erkennen der gesprochenen Sprache unter Verwendung eines lokalen Spracherkennungswörterbuchs in der Sprachdialogvorrichtung; und eine Server-Erkennungseinheit zum Verwenden und Veranlassen eines externen Spracherkennungsservers, die geäußerte Sprache zu erkennen und ein Erkennungsergebnis zu erhalten, und die Dialogsteuereinheit ermittelt die Antwort anhand eines Erkennungsergebnisses der lokalen Erkennungseinheit oder des Erkennungsergebnisses der Servererkennungseinheit.
  6. Die Sprachdialogvorrichtung nach Anspruch 1, wobei die Antwortmodus-Auswahleinheit als den Antwortmodus eine Informationsmenge in der Antwort auswählt, die einem Leistungsniveau eines Benutzers im Sprachdialog entspricht.
  7. Die Sprachdialogvorrichtung nach Anspruch 1, weiter umfassend: eine Anzeigeausgangssteuereinheit zur Erzeugung von Anzeigedaten auf Basis der von der Dialogsteuereinheit gesteuerten Reaktion und Ausgabe der Anzeigedaten an ein Display, wobei die Antwortmodus-Auswahleinheit als den Antwortmodus entweder eine oder beide einer Sprachausgabe aus dem Lautsprecher und einer Anzeigeantwort auf der Anzeige auswählt.
  8. Die Sprachdialogvorrichtung nach Anspruch 2, wobei die individuelle Identifikationseinheit einen Benutzer identifiziert, der das Schlüsselwort für den Beginn des Sprachdialogs ausgesprochen hat, und die Antwortmodus-Auswahleinheit registriert den durch die individuelle Identifikationseinheit identifizierten Benutzer und den Antwortmodus, der dem vom Benutzer in Verbindung miteinander geäußerten Schlüsselwort in der Benutzer-Antwortmodus-Korrespondenztabelle entspricht.
  9. Ein Sprachdialogverfahren, umfassend: ein Schritt, um durch eine Spracherkennungseinheit gesprochene Sprache zu erkennen; einen Schritt zum Auswählen eines Antwortmodus, der einem Schlüsselwort entspricht, das in einem Erkennungsergebnis der Spracherkennungseinheit enthalten ist, durch eine Antwortmodus-Korrespondenztabelle, die eine Korrespondenzbeziehung zwischen dem Schlüsselwort zum Anweisen des Beginns eines Sprachdialogs und dem Antwortmodus definiert; ein Schritt, um durch eine Dialogsteuereinheit den Sprachdialog zu starten, wenn das Schlüsselwort im Erkennungsergebnis der Spracherkennungseinheit enthalten ist, durch die Dialogsteuerungseinheit eine Antwort gemäß einem nachfolgenden Erkennungsergebnis aus der Spracherkennungseinheit zu ermitteln und durch die Dialogsteuereinheit einen Antwortmodus so zu steuern, dass er dem von der Antwortmodus-Auswahleinheit gewählten Modus entspricht; und einen Schritt der Erzeugung von Sprachdaten auf der Grundlage der Antwort und des Modus, die von der Dialogsteuereinheit gesteuert werden, durch eine Sprachausgabesteuereinheit und der Ausgabe der Sprachdaten an einen Lautsprecher.
DE112015007147.4T 2015-11-25 2015-11-25 Sprachdialogvorrichtung und Sprachdialogverfahren Ceased DE112015007147T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/083049 WO2017090115A1 (ja) 2015-11-25 2015-11-25 音声対話装置および音声対話方法

Publications (1)

Publication Number Publication Date
DE112015007147T5 true DE112015007147T5 (de) 2018-08-09

Family

ID=58763331

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112015007147.4T Ceased DE112015007147T5 (de) 2015-11-25 2015-11-25 Sprachdialogvorrichtung und Sprachdialogverfahren

Country Status (5)

Country Link
US (1) US10706853B2 (de)
JP (1) JP6570651B2 (de)
CN (1) CN108292502A (de)
DE (1) DE112015007147T5 (de)
WO (1) WO2017090115A1 (de)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10360909B2 (en) * 2017-07-27 2019-07-23 Intel Corporation Natural machine conversing method and apparatus
US11430437B2 (en) 2017-08-01 2022-08-30 Sony Corporation Information processor and information processing method
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10565981B2 (en) * 2017-09-26 2020-02-18 Microsoft Technology Licensing, Llc Computer-assisted conversation using addressible conversation segments
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
JP6921717B2 (ja) * 2017-11-15 2021-08-18 Tvs Regza株式会社 システム、方法、およびプログラム
JP7192208B2 (ja) * 2017-12-01 2022-12-20 ヤマハ株式会社 機器制御システム、デバイス、プログラム、及び機器制御方法
JP6962158B2 (ja) 2017-12-01 2021-11-05 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
JP7067082B2 (ja) 2018-01-24 2022-05-16 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
CN111699469B (zh) 2018-03-08 2024-05-10 三星电子株式会社 基于意图的交互式响应方法及其电子设备
US10573298B2 (en) 2018-04-16 2020-02-25 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
JP7000268B2 (ja) * 2018-07-18 2022-01-19 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (de) 2018-11-15 2020-05-20 Snips Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
WO2020175384A1 (en) * 2019-02-25 2020-09-03 Clarion Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method
CN109949723A (zh) * 2019-03-27 2019-06-28 浪潮金融信息技术有限公司 一种通过智能语音对话进行产品推荐的装置及方法
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
KR20210016975A (ko) * 2019-08-06 2021-02-17 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11189286B2 (en) * 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US20210375267A1 (en) * 2020-05-30 2021-12-02 Jio Platforms Limited Method and system for smart interaction in a multi voice capable device environment
CN111883122B (zh) * 2020-07-22 2023-10-27 海尔优家智能科技(北京)有限公司 语音识别方法及装置、存储介质、电子设备
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
WO2022059214A1 (ja) * 2020-09-18 2022-03-24 株式会社デンソーテン 車載装置及び車載システム
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN113138737B (zh) 2021-04-16 2023-11-03 阿波罗智联(北京)科技有限公司 投屏场景的显示控制方法、装置、设备、介质及程序产品
CN115480888A (zh) * 2021-06-16 2022-12-16 上海博泰悦臻网络技术服务有限公司 语音控制方法、装置、系统、电子设备、存储介质及产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258233A (ja) 2003-02-25 2004-09-16 Fujitsu Ltd 適応型音声対話システム及び方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62131298A (ja) * 1985-12-04 1987-06-13 株式会社日立製作所 音声入出力装置
JP2004301875A (ja) * 2003-03-28 2004-10-28 Toyota Central Res & Dev Lab Inc 音声認識装置
JP4260788B2 (ja) * 2005-10-20 2009-04-30 本田技研工業株式会社 音声認識機器制御装置
US8532871B2 (en) 2007-06-05 2013-09-10 Mitsubishi Electric Company Multi-modal vehicle operating device
US20090043583A1 (en) * 2007-08-08 2009-02-12 International Business Machines Corporation Dynamic modification of voice selection based on user specific factors
US9263058B2 (en) * 2010-06-24 2016-02-16 Honda Motor Co., Ltd. Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
JP5686903B2 (ja) * 2011-09-13 2015-03-18 三菱電機株式会社 ナビゲーション装置および方法
US8600746B1 (en) * 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
WO2014062859A1 (en) * 2012-10-16 2014-04-24 Audiologicall, Ltd. Audio signal manipulation for speech enhancement before sound reproduction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258233A (ja) 2003-02-25 2004-09-16 Fujitsu Ltd 適応型音声対話システム及び方法

Also Published As

Publication number Publication date
WO2017090115A1 (ja) 2017-06-01
JPWO2017090115A1 (ja) 2018-03-15
US20180277119A1 (en) 2018-09-27
JP6570651B2 (ja) 2019-09-04
US10706853B2 (en) 2020-07-07
CN108292502A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
DE112015007147T5 (de) Sprachdialogvorrichtung und Sprachdialogverfahren
EP0852051B1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE60124471T2 (de) Vorrichtung zur Spracherkennung
DE60111775T2 (de) Sprachgesteuertes tragbares endgerät
DE19709518C5 (de) Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
DE102016125812A1 (de) Erlernen von Aussprachen einer personalisierten Entität
DE102014201676B4 (de) Verfahren für das Steuern des Dialogs von Sprachsystemen
EP3224830B1 (de) Kraftfahrzeug-gerätebedienung mit bedienkorrektur
DE112015006887T5 (de) Fahrzeug-Spracherkennungsvorrichtung und Fahrzeugausrüstung
DE112014006614T5 (de) Benutzerschnittstellensystem, Benutzerschnittstellensteuereinrichtung, Benutzerschnittstellensteuerverfahren und Benutzerschnittstellensteuerprogramm
DE10338512A1 (de) Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen
EP1071075A2 (de) Verfahren zur Eingabe von Daten in ein System
DE102015106280A1 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE112008001763T5 (de) Spracherkennungsvorrichtung und Navigationssystem
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
DE112014007288T5 (de) Spracherkennungssystem
DE112015007163T5 (de) Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem
WO2001067435A9 (de) Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE102013216427B4 (de) Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
EP0519360B1 (de) Einrichtung und Verfahren zum Erkennen von Sprache
DE60021175T2 (de) Spracherkennung mit Wahrscheinlichkeiten der Kontexthypothesen
DE102020129603A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102020200522A1 (de) Verfahren, Computerprogramm und Vorrichtung zum Verarbeiten einer Spracheingabe
DE102020129599A1 (de) Verfahren zur erkennung von spracheingaben

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final