DE102021212744A1

DE102021212744A1 - Dialogsystem, fahrzeug mit demselben und verfahren zum steuern eines dialogsystems

Info

Publication number: DE102021212744A1
Application number: DE102021212744.4A
Authority: DE
Inventors: Sung Soo Park
Original assignee: Hyundai Motor Co; Kia Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2020-12-29
Filing date: 2021-11-12
Publication date: 2022-06-30
Also published as: US20230315997A9; US20220198151A1; KR20220094400A; CN114758653A

Abstract

Die Offenbarung betrifft ein Dialogsystem, ein Fahrzeug, das dasselbe aufweist, und ein Verfahren zum Steuern desselben. Das Dialogsystem enthält einen Speicher, der konfiguriert ist, um Zielinformationen über ein Ziel und einen Zielwert für mehrdeutige Sprache zu speichern; eine erste Eingabevorrichtung, die konfiguriert ist, um Sprachsignale zu empfangen; und einen Dialogmanager, der zu Folgendem konfiguriert ist: Umwandeln der Sprachsignale, die in der ersten Eingabevorrichtung empfangen werden, in Text; Bestimmen einer Absicht eines Benutzers basierend auf den empfangenen Sprachsignalen; und basierend auf dem Bestimmen, dass die bestimmte Absicht eines Benutzers einer Anfrageabsicht entspricht und der umgewandelte Text der mehrdeutigen Sprache entspricht, Erhalten des Ziels und des Zielwertes, die der mehrdeutigen Sprache entsprechen, anhand der Zielinformationen, die in dem Speicher gespeichert sind. Das Dialogsystem enthält auch einen Ergebnisprozessor, der konfiguriert ist, um eine Antwort basierend auf dem Ziel und dem Zielwert zu erzeugen, die von dem Dialogmanager erhalten werden, und eine Ausgabe der erzeugten Antwort zu steuern.

Description

HINTERGRUND
1. Gebiet
Die Offenbarung betrifft ein Dialogsystem, das eine Absicht eines Benutzers durch einen Dialog mit einem Benutzer erkennt und Informationen oder einen Dienst bereitstellt, die/der von dem Benutzer benötigt werden, ein Fahrzeug mit demselben und ein Verfahren zum Steuern des Dialogsystems.
2. Beschreibung der verwandten Technik
Bei einer Audio-Video-Navigationsvorrichtung (AVN-Vorrichtung) eines Fahrzeugs, einer Klimaanlage in dem Fahrzeug oder den meisten mobilen Vorrichtungen können ein kleiner Bildschirm und ein kleiner Knopf, der in demselben vorgesehen ist, Unannehmlichkeiten des Benutzers verursachen, wenn einem Benutzer visuelle Informationen bereitgestellt werden oder eine Eingabe eines Benutzers empfangen wird.
Wenn ein Benutzer während der Fahrt des Fahrzeugs seine Hand von einem Lenkrad nimmt oder aufsieht, um visuelle Informationen zu überprüfen oder Vorrichtungen in dem Fahrzeug zu betätigen, kann dies insbesondere eine ernsthafte Gefahr für das sichere Fahren darstellen.
Wenn ein Dialogsystem auf ein Fahrzeug angewandt wird, kann es daher möglich sein, Dienste auf komfortablere und sicherere Weise bereitzustellen, wobei das Dialogsystem zum Erkennen einer Absicht eines Benutzers durch einen Dialog mit dem Benutzer fähig ist, und Informationen oder einen Dienst, die/der für den Benutzer erwünscht werden/wird, bereitzustellen.
ZUSAMMENFASSUNG
Ein Aspekt der Offenbarung ist, ein Dialogsystem, das eine Absicht eines Benutzers für eine von einem Benutzer geäußerte mehrdeutige Sprache anhand von bestehenden Dialoginformationen und Zielinformationen erkennt, die von dem Benutzer ausgewählt werden, ein Fahrzeug mit demselben und ein Verfahren zum Steuern des Dialogsystems zu liefern.
Ein anderer Aspekt der Offenbarung ist, ein Dialogsystem, das eine Erfahrungsdatenbank anhand von bestehenden Dialoginformationen und Zielinformationen erstellt, die von dem Benutzer ausgewählt werden, und die Absicht eines Benutzers basierend auf Informationen der erstellten Erfahrungsdatenbank erkennt, ein Fahrzeug mit demselben und ein Verfahren zum Steuern des Dialogsystems zu liefern.
Zusätzliche Aspekte der Offenbarung sind zum Teil in der folgenden Beschreibung dargelegt und sollten zum Teil anhand der Beschreibung offensichtlich sein oder können durch Ausübung der Offenbarung erfahren werden.
Nach einem Aspekt der Offenbarung enthält ein Dialogsystem einen Speicher, der zum Speichern von Zielinformationen über ein Ziel und einen Zielwert für mehrdeutige Sprache konfiguriert ist. Das Dialogsystem enthält auch eine erste Eingabevorrichtung, die konfiguriert ist, um Sprachsignale zu empfangen. Das Dialogsystem enthält auch einen Dialogmanager, der konfiguriert ist, um die in der ersten Eingabevorrichtung empfangenen Sprachsignale in Text umzuwandeln. Der Dialogmanager ist ferner konfiguriert, um eine Absicht eines Benutzers basierend auf den empfangenen Sprachsignalen zu bestimmen. Der Dialogmanager ist ferner konfiguriert, um basierend auf dem Bestimmen, dass die bestimmte Absicht eines Benutzers einer Anforderungs- bzw. Anfrageabsicht entspricht und der umgewandelte Text der mehrdeutigen Sprache entspricht, das Ziel und den Zielwert, die der mehrdeutigen Sprache entsprechen, anhand der in dem Speicher gespeicherten Zielinformationen zu erhalten. Das Dialogsystem enthält auch einen Ergebnisprozessor, der konfiguriert ist, um eine Antwort basierend auf dem Ziel und dem Zielwert, die von dem Dialogmanager erhalten werden, zu erzeugen und eine Ausgabe der erzeugten Antwort zu steuern.
In Erwiderung auf ein Vorhandensein eines Sprachsignals, das einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den empfangenen Sprachsignalen, kann der Dialogmanager konfiguriert sein, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf dem Sprachsignal zu aktualisieren, das der Abfrage entspricht.
Das Dialogsystem kann ferner eine zweite Eingabevorrichtung enthalten, die konfiguriert ist, um Benutzereingaben außer einer Sprache zu empfangen. In Erwiderung auf ein Vorhandensein einer Benutzereingabe, die einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den Benutzereingaben, die durch die zweite Eingabevorrichtung empfangen werden, kann der Dialogmanager konfiguriert sein, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf der Benutzereingabe zu aktualisieren, die der Abfrage entspricht.
Das Dialogsystem kann ferner eine zweite Eingabevorrichtung enthalten, die konfiguriert ist, um Benutzereingaben außer der Sprache zu empfangen. Der Dialogmanager kann konfiguriert sein, um eine Verlaufswahrscheinlichkeit des Zielwertes für jede mehrdeutige Sprache basierend auf Auswahlinformationen des Zielwertes für jede mehrdeutige Sprache, die durch die erste und zweite Eingabevorrichtung empfangen werden, zu erhalten. Der Ergebnisprozessor kann konfiguriert sein, um eine Vielzahl von Antworten basierend auf der Verlaufswahrscheinlichkeit für den erhaltenen Zielwert für jede mehrdeutige Sprache zu erzeugen und die erzeugte Vielzahl von Antworten auszugeben.
Der Dialogmanager kann zu Folgendem konfiguriert sein: basierend auf den Dialoginformationen mit dem Benutzer Bestimmen, ob die mehrdeutige Sprache vorliegt; in Erwiderung auf das Bestimmen, dass die mehrdeutige Sprache vorliegt, basierend auf den Dialoginformationen Erzeugen der Zielinformationen für die mehrdeutige Sprache als Erfahrungsinformationen basierend auf den Dialoginformationen; und Speichern der erzeugten Erfahrungsinformationen in dem Speicher.
Die mehrdeutige Sprache kann eine Sprache enthalten, die das Ziel modifiziert.
Nach einem anderen Aspekt der Offenbarung enthält ein Fahrzeug eine erste Eingabevorrichtung, die konfiguriert ist, um Sprachsignale zu empfangen. Das Fahrzeug enthält auch einen Speicher, der zum Speichern von Zielinformationen über ein Ziel und einen Zielwert für mehrdeutige Sprache konfiguriert ist. Das Fahrzeug enthält auch ein Dialogsystem, das zum Umwandeln der in der ersten Eingabevorrichtung empfangenen Sprachsignale in Text konfiguriert ist. Das Dialogsystem ist ferner zum Bestimmen einer Absicht eines Benutzers basierend auf den empfangenen Sprachsignalen konfiguriert. Das Dialogsystem ist ferner konfiguriert, um basierend auf dem Bestimmen, dass die bestimmte Absicht eines Benutzers einer Anfrageabsicht entspricht und der umgewandelte Text der mehrdeutigen Sprache entspricht, das Ziel und den Zielwert, die der mehrdeutigen Sprache entsprechen, anhand der in dem Speicher gespeicherten Zielinformationen zu erhalten. Das Dialogsystem ist ferner konfiguriert, um eine Antwort basierend auf dem erhaltenen Ziel und Zielwert zu erzeugen. Das Dialogsystem ist ferner konfiguriert, um eine Ausgabe der erzeugten Antwort zu steuern.
Das Fahrzeug kann ferner eine Anzeige, die zum Ausgeben der erzeugten Antwort als ein Bild konfiguriert ist, und einen Lautsprecher enthalten, der zum Ausgeben der erzeugten Antwort als Audio konfiguriert ist.
In Erwiderung auf das Vorhandensein eines Sprachsignals, das einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den empfangenen Sprachsignalen ist das Dialogsystem konfiguriert, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf dem Sprachsignal zu aktualisieren, das der Abfrage entspricht.
Das Fahrzeug kann ferner eine zweite Eingabevorrichtung enthalten, die zum Empfangen der Benutzereingaben außer einer Sprache konfiguriert ist. In Erwiderung auf ein Vorhandensein einer Benutzereingabe, die einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den Benutzereingaben, die durch die zweite Eingabevorrichtung empfangen werden, kann das Dialogsystem konfiguriert sein, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf der Benutzereingabe zu aktualisieren, die der Abfrage entspricht.
Das Fahrzeug kann ferner eine zweite Eingabevorrichtung enthalten, die zum Empfangen von Benutzereingaben außer einer Sprache konfiguriert ist. Das Dialogsystem kann konfiguriert sein, um eine Verlaufswahrscheinlichkeit des Zielwertes für jede mehrdeutige Sprache basierend auf Auswahlinformationen des Zielwertes für jede mehrdeutige Sprache zu erhalten, die durch die erste und zweite Eingabevorrichtung empfangen werden. Das Dialogsystem kann konfiguriert sein, um basierend auf der Verlaufswahrscheinlichkeit für den erhaltenen Zielwert für jede mehrdeutige Sprache eine Vielzahl von Antworten zu erzeugen. Das Dialogsystem kann auch konfiguriert sein, um die erzeugte Vielzahl von Antworten auszugeben.
Das Dialogsystem kann konfiguriert sein, um basierend auf Dialoginformationen mit dem Benutzer zu bestimmen, ob die mehrdeutige Sprache vorliegt. Das Dialogsystem kann konfiguriert sein, um in Erwiderung auf das Bestimmen, dass die mehrdeutige Sprache vorliegt, basierend auf den Dialoginformationen die Zielinformationen für die mehrdeutige Sprache als Erfassungsinformationen basierend auf den Dialoginformationen zu erzeugen. Das Dialogsystem kann konfiguriert sein, um die erzeugten Erfahrungsinformationen in dem Speicher zu speichern.
Das Fahrzeug kann ferner eine Steuerung enthalten, die zum Steuern von zumindest einer Klimaanlagen, Fenstern, Türen, Sitzen, einer Audio-Video-Navigationsvorrichtung (AVN-Vorrichtung), eines Heizgerätes bzw. einer Heizung, eines Scheibenwischers, Seitenspiegeln, Innenleuchten und/oder Außenleuchten in Erwiderung auf die Antwort, die von dem Dialogsystem ausgegeben wird, zu steuern.
In Erwiderung darauf, dass die Anfrageabsicht eines Benutzers eine Zielortsuchanfrageabsicht ist, kann das Dialogsystem konfiguriert sein, um die Zielinformationen für die mehrdeutige Sprache als Erfahrungsinformationen basierend auf den Dialoginformationen vor einem Neustart und den Dialoginformationen nach dem Neustart zu erzeugen und die erzeugten Erfahrungsinformationen in dem Speicher zu speichern.
Das Dialogsystem kann konfiguriert sein, um Erfahrungsinformationen basierend auf Zielortverlaufs-Informationen, Spracherkennungsnutzungs-Informationen und Steuerinformationen von zumindest einer Vorrichtung zu erzeugen.
Das Dialogsystem kann konfiguriert sein, um Steuerinformationen für zumindest eine Vorrichtung basierend auf Dialoginformationen gemäß einem Zeitablauf während der Fahrt zu erhalten und Erfahrungsinformationen basierend auf den erhaltenen Steuerinformationen von zumindest einer Vorrichtung zu erzeugen.
Nach einem anderen Aspekt der Offenbarung enthält ein Verfahren zum Steuern eines Dialogsystems das Empfangen eines Sprachsignals. Das Verfahren zum Steuern des Dialogsystems enthält auch das Umwandeln des empfangenen Sprachsignals in Text. Das Verfahren zum Steuern des Dialogsystems enthält auch das Identifizieren einer Absicht einer Äußerung eines Benutzers basierend auf dem umgewandelten Text. Das Verfahren zum Steuern des Dialogsystems enthält in Erwiderung darauf, dass die identifizierte Absicht der Äußerung eines Benutzers eine Anfrageabsicht ist und der umgewandelte Text ein Text für mehrdeutige Sprache ist, auch das Erhalten von Zielinformationen, die der mehrdeutigen Sprache entsprechen, basierend auf Erfahrungsinformationen, die in einer Erfahrungsdatenbank gespeichert sind. Das Verfahren zum Steuern des Dialogsystems enthält auch das Bestimmen einer Aktion, die den erhaltenen Zielinformationen entspricht. Das Verfahren zum Steuern des Dialogsystems enthält auch das Erzeugen einer Antwort, die der bestimmten Aktion entspricht. Das Verfahren zum Steuern des Dialogsystems enthält auch das Ausgeben der erzeugten Antwort.
Das Verfahren kann ferner das Erzeugen der Erfahrungsinformationen basierend auf dem ausgegebenen Sprachsignal und dem empfangenen Sprachsignal und Speichern der erzeugten Erfahrungsinformationen in der Erfahrungsdatenbank enthalten.
Das Verfahren kann ferner basierend auf dem Empfangen von Benutzereingaben außer einer Sprache durch eine zweite Eingabevorrichtung das Bestimmen enthalten, ob eine Benutzereingabe, die einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den empfangenen Benutzereingaben vorliegt. Das Verfahren kann ferner in Erwiderung auf das Bestimmen, dass die Benutzereingabe vorliegt, die der Abfrage nach der mehrdeutigen Sprache entspricht, das Aktualisieren der Zielinformationen, die der mehrdeutigen Sprache entsprechen und in der Erfahrungsdatenbank gespeichert sind, basierend auf der Benutzereingabe enthalten, die der Abfrage entspricht.
Das Ausgeben der erzeugten Antwort kann Folgendes enthalten: Erhalten einer Verlaufswahrscheinlichkeit eines Zielwertes für jede mehrdeutige Sprache basierend auf Auswahlinformationen des Zielwertes für jede mehrdeutige Sprache, die durch die erste und zweite Eingabevorrichtung empfangen werden; Erzeugen einer Vielzahl von Antworten basierend auf der Verlaufswahrscheinlichkeit für den erhaltenen Zielwert für jede mehrdeutige Sprache; und Ausgeben der erzeugten Vielzahl von Antworten.
Figurenliste
Diese und/oder andere Aspekte der Offenbarung sollten anhand der folgenden Beschreibung der Ausführungsformen in Verbindung mit den beiliegenden Zeichnungen offensichtlich und schneller verstanden werden, in denen:

1 eine Ansicht ist, die einen Innenraum eines Fahrzeugs, das mit einem Dialogsystem versehen ist, nach einer Ausführungsform veranschaulicht.
2 ein Steuerungskonfigurationsdiagramm eines Fahrzeugs, das mit einem Dialogsystem versehen ist, nach einer Ausführungsform ist.
3 ein detailliertes Konfigurationsdiagramm eines Dialogsystems nach einer Ausführungsform ist.
4 ein detailliertes Konfigurationsdiagramm eines Eingabeprozessors eines Dialogsystems nach einer Ausführungsform ist.
5 ein detailliertes Konfigurationsdiagramm eines Dialogmanagers eines Dialogsystems nach einer Ausführungsform ist.
6 eine Ansicht ist, die einen Mehrdeutigkeitsanalysemechanismus einer Mehrdeutigkeitslöseeinrichtung eines Dialogsystems nach einer Ausführungsform veranschaulicht.
Die 7A und 7B Ansichten zum Erhalten eines Nutzungsverlaufs und einer Verlaufswahrscheinlichkeit für eine zielspezifische mehrdeutige Sprache, die einer Absicht eines Benutzers entspricht, in einem Dialogsystem nach einer Ausführungsform sind.
8 eine Ansicht zum Erhalten von Erfahrungsinformationen anhand von Dialoginformationen zwischen einem Dialogsystem und einem Benutzer nach einer Ausführungsform ist.
9A eine Ansicht eines Dialogs zum Suchen eines Zielortes zwischen einem Dialogsystem und einem Benutzer nach einer Ausführungsform ist.
9B eine Ansicht zum Aktualisieren von Erfahrungsinformationen anhand der Dialoginformationen von 9A ist.
10A eine Ansicht eines Dialogs zum Steuern einer Klimaanlage zwischen einem Dialogsystem und einem Benutzer nach einer Ausführungsform ist.
10B eine Ansicht zum Aktualisieren von Erfahrungsinformationen anhand der Dialoginformationen von 10A ist.
11 eine Ansicht einer Erfahrungsdatenbank eines Dialogsystems nach einer Ausführungsform ist.
12 ein detailliertes Konfigurationsdiagramm eines Ergebnisprozessors eines Dialogsystems nach einer Ausführungsform ist.
Die 13A und 13B Ansichten sind, die eine Antworterzeugung in einer Einrichtung zum Erzeugen einer Dialogantwort eines Dialogsystems nach einer Ausführungsform veranschaulichen.
14 ein Steuerablaufplan eines Dialogsystems nach einer Ausführungsform ist.

DETAILLIERTE BESCHREIBUNG
Überall in der Beschreibung beziehen sich ähnliche Bezugsnummern auf ähnliche Elemente. Nicht alle Elemente der Ausführungsformen der Offenbarung werden beschrieben und die Beschreibung dessen, was in der Technik allgemein bekannt ist oder sich in den Ausführungsformen gegenseitig überlappt, wurde weggelassen. Die Ausdrücke, die überall in der Beschreibung verwendet werden, wie beispielsweise „∼teil“, „∼modul“, „∼element“, „∼block“ und dergleichen, können in Software und/oder Hardware implementiert werden und eine Vielzahl von „-teilen“, „∼modulen“, „∼elementen“ oder „∼blocken“ können ein einem einzelnen Element implementiert werden oder ein einzelner/einzelnes „∼teil“, „∼modul“, „∼element“ oder „∼block“ kann eine Vielzahl von Elementen enthalten.
Es sollte ferner klar sein, dass sich der Ausdruck „verbinden“ und Derivate desselben auf sowohl eine direkte als auch indirekte Verbindung beziehen und die indirekte Verbindung eine Verbindung über ein drahtloses Kommunikationsnetz enthält.
Die Ausdrücke „enthalten (oder enthaltend)“ und „aufweisen (oder aufweisend)“ sind einschließlich oder offen und schließen keine zusätzlichen oder nicht aufgezählten Elemente oder Verfahrensschritte aus, sofern nicht anderweitig erwähnt.
Es sollte klar sein, dass, obwohl die Ausdrücke erster/erste/erstes, zweiter/zweite/zweites, dritter/dritte/drittes und dergleichen hierin verwendet werden, um verschiedene Elemente, Komponenten, Bereiche, Schichten und/oder Abschnitte zu beschreiben, diese Elemente, Komponenten, Bereiche, Schichten und/oder Abschnitte nicht durch diese Ausdrücke beschränkt sein sollten. Diese Ausdrücke werden lediglich verwendet, um ein Element, eine Komponente, einen Bereich, eine Schicht oder einen Abschnitt von einem anderen Bereich, einer anderen Schicht oder einem anderen Abschnitt zu unterscheiden.
Es sollte klar sein, dass die Singularformen „ein/eine“ und „der/die/das“ Pluralbezüge enthalten, sofern der Kontext dies nicht anderweitig klar diktiert.
Bezugsnummern, die für Verfahrensschritte verwendet werden, werden lediglich zur Einfachheit der Erläuterung verwendet, aber nicht verwendet, um eine Reihenfolge der Schritte zu beschränken. Folglich kann die schriftliche Reihenfolge anderweitig praktiziert werden, sofern der Kontext dies nicht anderweitig klar diktiert. Wenn ein(e) Komponente, Vorrichtung, Element oder dergleichen der vorliegenden Offenbarung beschrieben wird, einen Zweck zu haben oder eine Operation, Funktion oder dergleichen durchzuführen, sollte das/die Komponente, Vorrichtung oder Element hierin betrachtet werden, „konfiguriert zu sein“, um diesen Zweck zu erfüllen oder diese Operation oder Funktion durchzuführen.
Nachstehend werden ein Betriebsprinzip und Ausführungsformen der Offenbarung in Bezug auf die beiliegenden Zeichnungen beschrieben.
1 ist eine Ansicht, die einen Innenraum eines Fahrzeugs, das mit einem Dialogsystem versehen ist, nach einer Ausführungsform veranschaulicht.
In Bezug auf 1 kann ein Fahrzeug 1 eine Karosserie mit äußeren und inneren Teilen und ein Fahrgestell enthalten, das ein Teil des Fahrzeugs 1 mit Ausnahme der Karosserie ist, auf dem mechanische Vorrichtungen, die zum Fahren erfordert werden, installiert sind.
Die äußeren Teile der Karosserie können vordere, hintere, linke und rechte Türen 101, Fensterscheiben 102 (oder Fenster), die an den vorderen, hinteren, linken und rechten Türen 101 installiert sind, und Seitenspiegel 103 enthalten, die einen Fahrer des Fahrzeugs 1 mit einem Sichtfeld hinter das Fahrzeug 1 versorgen.
Die inneren Teile der Karosserie können Sitze 104 für Fahrgäste, um auf denselben zu sitzen, ein Armaturenbrett 105 und eine Instrumententafel 106 (d.h. eine Gerätegruppe) enthalten, die auf dem Armaturenbrett 105 platziert und mit einem Drehzahlmesser, einem Geschwindigkeitsmesser, einer Kühlmittel-Temperaturanzeige, einer Tankanzeige, einem Fahrtrichtungsanzeiger, einer Fernlicht-Kontrollleuchte, einer Warnleuchte, einer Sicherheitsgurt-Warnleuchte, einem Kilometerzähler, einer Automatik-Schaltwähler-Leuchte, einer Warnleuchte für eine offene Tür, einer Motoröl-Warnleuchte und einer Warnleuchte für einen Kraftstoffmangel ausgestattet ist. Die inneren Teile der Karosserie können auch eine Mittelkonsole 107 mit einer Drossel für ein Audiosystem und eine Heizung/Klimaanlage enthalten.
Die Mittelkonsole 107 kann mit einer Lüftungsöffnung, einem Anzünder, einer Audio-Video-Navigationsvorrichtung (AVN-Vorrichtung) 108 oder dergleichen ausgestattet sein. Die AVN 108 kann ein Fahrzeugendgerät sein. Nachstehend wird die AVN 108 als das Fahrzeugendgerät beschrieben.
Das Fahrzeugendgerät 108 kann eine gegenwärtige Position des Fahrzeugs 1 basierend auf Positionsinformationen berechnen, die durch eine Vielzahl von Satelliten bereitgestellt werden, und die gegenwärtige Position durch Abgleichen der Positionsinformationen mit einer Karte anzeigen.
Zudem kann das Fahrzeugendgerät 108 einen Zielort von einem Benutzer empfangen, eine Routensuche von der gegenwärtigen Position zu einem Zielort basierend auf einem Routensuchalgorithmus durchführen, die gesuchte Route durch Abgleichen der Karte anzeigen und den Benutzer entlang der Route zu dem Zielort führen.
Das Fahrzeugendgerät 108 kann eine Spracherkennungsfunktion durchführen. Das Fahrzeugendgerät 108 kann einen Operationsbefehl durch Spracherkennung oder eine Adresse zu einem Zielort durch Spracherkennung empfangen und eine beliebige Adresse einer Vielzahl von zuvor gespeicherten Adressen durch Spracherkennung auswählen.
Das Fahrgestell des Fahrzeugs 1 enthält ferner eine Leistungserzeugungsvorrichtung, eine Leistungsübertragungsvorrichtung, eine Fahrvorrichtung, eine Lenkvorrichtung, eine Bremsvorrichtung, eine Aufhängungsvorrichtung, eine Getriebevorrichtung, eine Kraftstoffvorrichtung, vordere und hintere Räder und dergleichen.
Zudem sind in dem Fahrzeug 1 verschiedene Sicherheitsvorrichtungen für die Sicherheit der Insassen vorgesehen. Fahrzeugstabilisierungsvorrichtungen können verschiedene Arten an Sicherheit, wie beispielsweise eine Airbagsteuervorrichtung im Falle einer Fahrzeugkollision, und eine elektronische Stabilitätssteuerungsvorrichtung bzw. Fahrdynamikregelungsvorrichtung (ESC-Vorrichtung; engl. electronic stability control device) enthalten, die die Lage des Fahrzeugs während einer Beschleunigung oder Kurvenfahrt des Fahrzeugs 1 steuert.
Das Fahrzeug 1 kann ferner eine Abtastvorrichtung enthalten, wie beispielsweise einen Näherungssensor zum Erfassen eines Hindernisses oder eines anderen Fahrzeugs auf der Rückseite oder den Seiten des Fahrzeugs 1, einen Regensensor zum Erfassen von Niederschlag und der Niederschlagsmenge, und dergleichen.
Zudem kann das Fahrzeug 1 selektiv eine elektronische Vorrichtung (d.h. eine Last), wie beispielsweise eine Freisprechvorrichtung, ein globales Positionsbestimmungssystem (GPS), eine Audiovorrichtung, eine Bluetooth-Vorrichtung (d.h. eine Kommunikationsvorrichtung), eine Rückfahrkamera, eine Ladevorrichtung, eine Blackbox, einen Heizdraht eines Sitzes, eine Hochpassvorrichtung und dergleichen, enthalten. Die elektronische Vorrichtung kann den Operationsbefehl durch Spracherkennung empfangen.
2 ist ein Steuerungskonfigurationsdiagramm eines mit einem Dialogsystem versehenen Fahrzeugs nach einer Ausführungsform. 3 ist ein detailliertes Konfigurationsdiagramm eines Dialogsystems nach einer Ausführungsform. 4 ist ein detailliertes Konfigurationsdiagramm eines Eingabeprozessors eines Dialogsystems nach einer Ausführungsform. 5 ist ein detailliertes Konfigurationsdiagramm eines Dialogmanagers eines Dialogsystems nach einer Ausführungsform. 6 ist ein detailliertes Konfigurationsdiagramm eines Ergebnisprozessors eines Dialogsystems nach einer Ausführungsform.
In Bezug auf 2 kann das Fahrzeug 1 eine erste Eingabevorrichtung 110, eine zweite Eingabevorrichtung 120, ein Dialogsystem 130, eine Ausgabevorrichtung 140, eine Steuerung 150, einen Detektor 160, eine Kommunikationsvorrichtung 170 und eine Vielzahl von elektronischen Vorrichtungen 101, 102, 104, 108 und 109 enthalten.
Die erste Eingabevorrichtung 110 kann einen Steuerbefehl eines Benutzers als Sprache (d.h. Sprechbefehl bzw. Sprachbefehl) empfangen. Die erste Eingabevorrichtung 110 kann ein Mikrofon enthalten, das konfiguriert ist, um einen Ton zu empfangen und dann den Ton in ein elektrisches Signal umzuwandeln.
Zur effektiven Spracheingabe kann die erste Eingabevorrichtung 110 an einem Dachhimmel montiert werden, aber die erste Eingabevorrichtung 110 kann an dem Armaturenbrett 105 oder einem Lenkrad montiert werden. Zudem kann die erste Eingabevorrichtung 110 an einer beliebigen Position montiert werden, solange eine Position zum Empfangen einer Sprache eines Benutzers adäquat ist.
Die zweite Eingabevorrichtung 120 kann den Benutzerbefehl durch eine Bedienung durch einen Benutzer empfangen. Die zweite Eingabevorrichtung 120 kann zumindest Knöpfe, Tasten, Schalter, Touchpads, Pedale und/oder Hebel enthalten.
Die zweite Eingabevorrichtung 120 kann auch eine Kamera enthalten, die den Benutzer aufnimmt. Die Geste, der Gesichtsausdruck oder die Blickrichtung des Benutzers, die/der während des Eingebens eines Befehls verwendet wird, kann durch ein Bild erkannt werden, das durch die Kamera aufgenommen wird. Alternativ ist es auch möglich, den Zustand eines Benutzers (wie beispielsweise Schläfrigkeit) durch das durch die Kamera aufgenommene Bild zu erfassen.
Die zweite Eingabevorrichtung 120 kann als Touchpanel implementiert werden und eine Anzeige 141 der Ausgabevorrichtung 140 kann als Flachbild-Anzeigefeld, wie beispielsweise ein LCD, implementiert werden. Mit anderen Worten können die Anzeige 141 der zweiten Eingabevorrichtung 120 und die Ausgabevorrichtung 140 als ein Berührungsbildschirm implementiert werden, in dem das Touchpanel und das Flachbild-Anzeigefeld einstückig ausgebildet werden.
Die zweite Eingabevorrichtung 120 kann ferner ein Jog Dial zum Eingeben eines Bewegungsbefehls und eines Auswahlbefehls eines auf der Anzeige 141 angezeigten Cursors enthalten.
Die zweite Eingabevorrichtung 120 kann ein Signal für die Knöpfe oder das Jog Dial, die durch den Benutzer betätigt werden, zu der Steuerung 150 übertragen und auch ein Signal einer Position, die durch das Touchpanel berührt wird, zu der Steuerung 150 übertragen.
Das Dialogsystem 130 kann die Absicht eines Benutzers und den Kontext unter Verwendung der Sprache des Benutzers, die über die erste Eingabevorrichtung 110 eingegeben wird, einen Befehl des Benutzers, der über die zweite Eingabevorrichtung 120 eingegeben wird, und eine Vielfalt von Informationen, die über die Steuerung 150 eingegeben werden, erkennen. Das Dialogsystem 130 kann eine Antwort ausgeben, um eine Aktion durchzuführen, die der Absicht des Benutzers entspricht.
Das Dialogsystem 130 kann die Sprache des Benutzers, die durch die erste Eingabevorrichtung 110 eingegeben wird, in Text umwandeln und bestimmen, ob der umgewandelte Text ein Text für eine mehrdeutige Sprache ist.
Eine mehrdeutige Sprache kann eine Sprache ohne eine Referenz zum Bestimmen einer Absicht eines Benutzers oder eine Sprache sein, der eine Basis zum Einstellen der Referenz fehlt.
Die mehrdeutige Sprache kann einen Modifikator enthalten, der ein Zielobjekt semantisch einschränkt.
Beispielsweise kann die mehrdeutige Sprache Folgendes enthalten: in der Gegend, in der Umgebung, in der Nähe, fern und dergleichen, die eine Entfernung modifizieren; kurz, lang und dergleichen, die eine Zeit modifizieren; und günstig, kostspielig, hoher Preis, niedriger Preis und dergleichen, die Kosten modifizieren. Die mehrdeutige Sprache kann viele, ein paar, adäquat und dergleichen enthalten, die eine Menge modifizieren, und kann groß, klein, hoch, niedrig und dergleichen enthalten, die eine Größe oder ein Niveau modifizieren.
Im Verhältnis zu einem Geschmackniveau, der Entfernung, der Zeit, den Kosten, einer Temperatur, einer Luftmenge, einer Windrichtung, einer Lautstärke und dergleichen kann das Dialogsystem 130, wenn ein Zielwert, wie beispielweise ein Steuerwert oder ein eingestellter Wert, eines Ziels in einer geäußerten Sprache nicht numerisch zum Ausdruck gebracht wird, bestimmen, dass die geäußerte Sprache (d.h. die Sprache des Benutzers) die mehrdeutige Sprache ist.
Mit anderen Worten kann die mehrdeutige Sprache eine Sprache sein, in der ein Zielwert des Ziels zum Bestimmen eines Zielortes oder ein Zielwert zum Bestimmen eines Steuerwertes eines Steuerobjektes mehrdeutig bzw. unklar ist.
Das Dialogsystem 130 kann bestimmen, dass die geäußerte Sprache (d.h. die Sprache des Benutzers) die mehrdeutige Sprache ist, wenn die geäußerte Sprache in einem übergeordneten Begriff in einer Art von Objekt enthalten ist.
Beispielsweise kann die mehrdeutige Sprache Fleisch, koreanisches Essen, westliches Essen, chinesisches Essen, japanisches Essen, einen Namen einer Region und einen Namen eines Landes enthalten.
Wenn bestimmt wird, dass der umgewandelte Text ein Text für die mehrdeutige Sprache ist, kann das Dialogsystem 130 die Absicht des Benutzers für die mehrdeutige Sprache basierend auf den gespeicherten Dialoginformationen und den Auswahlinformationen des Benutzers erkennen.
Wenn bestimmt wird, dass der umgewandelte Text der Text für die mehrdeutige Sprache ist, kann das Dialogsystem 130 die Absicht des Benutzers für die mehrdeutige Sprache basierend auf Informationen erkennen, die in einer Erfahrungsdatenbank gespeichert sind.
Das Dialogsystem 130 kann eine Antwort zum Durchführen einer Aktion an der geäußerten Sprache des Benutzers basierend auf der Absicht des Benutzers und dem Kontext ausgeben.
Fahrzeuginformationen, die durch die Steuerung 150 eingegeben werden, können Fahrzeugzustandsinformationen oder Informationen über einen umgebenden Kontext enthalten, die durch verschiedene Sensoren des Detektors 160 erhalten werden, der in dem Fahrzeug 1 vorgesehen ist, und auch Informationen enthalten, die grundsätzlich in dem Fahrzeug 1 gespeichert sind, wie beispielsweise der Fahrzeugtyp.
Das Dialogsystem 130 kann die wahre Absicht eines Benutzers erkennen und proaktiv Informationen, die der Absicht entsprechen, unter Berücksichtigung eines Inhalts, der durch den Benutzer nicht geäußert wird, basierend auf im Voraus erhaltenen Informationen bereitstellen. Daher kann es möglich sein, die Dialogschritte und Zeit zum Bereitstellen des durch den Benutzer erwünschten Dienstes zu verringern.
Wie in 3 veranschaulicht, kann das Dialogsystem 100 einen Eingabeprozessor 131, einen Dialogmanager 132, einen Ergebnisprozessor 133 und einen Speicher 134 enthalten.
Der Eingabeprozessor 131 kann eine Benutzereingabe verarbeiten, die die Sprache des Benutzers und eine Eingabe außer der Sprache, Informationen in Bezug auf das Fahrzeug 1 oder eine Eingabe enthält, die Informationen in Bezug auf den Benutzer enthält.
Der Eingabeprozessor 131 kann zwei Arten von Eingabe empfangen, wie beispielsweise eine Sprache eines Benutzers und eine Eingabe außer der Sprache. Die Eingabe außer der Sprache kann das Erkennen einer Geste des Benutzers, eine Eingabe außer der Sprache des Benutzers, die durch Betätigungen der Eingabevorrichtungen 110 und 120 eingegeben wird, die Fahrzeugzustandsinformationen, die einen Fahrzeugzustand angeben, Fahrumgebungsinformationen in Bezug auf Fahrinformationen des Fahrzeugs 1 und Benutzerinformationen enthalten, die einen Zustand eines Benutzers angeben. Zudem können andere Informationen in Bezug auf den Benutzer und das Fahrzeug 1 als die oben erwähnten Informationen in den Eingabeprozessor 131 eingegeben werden, solange die Informationen zum Erkennen einer Absicht eines Benutzers oder zum Bereitstellen eines Dienstes einem Benutzer oder dem Fahrzeug 1 verwendet werden. Der Benutzer kann (einen) Fahrzeuginsassen, wie beispielsweise der Fahrer und Fahrgast/Fahrgäste, enthalten.
Der Eingabeprozessor 131 kann die Sprache eines Benutzers in eine Äußerung in dem Texttyp bzw. der Textart durch Erkennen der Sprache eines Benutzers umwandeln und die Absicht eines Benutzers durch Anwenden eines Algorithmus zum Verstehen einer natürlichen Sprache auf die Äußerung eines Benutzers erkennen.
Der Eingabeprozessor 131 kann Informationen in Bezug auf den Fahrzeugzustand oder die Fahrumgebung des Fahrzeugs mit Ausnahme der Benutzersprache sammeln und dann den Kontext unter Verwendung der gesammelten Informationen verstehen.
Der Eingabeprozessor 131 kann die Absicht eines Benutzers, die durch die Technologie zum Verstehen einer natürlichen Sprache erhalten wird, und die Informationen in Bezug auf den Kontext zu dem Dialogmanager 132 übertragen.
Der Dialogmanager 132 kann das Verarbeitungsergebnis des Eingabeprozessors 131 verwenden, um die Absicht eines Benutzers oder den Zustand des Fahrzeugs zu erfassen und die Aktion zu bestimmen, die der Absicht eines Benutzers oder dem Zustand des Fahrzeugs entspricht.
Der Dialogmanager 132 kann bestimmen, ob der durch den Eingabeprozessor 131 umgewandelte Text ein Text für die mehrdeutige Sprache der Anfrageabsicht eines Benutzers ist. Wenn bestimmt wird, dass der umgewandelte Text der Text für die mehrdeutige Sprache der Anfrageabsicht eines Benutzers ist, kann der Dialogmanager 132 die Absicht eines Benutzers für die mehrdeutige Sprache basierend auf den gespeicherten Dialoginformationen und den Auswahlinformationen eines Benutzers erkennen.
Der Dialogmanager 132 kann die Ausgabe der Abfrageinformationen für die mehrdeutige Sprache steuern. Wenn bestimmt wird, dass der durch den Eingabeprozessor 131 verarbeitete Text ein Text ist, der den Abfrageinformationen entspricht, kann der Dialogmanager 132 den bestimmten Text als einen Zielwert, der der mehrdeutigen Sprache entspricht, in dem Speicher 134 speichern.
Der Dialogmanager 132 kann eine Verlaufswahrscheinlichkeit des Zielwertes für jede mehrdeutige Sprache basierend auf Auswahlinformationen des Zielwertes für jede mehrdeutige Sprache erhalten, die durch die erste und zweite Eingabevorrichtung empfangen werden.
Der durch den Eingabeprozessor 131 verarbeitete Text ist ein Text für ein Sprachsignal, das durch die erste Eingabevorrichtung empfangen wird, und kann Zielinformationen sein, die durch den Benutzer ausgewählt werden.
Mit anderen Worten kann der Dialogmanager 132 Erfahrungsinformationen aktualisieren, die in der Erfahrungsdatenbank gespeichert sind.
Die gespeicherten Dialoginformationen und die Auswahlinformationen eines Benutzers können Informationen sein, die in der Erfahrungsdatenbank gespeichert sind.
Der Dialogmanager 132 kann die Aktion, die der Absicht eines Benutzers oder dem gegenwärtigen Kontext basierend auf der Absicht eines Benutzers entspricht, und die Informationen in Bezug auf den Kontext bestimmen, der von dem Eingabeprozessor 131 übertragen wird, und bestimmen, ob die mehrdeutige Sprache bestimmt wird. Der Dialogmanager 132 kann Parameter managen, die erfordert werden, um die entsprechende Aktion durchzuführen.
Nach Formen bzw. Ausgestaltungen kann die Aktion alle Arten von Aktionen zum Bereitstellen eines bestimmten Dienstes repräsentieren und die Arten der Aktion können im Voraus bestimmt werden.
Der Dialogmanager 132 kann die Informationen in Bezug auf die bestimmte Aktion zu dem Ergebnisprozessor 133 übertragen.
Der Ergebnisprozessor 133 gibt eine Systemäußerung zum Weiterführen des Dialogs oder Bereitstellen eines spezifischen Dienstes gemäß dem ausgegebenen Ergebnis des Dialogmanagers 132 aus.
Der Ergebnisprozessor 133 erzeugt eine Dialogantwort und einen Befehl, der zum Durchführen der übertragenen Aktion erfordert wird, und gibt dieselben aus. Die Dialogantwort kann in Text-, Bild- oder Audioart ausgegeben werden. Wenn der Befehl ausgegeben wird, kann ein Dienst, wie beispielsweise eine Fahrzeugsteuerung und Bereitstellung eines externen Inhalts, der dem ausgegebenen Befehl entspricht, durchgeführt werden.
Der Speicher 134 kann verschiedene Informationen speichern, die für das Dialogsystem 130 erforderlich sind, um verschiedene Operationen durchzuführen.
Der Speicher 134 kann eine Vielfalt von Informationen zur Dialogverarbeitung und Dienstbereitstellung speichern. Beispielsweise kann der Speicher 134 Informationen in Bezug auf Domänen, Aktionen, Sprachhandlungen und Entitätsnamen, die für das Verständnis der natürlichen Sprache verwendet werden, und eine Kontextverständnis-Tabelle, die zum Verstehen des Kontexts anhand der Eingabeinformationen verwendet wird, im Voraus speichern. Zudem kann der Speicher 140 Daten, die durch einen in dem Fahrzeug vorgesehenen Sensor erfasst werden, Informationen in Bezug auf einen Benutzer und Informationen, die für die Aktion erfordert werden, im Voraus speichern.
Der Speicher 134 kann eine STT (Speech To Text; zu Deutsch: Sprache-in-Text)-Datenbank (DB) und eine Domäne/Aktion-Interferenzregel-DB enthalten. Die Domäne/Aktion-Interferenzregel-DB kann im Voraus definierte Aktionen, wie beispielsweise Straßenführung, Fahrzeugbedingungsüberprüfung, Tankstellenempfehlung und dergleichen, enthalten. Folglich kann die Aktion, die der Äußerung eines Benutzers entspricht, d.h. eine durch den Benutzer beabsichtigte Aktion, aus im Voraus definierten Aktionen extrahiert werden.
Der Speicher 134 kann zudem eine DB für eine assoziierte Aktion enthalten, die Aktionen speichert, die mit Ereignissen assoziiert werden, die sich in dem Fahrzeug 1 ereignen.
Der Speicher 134 kann Informationen über einen vergangenen Dialog speichern und die Zielinformationen speichern, die der Absicht eines Benutzers und der mehrdeutigen Sprache entsprechen, derselbe kann aber auch die Zielinformationen speichern, die von dem Benutzer aus den Zielinformationen ausgewählt werden.
Der Speicher 134 kann Informationen über einen vergangenen Dialog für jeden Benutzer speichern und die Zielinformationen speichern, die für jeden Benutzer aus den Zielinformationen ausgewählt werden, die der Absicht eines Benutzers und der mehrdeutigen Sprache entsprechen.
Der Speicher 134 kann die Informationen über einen vergangenen Dialog, die Informationen über eine Absicht eines Benutzers, die Zielinformationen und die ausgewählten Zielinformationen als die Erfahrungsinformationen speichern. Der Speicher 134 kann eine Erfahrungsdatenbank g4 (siehe 5) zum Speichern der Erfahrungsinformationen enthalten.
Der Speicher 134 kann Zielortverlaufs-Informationen des durch den Benutzer empfangenen Zielortes, Fahrzeugsteuerungsverlaufs-Informationen zur Fahrzeugsteuerung während der Fahrt oder des Parkens und Spracherkennungsnutzungs-Informationen, die die Sprache eines Benutzers erkennen, speichern. Der Speicher 134 kann eine Zielortverlaufs-Datenbank g1 (siehe 5), eine Fahrzeugsteuerungsverlaufs-Datenbank g2 (siehe 5) und eine Spracherkennungsnutzungs-Datenbank g3 (siehe 5) enthalten.
Die Fahrzeugsteuerungsverlaufs-Informationen zur Fahrzeugsteuerung während der Fahrt oder des Parkens können Fahrzeugsteuerungsinformationen sein, die während der Spracherkennung durchgeführt werden.
Die Zielortverlaufs-Informationen können die Zielortinformationen, die durch die zweite Eingabevorrichtung eingegeben werden, und die Zielortinformationen enthalten, die durch Sprache durch die erste Eingabevorrichtung eingegeben werden.
Wie oben erwähnt wurde, kann das Dialogsystem 130 Dialogverarbeitungstechnologien bereitstellen, die für Fahrzeugumgebungen angemessen sind. Alle Komponenten oder einige Komponenten des Dialogsystems 130 können in dem Fahrzeug 1 enthalten sein.
Beim Anwenden der Dialogverarbeitungstechnologien, die für die Fahrzeugumgebungen adäquat sind, wie beispielsweise das Dialogsystem 130, kann dasselbe einen wesentlichen Kontext, durch welchen der Fahrer das Fahrzeug direkt fährt, leicht erkennen und auf denselben antworten. Es kann möglich sein, einen Dienst durch Anwenden eines Gewichts auf einen Parameter, der sich auf das Fahren auswirkt, bereitzustellen, wie beispielsweise Benzinknappheit bzw. Benzinmangel und Fahren unter Schläfrigkeit, oder es kann möglich sein, in den meisten Fällen Informationen, z.B. eine Fahrtzeit und Zielortinformationen, die für den Dienst erfordert werden, basierend auf einer Bedingung, bei welcher sich das Fahrzeug 1 zu dem Zielort bewegt, leicht zu erhalten.
Die detaillierte Konfiguration des Dialogsystems 130 wird nachstehend in Bezug auf die 4, 5 und 6 beschrieben.
Die Ausgabevorrichtung 140 ist eine Vorrichtung, die zum Versorgen eines Sprechers (talker) mit einer Ausgabe in einer visuellen, akustischen oder taktilen Weise konfiguriert ist. Die Ausgabevorrichtung 140 kann die Anzeige 141 und einen Lautsprecher 142 enthalten, die in dem Fahrzeug 1 vorgesehen sind.
Die Anzeige 141 und der Lautsprecher 142 können die Antwort auf die Äußerung eines Benutzers, eine Frage zum Benutzer oder Informationen, die durch den Benutzer angefordert werden, in der visuellen oder akustischen Weise ausgeben. Zudem kann es möglich sein, eine Vibration durch Installieren eines Schwingungserzeugers in dem Lenkrad auszugeben.
Die Anzeige 141 kann durch eine beliebige Vorrichtung verschiedener Anzeigevorrichtungen, z.B. Liquid Crystal Display (LCD; zu Deutsch: Flüssigkristallanzeige), Light Emitting Diode (LED; zu Deutsch: Leuchtdiode), Plasma Display Panel (PDP; zu Deutsch: Plasmaanzeigefeld), Organic Light Emitting Diode (OLED; zu Deutsch: organische Leuchtdiode) und Cathode Ray Tube (CRT; zu Deutsch: Kathodenstrahlröhre), implementiert werden.
Die Anzeige 141 kann eine Karte in Bezug auf Fahrinformationen, Straßenumgebungsinformationen und Routenführungsinformationen gemäß den Anweisungen der Steuerung 150 anzeigen. Mit anderen Worten kann die Anzeige 141 die Karte, in der die gegenwärtige Position des Fahrzeugs 1 abgeglichen wird, den Operationszustand und andere zusätzliche Informationen anzeigen.
Die Anzeige 141 kann Informationen in Bezug auf einen Telefonanruf oder Informationen in Bezug auf eine Musikwiedergabe anzeigen und auch ein externes Rundfunksignal als das Bild anzeigen.
Die Anzeige 141 kann auch einen Dialogbildschirm in einem Dialogmodus anzeigen.
Der Lautsprecher 142 kann einen Dialog mit dem Benutzer in dem Fahrzeug 1 ermöglichen oder den Ton ausgeben, der zum Bereitstellen des durch den Benutzer erwünschten Dienstes erforderlich ist.
Der Lautsprecher 142 kann eine Sprache zur Navigationsroutenführung, den Ton oder die Sprache, der/die in den Audio- und Videoinhalten enthalten ist, die Sprache zum Bereitstellen von Informationen oder eines Dienstes, der durch den Benutzer erwünscht wird, und eine Systemäußerung ausgeben, die als eine Antwort auf die Äußerung eines Benutzers erzeugt wird.
Gemäß der Antwort, die von dem Dialogsystem 130 ausgegeben wird, kann die Steuerung 150 ferner das Fahrzeug 1 steuern, um die Aktion durchzuführen, die der Absicht eines Benutzers oder dem gegenwärtigen Kontext entspricht.
Ebenso wie die Informationen, die durch den in dem Fahrzeug 1 vorgesehenen Detektor 160 erhalten werden, kann das Fahrzeug 1 Informationen sammeln, die von einem externen Inhaltsserver oder einer externen Vorrichtung über die Kommunikationsvorrichtung 170 erhalten werden, z.B. Fahrumgebungsinformationen und Benutzerinformationen, wie beispielsweise Verkehrsbedingungen, Wetter, Temperatur, Fahrgastinformationen und persönliche Informationen eines Fahrers. Das Fahrzeug 1 kann die Informationen zu dem Dialogsystem 130 übertragen.
Informationen, die durch den in dem Fahrzeug 1 vorgesehenen Detektor 160 erhalten werden, z.B. eine verbleibende Kraftstoffmenge, eine Regenmenge, eine Regengeschwindigkeit, Informationen über ein Hindernis in der Umgebung, eine Geschwindigkeit, eine Kraftmaschinentemperatur, ein Reifendruck, eine gegenwärtige Position und dergleichen, können über die Steuerung 150 in das Dialogsystem 130 eingegeben werden.
Gemäß der von dem Dialogsystem 130 ausgegeben Antwort kann die Steuerung 150 die Klimaanlage 109, Fenster 102, Türen 101, die Sitze 104 oder die AVN 108 steuern, die in dem Fahrzeug 1 vorgesehen sind. Zudem kann die Steuerung 150 zumindest das Audiosystem/die Audiovorrichtung, eine Heizung, einen Scheibenwischer, den Seitenspiegel und/oder Innen- und Außenleuchten gemäß der von dem Dialogsystem 130 ausgegeben Antwort steuern.
Die Steuerung 150 kann einen Speicher, in dem ein Programm zum Durchführen der oben beschriebenen Operation und der unten beschriebenen Operation gespeichert wird, und einen Prozessor zum Ausführen des gespeicherten Programms enthalten. Zumindest ein Speicher und ein Prozessor können vorgesehen sein, und wenn eine Vielzahl von Speichern und Prozessoren vorgesehen wird, können dieselben auf einem Chip integriert oder physisch getrennt werden.
Der Detektor 160 kann eine Vielzahl von Sensoren enthalten und die Fahrzeugzustandsinformationen oder die Fahrumgebungsinformationen, wie beispielsweise die verbleibende Kraftstoffmenge, Niederschlag, Niederschlagsgeschwindigkeit, Informationen über ein Hindernis in der Umgebung, Reifendruck, gegenwärtige Position, Kraftmaschinentemperatur, Fahrzeuggeschwindigkeit und dergleichen, die durch die Vielzahl von Sensoren erfasst werden, zu der Steuerung 150 übertragen.
Die Kommunikationsvorrichtung 170 kann zumindest ein Kommunikationsmodul enthalten, das konfiguriert ist, um mit internen und externen Vorrichtungen des Fahrzeugs 1 zu kommunizieren. Beispielsweise kann die Kommunikationsvorrichtung 170 zumindest ein Nahbereichs-Kommunikationsmodul, ein verdrahtetes Kommunikationsmodul oder ein drahtloses Kommunikationsmodul enthalten. Die externe Vorrichtung kann einen Server, ein anderes Fahrzeug, ein Benutzerendgerät, Infrastruktur und dergleichen enthalten.
Das Nahbereichs-Kommunikationsmodul kann eine Vielfalt von Nahbereichs-Kommunikationsmodulen enthalten, die konfiguriert ist, um ein Signal unter Verwendung eines drahtlosen Kommunikationsmoduls in dem Nahbereich zu übertragen und zu empfangen, z.B. Bluetooth-Modul, Infrared-Kommunikationsmodul (zu Deutsch: Infrarot-Kommunikationsmodul), Radio-Frequency-Identification-Kommunikationsmodul (RFID-Kommunikationsmodul; zu Deutsch: Funkfrequenz-Identifikations-Kommunikationsmodul), Wireless-Local-Access-Network-Kommunikationsmodul (WLAN-Kommunikationsmodul; zu Deutsch: Kommunikationsmodul eines drahtlosen lokalen Zugangsnetzes), NFC-Kommunikationsmodul und ZigBee-Kommunikationsmodul.
Das verdrahtete Kommunikationsmodul kann eine Vielfalt von verdrahteten Kommunikationsmodulen, z.B. Local-Area-Network-Modul (LAN-Modul; zu Deutsch: Modul eines lokalen Netzes), Wide-Area-Network-Modul (WAN-Modul; zu Deutsch: Modul eines Weitverkehrsnetzes) oder Value-Added-Network-Modul (VAN-Modul; zu Deutsch: Mehrwertnetz-Modul), und eine Vielfalt von Kabelkommunikationsmodulen enthalten, z.B. Universal Serial Bus (USB), High Definition Multimedia Interface (HDMI), Digital Visual Interface (DVI), empfohlener Standard 232 (RS-232; engl. recommended standard 232), Stromnetz-Kommunikation oder einfacher alter Telefondienst (POTS; engl. plain old telephone service.
Das drahtlose Kommunikationsmodul kann ein drahtloses Kommunikationsmodul enthalten, das eine Vielfalt drahtloser Kommunikationsverfahren unterstützt, z.B. WiFi-Modul, Wireless-Broadband-Modul (zu Deutsch: drahtloses Breitband-Modul), Global System for Mobile (GSM) Communication (zu Deutsch: globales System für mobile Kommunikation), Code Division Multiple Access (CDMA; zu Deutsch: Codemultiplex-Vielfachzugriff), Wideband Code Division Multiple Access (WCDMA; zu Deutsch: Breitband-Codemultiplex-Vielfachzugriff), Time Division Multiple Access (TDMA; zu Deutsch: Zeitmultiplex-Vielfachzugriff), Long Term Evolution (LTE), 4G und 5G.
Die Kommunikationsvorrichtung kann ferner ein internes Kommunikationsmodul zur Kommunikation zwischen elektronischen Vorrichtungen in dem Fahrzeug 1 enthalten. Das Kommunikationsprotokoll des Fahrzeugs 1 kann ein Controller Area Network (CAN), Local Interconnection Network (LIN), FlexRay und Ethernet verwenden.
Wie in 4 veranschaulicht, kann der Eingabeprozessor 131 einen Spracheingabeprozessor 131a und einen Prozessor 131b für Kontextinformationen enthalten.
Der Spracheingabeprozessor 131a kann eine Spracherkennungseinrichtung a11, einen Abschnitt a12 zum Verstehen einer natürlichen Sprache und einen Dialogeingabemanager a13 enthalten.
Die Spracherkennungseinrichtung a11 kann die Äußerung in der Textart durch Erkennen der eingegebenen Sprache eines Benutzers ausgeben. Die Spracherkennungseinrichtung a11 kann eine Spracherkennungsmaschine enthalten und die Spracherkennungsmaschine kann eine von einem Benutzer geäußerte Sprache durch Anwenden eines Spracherkennungsalgorithmus auf die eingegebene Sprache erkennen und ein Erkennungsergebnis erzeugen.
Da die eingegebene Sprache in eine nützlichere Form für die Spracherkennung umgewandelt wird, kann die Spracherkennungseinrichtung a11 einen in der Sprache enthaltenen tatsächlichen Sprachabschnitt durch Erfassen eines Anfangspunktes und eines Endpunktes anhand des Sprachsignals erfassen. Dies wird End Point Detection (EPD; zu Deutsch: Endpunkterfassung) genannt.
Die Spracherkennungseinrichtung a11 kann den Merkmalsvektor der eingegebenen Sprache anhand des erfassten Abschnitts durch Anwenden der Merkmalsvektor-Extraktionstechnik, beispielsweise Cepstrum, Linear Predictive Coefficient: (LPC; zu Deutsch: linearer Vorhersagekoeffizient), Mel Frequency Cepstral Coefficient (MFCC; zu Deutsch: Mel-Frequenz-Cepstrum-Koeffizient) oder Filter Bank Energy (zu Deutsch: Filterbankenergie), extrahieren.
Die Spracherkennungseinrichtung a11 kann die Ergebnisse der Erkennung durch Vergleichen des extrahierten Merkmalsvektors mit einem trainierten Referenzmuster erhalten. Die Spracherkennungseinrichtung a11 kann ein akustisches Modell zum Modellieren und Vergleichen der Signalmerkmale einer Sprache verwenden und ein Sprachmodell zum Modellieren einer linguistischen Ordnungsrelation eines Wortes oder einer Silbe verwenden, die einem Erkennungsvokabular entsprechen. Hierfür kann der Speicher 134 die DB für ein akustisches Modell und Sprachmodell speichern.
Das akustische Modell kann in ein direktes Vergleichsverfahren zum Einstellen eines Erkennungsziels auf ein Merkmalsvektormodell und Vergleichen des Merkmalsvektormodells mit einem Merkmalsvektor eines Sprachsignals und ein statistisches Verfahren zum statistischen Verarbeiten eines Merkmalsvektors eines Erkennungsziels klassifiziert werden.
Die Spracherkennungseinrichtung a11 kann ein beliebiges Verfahren der oben beschriebenen Verfahren für die Spracherkennung verwenden. Beispielsweise kann die Spracherkennungseinrichtung a11 ein akustisches Modell, auf welches das Hidden Markov Model (HMM; zu Deutsch: verstecktes Markov-Modell) angewandt wird, oder ein N-bestes Suchverfahren verwenden, bei dem ein akustisches Modell mit einem Sprachmodell kombiniert wird. Das N-beste Suchverfahren kann eine Erkennungsleistung durch Auswählen von N Erkennungsergebniskandidaten oder weniger unter Verwendung eines akustischen Modells und eines Sprachmodells und dann erneutes Schätzen einer Ordnung der Erkennungsergebniskandidaten verbessern.
Die Spracherkennungseinrichtung a11 kann einen Vertrauenswert berechnen, um eine Zuverlässigkeit eines Erkennungsergebnisses sicherzustellen. Ein Vertrauenswert kann ein Kriterium sein, das repräsentiert, wie zuverlässig ein Spracherkennungsergebnis ist. Beispielsweise kann der Vertrauenswert in Bezug auf ein Phonem oder ein Wort, das ein erkanntes Ergebnis ist, als ein relativer Wert einer Wahrscheinlichkeit definiert werden, mit der das entsprechende Phonem oder Wort aus verschiedenen Phonemen oder Wörtern geäußert wurde. Folglich kann ein Vertrauenswert als ein Wert zwischen 0 und 1 oder zwischen 1 und 100 zum Ausdruck gebracht werden.
Wenn der Vertrauenswert größer als ein vorbestimmter Schwellenwert ist, kann die Spracherkennungseinrichtung 111a das Erkennungsergebnis ausgeben, um zu ermöglichen, dass eine dem Erkennungsergebnis entsprechende Operation durchgeführt wird. Wenn der Vertrauenswert gleich dem Schwellenwert oder geringer als derselbe ist, kann die Spracherkennungseinrichtung a11 das Erkennungsergebnis zurückweisen.
Die Spracherkennungseinrichtung a11 kann als die Äußerung in der Textart, die der Absicht eines Benutzers und einem Kontext entspricht, basierend auf den in einer STT-DB 134a gespeicherten Informationen korrigiert werden, anstatt die Äußerung in der Textart durch die Spracherkennungseinrichtung a11 so zu verstehen, wie dieselbe ist.
Die STT-DB 134a kann in dem Speicher 134 vorgesehen sein.
Die STT-DB 134a kann zumindest ein Sprachsignal speichern, das einem Text mit der gleichen Bedeutung entspricht.
Die Spracherkennungseinrichtung a11 kann ein STT-Modul enthalten, das die Aktion akkurat erkennt.
Die Spracherkennungseinrichtung a11 kann Informationen von der STT-DB 134a zum Umwandeln von Sprache in Text empfangen und in der STT-DB 134a gespeicherte Informationen basierend auf dem Spracherkennungsergebnis aktualisieren.
Die Spracherkennungseinrichtung a11 kann ein Ähnlichkeitsniveau zwischen dem Sprachsignal in der STT-DB 134a und dem empfangenen Sprachsignal identifizieren und zumindest ein Sprachsignal mit dem Ähnlichkeitsniveau über einem bestimmten Niveau unter den identifizierten Ähnlichkeiten identifizieren. Die Spracherkennungseinrichtung a11 kann Texte identifizieren, die zumindest einem Sprachsignal entsprechen.
Die Spracherkennungseinrichtung a11 kann ein STT-Lernen basierend auf dem Erkennungsergebnis der Sprache durchführen und Informationen in der STT-DB 134a basierend auf dem Lernergebnis aktualisieren.
Die Spracherkennungseinrichtung a11 kann auch STT-Umwandlungsparameter basierend auf dem Spracherkennungsergebnis in einem Zustand einstellen, in dem die Absicht eines Benutzers oder ein Kontext nicht analysiert wird, und die eingestellten STT-Parameter in der STT-DB 134a speichern.
Die Spracherkennungseinrichtung a11 kann das Vokabular- bzw. Wortschatzverständnis der von dem Benutzer geäußerten Sprache verbessern und die Absicht eines Benutzers akkurat erfassen.
Die Äußerung in der Textart, die das Erkennungsergebnis der Spracherkennungseinrichtung a11 ist, kann als der Abschnitt a12 zum Verstehen einer natürlichen Sprache eingegeben werden.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann eine Technologie zum Verstehen einer natürlichen Sprache auf die Äußerung anwenden, um die Absicht eines Benutzers, die in der Äußerung enthalten ist, zu erfassen.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann eine Absicht der Äußerung eines Benutzers, die in einer Sprache der Äußerung enthalten ist, durch Anwenden der Technologie zum Verstehen einer natürlichen Sprache identifizieren. Daher kann der Benutzer einen Steuerbefehl durch einen natürlichen Dialog eingeben und das Dialogsystem 130 kann auch die Eingabe des Steuerbefehls induzieren und einen Dienst, der von dem Benutzer benötigt wird, über den Dialog bereitstellen.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann eine morphologische Analyse an der Äußerung in der Form von Text durchführen. Ein Morphem ist die kleinste Einheit einer Bedeutung und repräsentiert das kleinste semantische Element, das nicht weiter unterteilt werden kann. Folglich ist die morphologische Analyse ein erster Schritt beim Verstehen einer natürlichen Sprache und transformiert die Eingabekette in die Morphemkette.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann eine Domäne aus der Äußerung basierend auf dem Ergebnis der morphologischen Analyse extrahieren. Die Domäne kann verwendet werden, um ein Thema bzw. einen Gegenstand einer Sprache der Äußerung eines Benutzers zu identifizieren, und die Domäne, die eine Vielfalt von Gegenständen indiziert, beispielsweise Routenführung, Wettersuche, Verkehrssuche, Plan- bzw. Zeitplanmanagement, Kraftstoffmanagement und Klimatisierungssteuerung, kann als eine Datenbank gespeichert werden.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann einen Entitätsnamen anhand der Äußerung erkennen. Der Entitätsname kann ein Eigenname, z.B. Personennamen, Ortsnamen, Organisationsnamen, Zeit, Datum und Währung, sein, und die Erkennung eines Entitätsnamens kann konfiguriert sein, um einen Entitätsnamen in einem Satz zu identifizieren und den Typ des identifizierten Entitätsnamens zu bestimmen. Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann wichtige Schlüsselwörter aus dem Satz unter Verwendung der Erkennung eines Entitätsnamens extrahieren und die Bedeutung des Satzes erkennen.
Zudem kann der Entitätsname ferner einen Unternehmensnamen, einen Gebäudenamen und dergleichen enthalten.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann die mehrdeutige Sprache erkennen, deren Standard oder Ziel anhand der Äußerung nicht klar ist.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann eine Sprachhandlung analysieren, die in der Äußerung enthalten ist. Die Analyse der Sprachhandlung kann konfiguriert sein, um die Absicht der Äußerung eines Benutzers zu identifizieren, z.B. ob ein Benutzer eine Frage stellt, ob ein Benutzer eine Anforderung bzw. Anfrage erfragt oder stellt, ob ein Benutzer antwortet oder ob ein Benutzer einfach eine Emotion zum Ausdruck bringt.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache extrahiert eine Aktion, die einer Absicht der Äußerung eines Benutzers entspricht. Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann die Absicht der Äußerung eines Benutzers basierend auf den Informationen identifizieren, z.B. Domäne, Entitätsname und Sprachhandlung, und eine Aktion extrahieren, die der Äußerung entspricht. Die Aktion kann durch ein Objekt und einen Operator definiert werden.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann einen Parameter in Bezug auf die Ausführung einer Aktion extrahieren. Der Parameter in Bezug auf die Ausführung einer Aktion kann ein effektiver Parameter sein, der für die Ausführung einer Aktion direkt erfordert wird, oder ein ineffektiver Parameter sein, der zum Extrahieren des effektiven Parameters verwendet wird.
Der Abschnitt a12 zum Verstehen einer natürlichen Sprache kann ein Werkzeug extrahieren, das konfiguriert ist, um eine Beziehung zwischen Wörtern oder zwischen Sätzen zum Ausdruck zu bringen, z.B. Syntaxbaum.
Das Ergebnis der morphologischen Analyse, die Domäneninformationen, die Aktionsinformationen, die Informationen über die Sprachhandlung, die extrahierten Parameterinformationen, die Entitätsnameninformationen und der Syntaxbaum, was das Verarbeitungsergebnis des Abschnitts a12 zum Verstehen einer natürlichen Sprache ist, können zu dem Dialogeingabemanager a13 übertagen werden.
Die Informationen über eine Bestimmung einer mehrdeutigen Sprache, was das Verarbeitungsergebnis des Abschnitts a12 zum Verstehen einer natürlichen Sprache ist, können zu dem Dialogeingabemanager a13 übertragen werden.
Der Dialogeingabemanager a13 kann das Ergebnis des Verstehens bzw. Verständnisses einer natürlichen Sprache und die Kontextinformationen zu dem Dialogmanager 120 übertragen.
Der Prozessor 131b für Kontextinformationen kann einen Kontextinformationssammler a21, einen Kontextinformationssammlungs-Manager a22 und einen Abschnitt a23 zum Verstehen eines Kontexts enthalten.
Der Kontextinformationssammler a21 kann Informationen von der zweiten Eingabevorrichtung 120 und der Steuerung 150 sammeln.
Der Kontextinformationssammler a21 kann Daten periodisch sammeln oder Daten nur dann sammeln, wenn sich ein bestimmtes Ereignis ereignet. Zudem kann der Kontextinformationssammler a21 Daten periodisch sammeln und dann Daten zusätzlich sammeln, wenn sich ein bestimmtes Ereignis ereignet. Beim Empfangen einer Anfrage bzw. Anforderung zur Datensammlung von dem Kontextinformationssammlungs-Manager a22 kann der Kontextinformationssammler a21 ferner Daten sammeln.
Die Eingabe außer der Sprache der zweiten Eingabevorrichtung 120 kann in den Kontextinformationen enthalten sein. Mit anderen Worten können die Kontextinformationen die Fahrzeugzustandsinformationen, die Fahrumgebungsinformationen und die Benutzerinformationen enthalten.
Die Fahrzeugzustandsinformationen können Informationen, die den Fahrzeugzustand indizieren und durch einen in dem Fahrzeug 1 vorgesehenen Sensor erhalten werden, und Informationen enthalten, die mit dem Fahrzeug zusammenhängen, beispielsweise Kraftstoffart des Fahrzeugs, und in dem Fahrzeug 1 gespeichert werden.
Die Fahrzeugumgebungsinformationen können Informationen sein, die durch den in dem Fahrzeug 1 vorgesehenen Sensor erhalten werden. Die Fahrumgebungsinformationen können Bildinformationen, die durch eine Frontkamera, eine Rückfahrkamera oder eine Stereokamera erhalten werden, Hindernisinformationen, die durch einen Sensor, z.B. ein Radar, ein LiDAR, ein Ultraschallsensor, erhalten werden, und Informationen in Bezug auf eine Regenmenge und Regengeschwindigkeitsinformationen enthalten, die durch einen Regensensor erhalten werden.
Die Fahrumgebungsinformationen können ferner Verkehrszustandsinformationen, Verkehrsampelinformationen und Informationen über einen Zugang zu einem benachbarten Fahrzeug oder über eine Kollisionsgefahr mit einem benachbarten Fahrzeug enthalten, die über Vehicle to Everything (V2X; zu Deutsch: Fahrzeug zu Allem) erhalten werden.
Die Benutzerinformationen können Informationen in Bezug auf einen Benutzerzustand, die durch eine in dem Fahrzeug 1 vorgesehene Kamera oder ein biometrisches Lesegerät gemessen werden, Informationen in Bezug auf einen Benutzer, die unter Verwendung der Eingabevorrichtungen 110 und 120, die in dem Fahrzeug 1 vorgesehen sind, durch den Benutzer direkt eingegeben werden, Informationen in Bezug auf den Benutzer, die in dem externen Inhaltsserver gespeichert werden, und Informationen enthalten, die in mobilen Vorrichtungen gespeichert werden, die mit dem Fahrzeug 1 verbunden sind.
Der Kontextinformationssammler a21 kann die Fahrzeugsteuerungsinformationen, wie beispielsweise Fahrzeugbeschleunigung, Verzögerung, Lenken, Halt bzw. Anhalten, Parken, Rückwärtsgang, Schaltvorgang, und Steuerinformationen einer fahrzeuginternen Vorrichtung sammeln.
Der Kontextinformationssammlungs-Manager a22 kann die Sammlung der Kontextinformationen managen.
Der Kontextinformationssammlungs-Manager a22 kann die erforderlichen Kontextinformationen durch den Kontextinformationssammler a21 sammeln und ein Bestätigungssignal an den Abschnitt a23 zum Verstehen eines Kontexts übertragen.
Wenn der Kontextinformationssammlungs-Manager a22 bestimmt, dass sich ein bestimmtes Ereignis ereignet, da durch den Kontextinformationssammler a21 gesammelte Daten eine vorbestimmte Bedingung erfüllen, kann der Kontextinformationssammlungs-Manager a22 ein Aktionstriggersignal zu dem Abschnitt a23 zum Verstehen eines Kontexts übertragen.
Der Abschnitt a23 zum Verstehen eines Kontexts kann den Kontext basierend auf dem Ergebnis des Verständnisses einer natürlichen Sprache und den gesammelten Kontextinformationen verstehen.
Der Abschnitt a23 zum Verstehen eines Kontexts kann eine Kontextverständnis-Tabelle zum Suchen nach Kontextinformationen in Bezug auf das entsprechende Ereignis durchsuchen. Wenn die gesuchten Kontextinformationen nicht in der Kontextverständnis-Tabelle gespeichert sind, kann der Abschnitt a23 zum Verstehen eines Kontexts ein Kontextinformations-Anforderungssignal wieder zu dem Kontextinformationssammlungs-Manager a22 übertragen.
Der Abschnitt a23 zum Verstehen eines Kontexts kann auf Kontextinformationen für jede Aktion zurückgreifen, die in der Kontextverständnis-Tabelle gespeichert sind, um zu bestimmen, welche Kontextinformationen mit dem Durchführen einer Aktion assoziiert werden, die der Absicht einer Äußerung eines Benutzers entspricht.
Wie in 5 veranschaulicht, kann der Dialogmanager 132 einen Dialogablaufmanager 132a, einen Dialog-Aktions-Manager 132b, eine Mehrdeutigkeitslöseeinrichtung 132c, einen Parametermanager 132d, eine Einrichtung 132e zum Bestimmen einer Aktionspriorität, einen Manager 132f für externe Informationen und eine Einrichtung 132g zum Erzeugen von Erfahrungsinformationen enthalten.
Der Dialogablaufmanager 132a kann eine Anforderung zum Erzeugen, Löschen und Aktualisieren von Dialogen oder Aktionen stellen.
Genauer kann der Dialogablaufmanager 132a danach suchen, ob eine Dialogaufgabe oder eine Aktionsaufgabe, die der Eingabe durch den Dialogeingabemanager a13 entspricht, in einer Dialog- und Aktionszustands-DB vorliegt.
Die Dialog- und Aktionszustands-DB kann ein Speicherplatz zum Managen des Dialogzustands und des Aktionszustands sein und folglich kann die Dialog- und Aktionszustands-DB einen gegenwärtig fortschreitenden Dialog und eine gegenwärtig fortschreitende Aktion und einen Dialogzustand und Aktionszustand in Bezug auf vorläufige Aktionen speichern, die zu verarbeiten sind. Beispielsweise kann die Dialog- und Aktionszustands-DB Zustände in Bezug auf einen abgeschlossenen Dialog und eine abgeschlossene Aktion, einen angehaltenen Dialog und eine angehaltene Aktion, einen fortschreitenden Dialog und eine fortschreitende Aktion und einen zu verarbeitenden Dialog und eine zu verarbeitende Aktion speichern.
Wenn die Domäne und die Aktion, die einer Äußerung eines Benutzers entsprechen, nicht extrahiert werden, kann die Dialog- und Aktionszustands-DB eine zufällige Aufgabe oder Anforderung erzeugen, dass der Dialog-Aktions-Manager 132b auf die zuletzt gespeicherte Aufgabe zurückgreift.
Wenn die Dialogaufgabe oder Aktionsaufgabe, die der Eingabe des Eingabeprozessors 131 entspricht, in der Dialog- und Aktionszustands-DB nicht vorliegt, kann der Dialogablaufmanager 132a anfordern, dass der Dialog-Aktions-Manager 132b eine neue Dialogaufgabe oder Aktionsaufgabe erzeugt.
Wenn der Dialogablaufmanager 132a den Dialogablauf managt, kann der Dialogablaufmanager 132a auf eine Dialogrichtlinien-DB zurückgreifen.
Die Dialogrichtlinien-DB kann eine Richtlinie speichern, um den Dialog weiterzuführen, wobei die Richtlinie eine Richtlinie zum Auswählen, Starten, Vorschlagen, Anhalten und Beenden des Dialogs repräsentieren kann.
Zudem kann die Dialogrichtlinien-DB einen Zeitpunkt speichern, zu dem ein System eine Antwort ausgibt, und eine Richtlinie über eine Methodologie speichern. Die Dialogrichtlinien-DB kann eine Richtlinie zum Erzeugen einer Antwort durch Verknüpfen mehrerer Dienste und eine Richtlinie zum Löschen einer vorherigen Aktion und Ersetzen der Aktion durch eine andere Aktion speichern.
Wenn die Dialogaufgabe oder Aktionsaufgabe, die der Ausgabe des Eingabeprozessors 131 entspricht, in der Dialog- und Aktionszustands-DB vorliegt, kann der Dialogablaufmanager 132a anfordern, dass der Dialog-Aktions-Manager 132b auf die entsprechende Dialogaufgabe oder Aktionsaufgabe zurückgreift.
Der Dialog-Aktions-Manager 132b kann einen Dialog oder eine Aktion gemäß der Anforderung des Dialogablaufmanagers 132a erzeugen, löschen und aktualisieren.
Der Dialog-Aktions-Manager 132b kann der Dialog- und Aktionszustands-DB einen Speicherplatz zuordnen und eine Dialogaufgabe und eine Aktionsaufgabe erzeugen, die der Ausgabe des Eingabeprozessors 131 entsprechen.
Wenn es nicht möglich ist, eine Domäne und eine Aktion aus der Äußerung eines Benutzers zu extrahieren, kann der Dialog-Aktions-Manager 132b einen zufälligen Dialogzustand erzeugen. In diesem Fall kann die Mehrdeutigkeitslöseeinrichtung 132c, wie unten erwähnt wird, die Absicht eines Benutzers basierend auf dem Inhalt der Äußerung eines Benutzers, der Umgebungsbedingung, dem Fahrzeugzustand und den Benutzerinformationen erzeugen und eine für die Absicht eines Benutzers adäquate Aktion bestimmen.
Die Mehrdeutigkeitslöseeinrichtung 132c kann sich mit der Mehrdeutigkeit in dem Dialog oder in dem Kontext befassen. Wenn beispielsweise eine Anapher, z.B. die Person, der gestrige Ort, Vater, Mutter, Großmutter und Schwiegertochter, in dem Dialog enthalten ist, kann eine Mehrdeutigkeit bestehen, da nicht klar ist, dass die Anapher für wen oder was steht. In diesem Fall kann die Mehrdeutigkeitslöseeinrichtung 132c die Mehrdeutigkeit durch Zurückgreifen auf die Kontextinformations-DB, einen Langzeitspeicher oder einen Kurzzeitspeicher klären oder eine Führung zum Klären der Mehrdeutigkeit bereitstellen.
Die Mehrdeutigkeitslöseeinrichtung 132c kann die Informationen über die umliegende Umgebung und die Fahrzeugzustandsinformationen zusammen mit der Äußerung eines Benutzers selbst dann integrieren, wenn die Äußerung eines Benutzers oder der Kontext mehrdeutig bzw. unklar ist. Die Mehrdeutigkeitslöseeinrichtung 132c kann die Aktion, welche der Benutzer tatsächlich möchte, oder die Aktion, welche der Benutzer tatsächlich erfordert, akkurat identifizieren und bereitstellen.
Die Mehrdeutigkeitslöseeinrichtung 132c kann Informationen über die bestimmte Aktion zu dem Dialog-Aktions-Manager 132b übertragen. In diesem Fall kann der Dialog-Aktions-Manager 132b die Dialog- und Aktionszustands-DB basierend auf den übertragenen Informationen aktualisieren.
Wenn Informationen über die mehrdeutige Sprache in der Äußerung, für welche die Absicht eines Benutzers angefordert wird, von dem Abschnitt a12 zum Verstehen einer natürlichen Sprache empfangen wird, kann die Mehrdeutigkeitslöseeinrichtung 132c die für den Benutzer tatsächlich erforderte Aktion basierend auf den Erfahrungsinformationen, die in der Erfahrungsdatenbank g4 gespeichert sind, akkurat identifizieren.
Wenn die Absicht eines Benutzers eine Zielortsuchanfrage ist, kann die Aktion für die mehrdeutige Sprache während einer Ausführung eines Navigationsmodus eine Aktion zum Auswählen eines Zielortes sein, um den Benutzer zu führen.
Wenn die Äußerung beispielsweise eine mehrdeutige Sprache enthält, wie beispielsweise, in der Umgebung, kurz, koreanisches Essen und dergleichen, und es unklar ist, ob sich dieselbe auf einen Ort oder auf welche Entfernung (z.B. ein Zielwert) bezieht, kann die Mehrdeutigkeitslöseeinrichtung 132b auf die Erfahrungs-DB g4 zurückgreifen, um die Mehrdeutigkeit zu klären oder eine Führung zum Lösen derselben bereitzustellen.
Wenn die Absicht eines Benutzers die Fahrzeugsteuerungsanforderung ist, kann die Aktion an der mehrdeutigen Sprache während des Durchführens des Fahrzeugsteuerungsmodus eine Aktion zum Auswählen des Zielwertes zum Steuern der Vorrichtung sein.
Beim Steuern der fahrzeuginternen Vorrichtung kann die Mehrdeutigkeitslöseeinrichtung 132c beispielsweise auf die Erfahrungs-DB g4 zurückgreifen, wenn unklar ist, auf welches Maß (z.B. der Zielwert) sich die mehrdeutige Sprache bezieht, um die Mehrdeutigkeit zu klären oder die Führung zum Lösen derselben bereitzustellen.
Mit anderen Worten kann die Mehrdeutigkeitslöseeinrichtung 132c das Erhalten der Zielinformationen, die der mehrdeutigen Sprache entsprechen, und Präsentieren der Führung basierend auf den erhaltenen Zielinformationen enthalten. Die Zielinformationen können das Ziel und den Zielwert enthalten. Dies wird in Bezug auf die 6, 7A und 7B beschrieben.
Die Mehrdeutigkeitslöseeinrichtung 132c kann ein Lernen an Informationen durchführen, die in der Erfahrungsdatenbank g4 gespeichert sind.
Wie in 6 veranschaulicht, kann die Mehrdeutigkeitslöseeinrichtung 132c die mehrdeutige Sprache in einen Vektor in einem Vektorraum durch Lernen umwandeln, Wortabstände zwischen ähnlichen mehrdeutigen Sprachen in dem Vektorraum in Informationen, die dem Ziel entsprechen, unter Verwendung eines Clustering-Algorithmus gruppieren und in das Ziel für die Absicht eines Benutzers umwandeln, um die Verlaufswahrscheinlichkeit zu erhalten.
Der Wortabstand ist wie folgt. $\ddot{A} hnlichkeit (A, B) = \frac{A \cdot B}{‖ A ‖ \times ‖ B ‖} = (\sum_{i = 1}^{n} A_{i} \times B_{i}) / (\sqrt{\sum_{i = 1}^{n} A_{i}^{2}} \times \sqrt{\sum_{i = 1}^{n} B_{i}^{2}})$
Wie in den 7A und 7B veranschaulicht, können der Nutzungsverlauf und die Verlaufswahrscheinlichkeit für eine zielspezifische mehrdeutige Sprache, die der Absicht eines Benutzers entspricht, erhalten werden.
Wie in 7A veranschaulicht können der Nutzungsverlauf und die Verlaufswahrscheinlichkeit für die zielspezifische mehrdeutige Sprache, die einer Restaurantsuche entspricht, erhalten werden. Wie in 7B veranschaulicht, können der Nutzungsverlauf und die Verlaufswahrscheinlichkeit für die zielspezifische mehrdeutige Sprache, die einer Klimaanlagensteuerung entspricht, erhalten werden.
Der Parametermanager 132d kann die für die Ausführung einer Aktion erforderten Parameter managen.
Der Parametermanager 132d kann nach einem Parameter, der zum Durchführen jeder Kandidatenaktion verwendet wird, (nachstehend als ein Aktionsparameter bezeichnet) in einer Aktionsparameter-DB suchen.
Der Parameterwert, der durch den Parametermanager 132d erhalten wird, kann zu dem Dialog-Aktions-Manager 132b übertragen werden und der Dialog-Aktions-Manager 132b kann die Dialog- und Aktionszustands-DB durch Hinzufügen des Parameterwertes gemäß der Kandidatenaktion zu dem Aktionszustand aktualisieren.
Der Parametermanager 132d kann Parameterwerte von allen Kandidatenaktionen erhalten oder der Parametermanager 132d kann nur Parameterwerte der Kandidatenaktionen erhalten, die bestimmt werden, durch die Einrichtung 132e zum Bestimmen einer Aktionspriorität ausführbar zu sein.
Der Parametermanager 132d kann einen Ausgangswert unter einer anderen Art von Ausgangswerten, die die gleichen Informationen indizieren, selektiv verwenden. Beispielsweise kann der erforderliche Parameter, der für die Routenführung verwendet wird, die gegenwärtige Position und den Zielort enthalten und der alternative Parameter die Art der Route enthalten. Ein Ausgangswert des alternativen Parameters kann als eine schnelle Route gespeichert werden.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann bestimmen, ob eine Aktion über eine Vielzahl von Kandidatenaktionen ausführbar ist, und die Priorität der Vielzahl von Kandidatenaktionen bestimmen.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann die relationale Aktions-DB durchsuchen, um nach einer Aktionsliste in Bezug auf die Aktion oder das Ereignis, die/das in der Ausgabe des Eingabeprozessors 131 enthalten ist, zu suchen. Die Einrichtung 125 zum Bestimmen einer Aktionspriorität kann dann die Kandidatenaktion extrahieren.
Die relationale Aktions-DB kann Aktionen, die miteinander in Beziehung stehen, eine Beziehung zwischen den Aktionen, eine Aktion, die mit einem Ereignis in Beziehung steht, und eine Beziehung zwischen den Ereignissen indizieren. Beispielsweise können die Routenführung, die Fahrzeugzustandsüberprüfung und die Tankstellenempfehlung als die relationale Aktion klassifiziert werden und eine Beziehung zwischen denselben, kann einer Assoziation entsprechen.
Die extrahierte Kandidatenaktionsliste kann zu dem Dialog-Aktions-Manager 132b übertragen werden und der Dialog-Aktions-Manager 132b kann den Aktionszustand der Dialog- und Aktionszustands-DB durch Hinzufügen der Kandidatenaktionsliste aktualisieren.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann nach Bedingungen zum Ausführen jeder Kandidatenaktion in einer Aktionsausführungsbedingungs-DB suchen.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann die Ausführungsbedingung der Kandidatenaktion zu dem Dialog-Aktions-Manager 132b übertragen und der Dialog-Aktions-Manager 132b kann die Ausführungsbedingung gemäß jeder Kandidatenaktion hinzufügen und den Aktionszustand der Dialog- und Aktionszustands-DB aktualisieren.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann nach einem Parameter, der erfordert wird, um eine Aktionsausführungsbedingung zu bestimmen, (nachstehend als ein Bedingungsbestimmungsparameter bezeichnet) aus der Kontextinformations-DB, dem Langzeitspeicher, dem Kurzzeitspeicher oder der Dialog- und Aktionszustands-DB suchen. Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann auch bestimmen, ob es möglich ist, die Kandidatenaktion unter Verwendung des gesuchten Parameters auszuführen.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann bestimmen, ob es möglich ist, die Kandidatenaktion unter Verwendung des Parameters durchzuführen, der zum Bestimmen einer Aktionsausführungsbedingung verwendet wird. Zudem kann die Einrichtung 132e zum Bestimmen einer Aktionspriorität die Priorität der Kandidatenaktion basierend darauf, ob die Kandidatenaktion durchzuführen ist, und auf den in der Dialogrichtlinien-DB gespeicherten Prioritätsbestimmungsregeln bestimmen.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann den am meisten erforderten Dienst einem Benutzer durch Suchen nach einer Aktion, die mit der Äußerung eines Benutzers direkt verbunden ist, Kontextinformationen und einer Aktionsliste in Bezug darauf und durch Bestimmen einer Priorität zwischen denselben bereitstellen.
Die Einrichtung 132e zum Bestimmen einer Aktionspriorität kann die Möglichkeit der Kandidatenaktionsausführung und die Priorität zu dem Dialog-Aktions-Manager 132b übertragen. Der Dialog-Aktions-Manager 132b kann den Aktionszustand der Dialog- und Aktionszustands-DB durch Hinzufügen der übertragenen Informationen aktualisieren.
Der Manager 132f für externe Informationen kann die externe Inhaltsliste und verwandte Informationen managen und Faktorinformationen managen, die für die Abfrage von externem Inhalt erfordert werden.
Die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen kann das Ziel und den Zielwert für die mehrdeutige Sprache basierend auf den Zielortverlaufs-Informationen, die in der Zielortverlaufs-Datenbank g1 gespeichert sind, den Fahrzeugsteuerungsinformationen, die in der Fahrzeugsteuerungsverlaufs-Datenbank g2 gespeichert sind, und Sprachinformationen, die in der Spracherkennungsnutzungs-Datenbank g3 gespeichert sind, erhalten. Die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen kann auch die Zielinformationen, die das erhaltene Ziel und den erhaltenen Zielwert enthalten, als Erfahrungsinformationen erzeugen.
Die in der Spracherkennungsnutzungs-Datenbank g3 gespeicherten Sprachinformationen können das Ziel und den Zielwert enthalten, die durch den Benutzer ausgewählt werden.
Wie in 8 veranschaulicht, können in einem Zustand, in welchem der Fahrer und das Dialogsystem ein Gespräch führen, wenn bestimmt wird, dass die Absicht eines Benutzers die Zielortsuchanfrage (Restaurantsuchanfrage) ist und die mehrdeutige Sprache in der geäußerten Sprache enthalten ist, Zielinformationen von ,Entfernung 5km, Reisschale mit Schweinefleisch und koreanisches Essen‘, die in der Umgebung, Menü und Art‘ entsprechen, was die mehrdeutige Sprache ist, erzeugt werden. Diese können in der Erfahrungsdatenbank g4 als Erfahrungsinformationen gespeichert werden.
Die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen kann die in der Erfahrungsdatenbank g4 gespeicherten Erfahrungsinformationen basierend auf den Dialoginformationen vor dem Neustart und den Dialoginformationen nach dem Neustart basierend auf einer Neustartzeit aktualisieren. Dies wird nachstehend in Bezug auf die 9A und 9B beschrieben.
Wie in 9A veranschaulicht, kann die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen anhand der Dialoginformationen zwischen dem Benutzer und dem Dialogsystem vor einem Neustart, wenn bestimmt wird, dass die Absicht eines Benutzers die Restaurantsuchanfrage als der Zielort ist und dass die mehrdeutige Sprache in der geäußerten Sprache enthalten ist, die Zielinformationen von Entfernung 5km, Restaurant‘, welche ,in der Umgebung und Art‘ entsprechen, was die mehrdeutige Sprache ist, erzeugen und dieselben als die Erfahrungsinformationen in der Erfahrungsdatenbank g4 speichern.
Wie in 9B veranschaulicht, kann die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen die Informationen über die Nutzung durch einen Benutzer zur Restaurantnutzung anhand der Dialoginformationen zwischen dem Benutzer und dem Dialogsystem nach einem Neustart erhalten und die erhaltenen Nutzungsinformationen als die Erfahrungsinformationen in der Erfahrungsdatenbank g4 speichern.
Die Nutzungsinformationen können ein Nutzungselement oder Bewertungsinformationen enthalten.
Mit anderen Worten kann die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen neue Informationen zu dem Elementen ohne Informationen unter den Nutzungsverlaufs-Elementen in der Erfahrungsdatenbank g4 durch die Dialoginformationen mit dem Benutzer nach einem Neustart hinzufügen.
Die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen kann neue Erfahrungsinformationen basierend auf gegenwärtigen Dialoginformationen erzeugen oder die Erfahrungsinformationen aktualisieren, die in der Erfahrungsdatenbank g4 gespeichert sind.
Die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen kann die Erfahrungsinformationen, die in der Erfahrungsdatenbank g4 gespeichert sind, basierend auf Dialoginformationen, die einem Verlauf der Zeit während der Fahrt entsprechen, aktualisieren. Dies wird nachstehend in Bezug auf die 10A und 10B beschrieben.
Wie in 10A veranschaulicht, kann die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen die Erfahrungsinformationen, die der Steuerungsanforderung der Klimaanlage entsprechen, anhand der Dialoginformationen zwischen dem Benutzer und dem Dialogsystem erzeugen, aber kann die Zielinformationen von ‚Temperatur, 20 Grad‘, die ‚Ziel und Zielwert‘ entsprechen, durch die Dialoginformationen mit dem Benutzer erzeugen und dieselben als die Erfahrungsinformationen in der Erfahrungsdatenbank g4 speichern.
Wie in 10B veranschaulicht, kann die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen die Informationen über die Nutzung durch einen Benutzer zur Steuerung der Klimaanlage anhand der Dialoginformationen zwischen dem Benutzer und dem Dialogsystem erhalten, nachdem eine bestimmte Zeit verstrichen ist, und die erhaltenen Nutzungsinformationen als die Erfahrungsinformationen in der Erfahrungsdatenbank g4 speichern.
Beispielsweise kann die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen Zielinformationen in einer Richtung einer vierten Stufe und von Beinen, was ‚stark und nach unten‘ entspricht, was die mehrdeutige Sprache ist, anhand gegenwärtiger Steuerinformationen der Klimaanlage (d.h. eine dritte Stufe und ein Körper) erzeugen und diese als die Erfahrungsinformationen in der Erfahrungsdatenbank g4 speichern, wobei dieselben aber als Steuerinformationen der Klimaanlage zu einer Anfangszeit des Startens und einer mittleren Zeit des Startens gespeichert werden können.
Die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen kann die in der Erfahrungsdatenbank g4 gespeicherten Erfahrungsinformationen basierend auf den Steuerinformationen der Klimaanlage aktualisieren, die von der zweiten Eingabevorrichtung eingegeben werden.
Die Einrichtung 132g zum Erzeugen von Erfahrungsinformationen kann den letzten Nutzungsverlauf für den Nutzungsverlauf in den Erfahrungsinformationen speichern.
Wie in 11 veranschaulicht, kann die Erfahrungsdatenbank g4 das Ziel und den Zielwert speichern, die auf die Absicht eines Benutzers bzw. die mehrdeutige Sprache abgestimmt sind.
Der Zielwert kann der letzte Nutzungsverlauf sein.
Die Erfahrungsdatenbank g4 kann Ziele und Zielwerte, die auf die Absicht eines Benutzers bzw. die mehrdeutige Sprache abgestimmt sind, nach dem Datum speichern.
Wie in 12 veranschaulicht, kann ein Ergebnisprozessor 133 einen Antworterzeugungsmanager 133a, eine Einrichtung 133b zum Erzeugen einer Dialogantwort, einen Ausgabemanager 133c, einen Dienst-Editor 133d, einen Speichermanager 133e und eine Einrichtung 133f zum Erzeugen eines Befehls enthalten.
Die Antwort, die ausgegeben wird, indem dieselbe der Äußerung eines Benutzers oder einem Kontext entspricht, kann die Dialogantwort, die Fahrzeugsteuerung und die Bereitstellung des externen Inhalts enthalten. Die Dialogantwort kann einen anfänglichen Dialog, eine Frage und eine Antwort, die Informationen enthält, enthalten. Die Dialogantwort kann in einer Datenbank als Antwortvorlage gespeichert werden.
Der Antworterzeugungsmanager 133a kann anfordern, dass die Einrichtung 133b zum Erzeugen einer Antwort und die Einrichtung 133f zum Erzeugen eines Befehls eine Antwort erzeugen, die zum Ausführen einer Aktion erfordert wird, der durch den Dialogmanager 132 bestimmt wird.
Hierfür kann der Antworterzeugungsmanager 133a Informationen in Bezug auf die Aktion, die auszuführen ist, zu der Einrichtung 133b zum Erzeugen einer Dialogantwort und der Einrichtung 133f zum Erzeugen eines Befehls übertragen, wobei die Informationen in Bezug auf die Aktion, die auszuführen ist, einen Aktionsnamen und einen Parameterwert enthalten können. Beim Erzeugen einer Antwort können die Einrichtung 133b zum Erzeugen einer Dialogantwort und die Einrichtung 133f zum Erzeugen eines Befehls auf den gegenwärtigen Dialogzustand und Aktionszustand zurückgreifen.
Der Antworterzeugungsmanager 133a kann die von der Einrichtung 133b zum Erzeugen einer Dialogantwort übertragene Dialogantwort zu dem Ausgabemanager 133c übertragen.
Der Antworterzeugungsmanager 133a kann auch die Antwort, die von der Einrichtung 133b zum Erzeugen einer Dialogantwort, der Einrichtung 133f zum Erzeugen eines Befehls oder dem Dienst-Editor 133d übertragen wird, zum dem Speichermanager 133c übertragen.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann eine Antwort in Text-, Bild- oder Audioart gemäß der Anforderung des Antworterzeugungsmanagers 133a erzeugen.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann die Verlaufswahrscheinlichkeit für jedes Ziel und jeden Zielwert basierend auf Mehrdeutigkeitsanalyseinformationen in der Mehrdeutigkeitslöseeinrichtung 132c identifizieren, den Zielwert für jedes Ziel mit der höchsten Verlaufswahrscheinlichkeit erhalten und eine Antwort basierend auf dem erhaltenen Zielwert für jedes Ziel erzeugen.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann eine Vielzahl von Antworten gemäß einer Änderung einer Kombination von Zielen oder einer Kombination von Zielwerten erzeugen. Dies wird nachstehend in Bezug auf die 13A und 13B beschrieben.
Wie in 13A veranschaulicht, kann die Einrichtung 133b zum Erzeugen einer Dialogantwort die Absicht eines Benutzers anhand der Äußerung Finde günstige Restaurants in der Nähe, die man unbedingt besuchen muss' identifizierten. Wenn die identifizierte Absicht eines Benutzers die Zielortsuchanfrage ist, kann die Einrichtung 133b zum Erzeugen einer Dialogantwort Nachbarschaft, günstig und Restaurants, die man unbedingt besuchen muss' erhalten, was die mehrdeutige Sprache in Bezug auf den Zielort ist, und kann das Ziel identifizieren, das dem erhaltenen Nachbarschaft, günstig und Restaurant, das man unbedingt besuchen muss' entspricht.
Wie in 13b veranschaulicht, kann die Einrichtung 133b zum Erzeugen einer Dialogantwort einen Zielwert, der ,in der Gegend und Ziel‘ entspricht, von der Erfahrungsdatenbank erhalten, einen Zielwert, der ,günstig und Ziel‘ entspricht, erhalten, Restaurant, das man unbedingt besuchen muss, und Ziel‘ erhalten und die Vielzahl von Antworten basierend auf der Verlaufswahrscheinlichkeit der Zielwerte erzeugen, aber dieselbe kann die Vielzahl von Antworten basierend auf einer Ordnung einer hohen Verlaufswahrscheinlichkeit erzeugen.
Beispielsweise kann die Einrichtung 133b zum Erzeugen einer Dialogantwort eine Antwort erzeugen, in der ein Restaurant, das Fleisch unter koreanischem Essen des Niveaus 3 für 10.000 Won oder weniger innerhalb von 5 km verkauft, ein Zielort erster Priorität ist.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann eine Antwort zu einem Restaurant, das koreanisches Essen des Niveaus 3 für weniger als 10.000 Won innerhalb von 5 km verkauft, als den Zielort der Priorität erzeugen.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann eine Antwort mit einem Restaurant, das koreanisches Essen des Niveaus 3 innerhalb von 5 km serviert, als einen Zielort dritter Priorität erzeugen.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann eine Antwort, die ein Restaurant des Niveaus 3 innerhalb von 5 km ergibt, als einen Zielort vierter Priorität erzeugen.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann nach einem Zielort basierend auf den Informationen suchen, die der zweiten Priorität entsprechen, wenn der Zielort nicht gefunden wird, wenn nach dem Zielort basierend auf den Informationen gesucht wird, die der ersten Priorität entsprechen. Wenn der Zielort nicht gefunden wird, wenn nach dem Zielort basierend auf den Informationen gesucht wird, die der zweiten Priorität entsprechen, kann die Einrichtung 133b zum Erzeugen einer Dialogantwort nach dem Zielort basierend auf den Informationen suchen, die der dritten Priorität entsprechen. Mit anderen Worten kann die Einrichtung 133b zum Erzeugen einer Dialogantwort nach Zielorten in einer Ordnung einer Suchpriorität suchen, bis der Zielort gesucht wird.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann Informationen über den Zielort anzeigen, der dem Suchergebnis entspricht.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann ein Dialogantwortformat durch Suchen nach einer Antwortvorlage extrahieren und eine Dialogantwort durch Einsetzen bzw. Eintragen der Argumentwerte erstellen, die für das extrahierte Dialogantwortformat erfordert werden. Die erzeugte Dialogantwort wird an den Antworterzeugungsmanager 133a übermittelt.
Die Einrichtung 133b zum Erzeugen einer Dialogantwort kann eine Dialogantwortvorlage durch Durchsuchen der Antwortvorlage extrahieren und die Dialogantwort durch Ausfüllen der extrahierten Dialogantwortvorlage mit dem Parameterwert erzeugen. Die erzeugte Dialogantwort kann zu dem Antworterzeugungsmanager 133 übertragen werden.
Der Ausgabemanager 133c kann die erzeugte Antwort vom Typ Text, Antwort vom Typ Bild oder Antwort vom Typ Audio ausgeben, den durch die Einrichtung 133f zum Erzeugen eines Befehls erzeugten Befehl ausgeben oder eine Reihenfolge der Ausgabe bestimmen, wenn es mehrere Ausgaben gibt.
Der Ausgabemanager 133c kann ein Ausgabetiming, die Ausgabereihenfolge und eine Ausgabeposition der Dialogantwort, die durch die Einrichtung 133b zum Erzeugen einer Dialogantwort erzeugt wird, und des Befehls bestimmen, der durch die Einrichtung 133f zum Erzeugen eines Befehls erzeugt wird.
Der Ausgabemanager 133c kann eine Antwort durch Übertragen der Dialogantwort, die durch die Einrichtung 133b zum Erzeugen einer Dialogantwort erzeugt wird, und den Befehl, der durch die Einrichtung 133f zum Erzeugen eines Befehls erzeugt wird, zu einer adäquaten Ausgabeposition in einer adäquaten Reihenfolge mit einem adäquaten Timing ausgeben.
Der Ausgabemanager 133c kann eine Text-in-Sprache (TTS; engl. Text to speech)-Antwort über den Lautsprecher 142 und eine Textantwort über das Display 141 ausgeben. Beim Ausgeben der Dialogantwort in der TTS-Art kann der Ausgabemanager 133c ein in dem Fahrzeug 1 vorgesehenes TTS-Modul verwenden oder alternativ kann der Ausgabemanager 133c ein TTS-Modul enthalten.
Der Ausgabemanager 133c kann die durch die Einrichtung 133b zum Erzeugen einer Dialogantwort erzeugte Dialogantwort durch den Lautsprecher 141 ausgeben.
Gemäß einem Steuerziel kann der Befehl zu der Steuerung 150 oder der Kommunikationsvorrichtung 170 zum Kommunizieren mit dem externen Inhaltsserver übertragen werden.
Der Dienst-Editor 133d führt der Reihe nach oder sporadisch eine Vielzahl von Dienst- und Sammlungsergebnissen desselben aus, um einen von einem Benutzer erwünschten Dienst bereitzustellen.
Der Speichermanager 133e managt den Langzeitspeicher und den Kurzzeitspeicher basierend auf der Ausgabe des Antworterzeugungsmanagers 133a und des Ausgabemanagers 133c.
Die Einrichtung 133f zum Erzeugen eines Befehls erzeugt einen Befehl für die Fahrzeugsteuerung oder die Bereitstellung eines Dienstes unter Verwendung eines externen Inhalts gemäß einer Anforderung des Antworterzeugungsmanagers 133a.
Die Einrichtung 133f zum Erzeugen eines Befehls kann den Befehl zum Ausführen einer Antwort auf die Äußerung eines Benutzers oder den Kontext erzeugen, wenn dieselbe/derselbe die Fahrzeugsteuerung oder Bereitstellung eines externen Inhalts enthält. Wenn die durch den Dialogmanager 132 bestimmte Aktion beispielsweise eine Steuerung der Klimaanlage, des Fensters, der Sitze oder der AVN ist, kann der Befehl zum Ausführen der Steuerung erzeugt und zu dem Antworterzeugungsmanager 133a übertragen werden.
Wenn es eine Vielzahl von Befehlen gibt, die durch die Einrichtung 133f zum Erzeugen eines Befehls erzeugt werden, kann der Dienst-Editor 133d ein Verfahren und eine Reihenfolge zum Ausführen der Vielzahl von Befehlen bestimmen und dieselben zu dem Antworterzeugungsmanager 133a übertragen.
Wenn der Benutzer eine Äußerung eingibt, die eine Emotion zum Ausdruck bringt, kann die spezifische Domäne oder Aktion zudem nicht aus der Äußerung eines Benutzers extrahiert werden, aber das Dialogsystem 130 kann die Absicht eines Benutzers unter Verwendung der Informationen über eine umliegende Umgebung, Fahrzeugzustandsinformationen und Benutzerzustandsinformationen und dergleichen erfassen und den Dialog entwickeln.
14 ist ein Steuerablaufplan eines Dialogsystems nach einer Ausführungsform.
Das Dialogsystem kann den Befehl eines Benutzers durch Sprache durch das Mikrofon empfangen (201). In diesem Fall kann das Dialogsystem einen Ton empfangen und dann den Ton in das elektrische Signal (d.h. Sprachsignal) umwandeln.
Das Dialogsystem kann die Sprache eines Benutzers basierend auf dem Sprachsignal erkennen (202).
Das Dialogsystem kann das Sprachsignal in eine Äußerung in der Textart umwandeln und die Absicht eines Benutzers durch Anwenden des Algorithmus zum Verstehen einer natürlichen Sprache auf die Äußerung eines Benutzers erkennen (203).
Genauer kann das Dialogsystem, wenn das Dialogsystem das Sprachsignal in eine Äußerung in der Textart umwandelt, die Äußerung in der Textart gemäß der Absicht eines Benutzers und dem Kontext korrigieren, anstatt dieselbe unverändert umzuwandeln.
Das Dialogsystem kann auch bestimmen, ob der umgewandelte Text für die mehrdeutige Sprache ist, (204).
Wenn bestimmt wird, dass der umgewandelte Text kein Text für die mehrdeutige Sprache ist, (NEIN bei 204), kann das Dialogsystem den Dialog mit dem Benutzer fortlaufend durchführen (205).
Wenn bestimmt wird, dass der umgewandelte Text ein Text für die mehrdeutige Sprache ist, (JA bei 204), kann das Dialogsystem bestimmen, ob die identifizierte Absicht eines Benutzers eine Anfrageabsicht ist, (206).
Das Dialogsystem kann die Absicht eines Benutzers, die in der Äußerung enthalten ist, durch Anwenden des Verständnisses der natürlichen Sprache auf die Äußerung identifizieren, eine Morphemanalyse an der Äußerung in der Textart durchführen und dann die Domäne aus der Äußerung basierend auf dem Ergebnis der Morphemanalyse extrahieren. Mit anderen Worten kann das Dialogsystem ein Verstehen der natürlichen Sprache durchführen.
Das Dialogsystem kann die Sprachhandlung der Äußerung analysieren, um die Absicht der Äußerung eines Benutzers zu analysieren, die Absicht der Äußerung eines Benutzers basierend auf den Informationen identifizieren, z.B. Domäne, Entitätsname und Sprache, und entsprechend der Äußerung handeln.
Das Dialogsystem kann auch Benutzerbefehle, die durch die Bedienung durch einen Benutzer empfangen werden, und Bilder des Benutzers, die durch die Kamera aufgenommen werden, empfangen und auch Fahrzeugzustandsinformationen empfangen, um die Absicht eines Benutzers oder den Kontext zu erfassen.
Wenn bestimmt wird, dass die Absicht der Äußerung eines Benutzers nicht die Anfrageabsicht ist, (NEIN bei 206), kann das Dialogsystem das Ziel und den Zielwert für die mehrdeutige Sprache anhand der Dialoginformationen erhalten und die Erfahrungsinformationen basierend auf dem erhaltenen Ziel und Zielwert erzeugen (207).
Beim Erzeugen der Erfahrungsinformationen kann das Dialogsystem das Ziel und den Zielwert für die mehrdeutige Sprache basierend auf den Zielortverlaufs-Informationen, die in der Zielortverlaufs-Datenbank g1 gespeichert sind, den Fahrzeugsteuerungsinformationen, die in der Fahrzeugsteuerungsverlaufs-Datenbank g2 gespeichert sind, den Sprachinformationen, die in der Spracherkennungsnutzungs-Datenbank g3 gespeichert sind, und den gegenwärtigen Dialoginformationen erhalten. Das Dialogsystem kann auch die Zielinformationen, die das erhaltene Ziel und den erhaltenen Zielwert enthalten, als die Erfahrungsinformationen erzeugen.
Das Dialogsystem kann die in der Erfahrungsdatenbank g4 gespeicherten Erfahrungsinformationen basierend auf den gegenwärtigen Dialoginformationen aktualisieren.
Wenn bestimmt wird, dass die Absicht der Äußerung eines Benutzers die Anfrageabsicht ist, (JA bei 206), kann das Dialogsystem die mehrdeutige Sprache basierend auf den in der Erfahrungsdatenbank g4 gespeicherten Erfahrungsinformationen analysieren (208), das Ziel und den Zielwert, die der analysierten Mehrdeutigkeit entsprechen, erhalten und die Verlaufswahrscheinlichkeit erhalten, die jedem Zielwert der Zielwerte entspricht.
Das Dialogsystem kann die Antwort basierend auf der Verlaufswahrscheinlichkeit erzeugen, die jedem Zielwert der Zielwerte entspricht, (209). Das Dialogsystem kann eine Vielzahl von Antworten basierend auf der Anzahl an Zielwerten und der Verlaufswahrscheinlichkeit erzeugen.
Wenn die Absicht eines Benutzers die Zielortsuchanfrageabsicht ist, kann das Dialogsystem die Zielwerte, die die Verlaufswahrscheinlichkeit aufweisen, die größer als eine Bezugswahrscheinlichkeit oder gleich derselben ist, unter der Vielzahl von Antworten zu der mehrdeutigen Sprache identifizieren und die Vielzahl von Antworten durch Kombinieren der identifizierten Zielwerte erzeugen.
Infolge des Suchens nach dem Zielort mit der Antwort einer höchsten Priorität, kann das Dialogsystem, wenn der Zielort nicht gefunden wird, nach dem Zielort mit der Antwort einer nächsten Priorität suchen.
Das Dialogsystem kann die Informationen über den gesuchten Zielort ausgeben (210). Mit anderen Worten kann das Dialogsystem die Informationen über den gesuchten Zielort als das Bild oder den Ton ausgeben.
Wenn die Absicht eines Benutzers die Steuerungsabsicht der Klimaanlage ist, kann das Dialogsystem die Zielwerte mit der Verlaufswahrscheinlichkeit, die größer als die Bezugswahrscheinlichkeit oder gleich derselben ist, unter der Vielzahl von Antworten zu der mehrdeutigen Sprache identifizieren und die Vielzahl von Antworten durch Kombinieren der bestätigten Zielwerte erzeugen.
Das Dialogsystem kann die Vielzahl von Antworten ausgeben und in diesem Fall kann es auch möglich sein, die Klimaanlage basierend auf den von dem Benutzer ausgewählten Antworten zu steuern.
Das Dialogsystem kann die Dialogantwortvorlage durch Durchsuchen der Antwortvorlage extrahieren und die Dialogantwort durch Ausfüllen der extrahierten Dialogantwortvorlage mit dem Parameterwert erzeugen.
Die Antwort kann als die Antwort in Text-, Bild- oder Audioart erzeugt werden.
Das Dialogsystem kann die TTS-Antwort durch den Lautsprecher 142 ausgeben.
Das Dialogsystem kann die in der Erfahrungsdatenbank gespeicherten Erfahrungsinformationen basierend auf den Informationen über die ausgegebene Antwort aktualisieren.
Das Dialogsystem kann die in der Erfahrungsdatenbank gespeicherten Erfahrungsinformationen basierend auf den Steuerinformationen der Klimaanlage, die durch die zweite Eingabevorrichtung während des Dialogs mit dem Benutzer empfangen werden, oder den Auswahlinformationen des Zielortes aktualisieren.
Das Dialogsystem kann eine Absicht eines erneuten Besuchs und die Nutzungsinformationen für den Zielort während des Dialogs mit dem Benutzer identifizieren und die in der Erfahrungsdatenbank gespeicherten Erfahrungsinformationen basierend auf der identifizierten Absicht eines erneuten Besuchs oder den identifizierten Nutzungsinformationen aktualisieren.
Wenn beispielsweise die Absicht eines erneuten Besuchs positiv ist und die Nutzungsinformationen Fleisch sind, kann die mehrdeutige Sprache auf das Restaurant, das man unbedingt besuchen muss, eingestellt werden und die Informationen der Zielort-Zielsetzungsposition können gespeichert werden.
Das Dialogsystem kann Zielortempfehlungs-Informationen basierend auf den Erfahrungsinformationen, die in der Erfahrungsdatenbank gespeichert sind, während der Fahrt ausgeben.
Das Dialogsystem kann basierend auf einem Fahrtverlauf nach dem Datum, dem Tag und der Zeit oder einem Fahrtmodell für jede Zeitdauer bestimmen, ob regulär zu fahren ist, Informationen über regulär besuchte Zielorte speichern und die Zielortempfehlungs-Informationen basierend auf Informationen über ein gegenwärtiges Datum, einen gegenwärtigen Tag und eine gegenwärtige Zeit ausgeben.
Nach der Ausführungsform der Offenbarung kann es möglich sein, eine Erkennungsrate der Spracherkennung zu verbessern und den Dienst bereitzustellen, der für die Absicht eines Benutzers adäquat ist oder für den Benutzer erfordert wird, und zwar durch präzises Erkennen der Absicht eines Benutzers, selbst wenn unzureichende Informationen während des Dialogs empfangen werden, basierend auf den gespeicherten Dialoginformationen und den Zielinformationen des Benutzers.
Nach der Offenbarung können, wenn ein Benutzer eine mehrdeutige Sprache äußert, unnötige Interaktionen durch Beseitigen der Mehrdeutigkeit verringert werden, wobei dadurch ein Dienst mit einer hohen Nutbarkeit bereitgestellt wird. Mit anderen Worten kann die Offenbarung die Interaktion zwischen dem Benutzer und dem Dialogsystem minimieren.
Die Offenbarung kann eine Steuerung von zumindest einer Funktion unter einer Vielzahl von Funktionen, die in dem Fahrzeug vorgesehen sind, vorschlagen und einen problemlosen Dialog zwischen dem System und einer Vielzahl von Sprechern ermöglichen.
Durch die Dialogfunktion kann es möglich sein, die Qualität des Fahrzeugs zu verbessern, die Kommerzialität bzw. Kommerzialisierung (commerciality) zu erhöhen, die Zufriedenheit des Benutzers zu erhöhen und den Komfort des Benutzers und die Sicherheit des Fahrzeugs zu verbessern.
Die offenbarten Ausführungsformen können in der Form eines Aufzeichnungsmediums implementiert werden, das durch einen Computer ausführbare Anweisungen speichert, die durch einen Prozessor ausführbar sind. Die Anweisungen können in Form eines Programmcodes gespeichert werden, und wenn durch einen Prozessor ausgeführt, können die Anweisungen ein Programmmodul erzeugen, um Operationen der offenbarten Ausführungsformen durchzuführen. Das Aufzeichnungsmedium kann nicht-transitorisch als ein nicht-transitorisches computerlesbares Aufzeichnungsmedium implementiert werden.
Das nicht-transitorische computerlesbare Aufzeichnungsmedium kann alle Arten von Aufzeichnungsmedien enthalten, die Befehle speichern, die durch einen Computer interpretiert werden können. Beispielsweise kann das nicht-transitorische computerlesbare Aufzeichnungsmedium ein ROM, ein RAM, ein Magnetband, eine Magnetplatte, ein Flash-Speicher, eine optische Datenspeichervorrichtung und dergleichen sein.
Ausführungsformen der Offenbarung wurden soweit in Bezug auf die beiliegenden Zeichnungen beschrieben. Für jemanden mit gewöhnlichen Fähigkeiten in der Technik sollte offensichtlich sein, dass die Offenbarung in anderen Ausgestaltungen als den Ausführungsformen, die oben beschrieben wurden, ausgeübt werden kann, ohne den technischen Gedanken oder essenzielle Merkmale der Offenbarung zu verändern. Die oben beschriebenen Ausführungsformen dienen lediglich als Beispiel und sind nicht in einem beschränkten Sinn zu interpretieren.

Claims

Dialogsystem, aufweisend: einen Speicher, der konfiguriert ist, um Zielinformationen über ein Ziel und einen Zielwert für mehrdeutige Sprache zu speichern; eine erste Eingabevorrichtung, die zum Empfangen von Sprachsignalen konfiguriert ist; einen Dialogmanager, der zu Folgendem konfiguriert ist: Umwandeln der in der ersten Eingabevorrichtung empfangenen Sprachsignale in Text; Bestimmen einer Absicht eines Benutzers basierend auf den empfangenen Sprachsignalen; und basierend auf dem Bestimmen, dass die bestimmte Absicht eines Benutzers einer Anfrageabsicht entspricht und der umgewandelte Text der mehrdeutigen Sprache entspricht, Erhalten des Ziel und des Zielwertes, die der mehrdeutigen Sprache entsprechen, anhand der in dem Speicher gespeicherten Zielinformationen; und einen Ergebnisprozessor, der konfiguriert ist, um eine Antwort basierend auf dem Ziel und dem Zielwert zu erzeugen, die von dem Dialogmanager erhalten werden, und eine Ausgabe der erzeugten Antwort zu steuern.
Dialogsystem nach Anspruch 1, wobei der Dialogmanager in Erwiderung auf ein Vorhandensein eines Sprachsignals, das einer Abfrage für die mehrdeutige Sprache entspricht, unter den empfangenen Sprachsignalen konfiguriert ist, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf dem Sprachsignal, das der Abfrage entspricht, zu aktualisieren.
Dialogsystem nach Anspruch 1, ferner aufweisend: eine zweite Eingabevorrichtung, die konfiguriert ist, um Eingaben eines Benutzers außer einer Sprache zu empfangen, wobei der Dialogmanager in Erwiderung auf ein Vorhandensein einer Benutzereingabe, die einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den Benutzereingaben, die durch die zweite Eingabevorrichtung empfangen werden, konfiguriert ist, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf der Benutzereingabe zu aktualisieren, die der Abfrage entspricht.
Dialogsystem nach Anspruch 1, ferner aufweisend: eine zweite Eingabevorrichtung, die konfiguriert ist, um Benutzereingaben außer einer Sprache zu empfangen, wobei: der Dialogmanager konfiguriert ist, um eine Verlaufswahrscheinlichkeit des Zielwertes für jede mehrdeutige Sprache basierend auf Auswahlinformationen des Zielwertes für jede mehrdeutige Sprache zu erhalten, die durch die erste und zweite Eingabevorrichtung empfangen werden; und der Ergebnisprozessor konfiguriert ist, um eine Vielzahl von Antworten basierend auf der Verlaufswahrscheinlichkeit für den erhaltenen Zielwert für jede mehrdeutige Sprache zu erzeugen und die erzeugte Vielzahl von Antworten auszugeben.
Dialogsystem nach Anspruch 1, wobei der Dialogmanager zu Folgendem konfiguriert ist: basierend auf Dialoginformationen mit dem Benutzer Bestimmen, ob die mehrdeutige Sprache vorliegt; in Erwiderung auf das Bestimmen, dass die mehrdeutige Sprache vorliegt, basierend auf den Dialoginformationen Erzeugen der Zielinformationen für die mehrdeutige Sprache als Erfahrungsinformationen basierend auf den Dialoginformationen; und Speichern der erzeugten Erfahrungsinformationen in dem Speicher.
Dialogsystem nach Anspruch 1, wobei die mehrdeutige Sprache eine Sprache aufweist, die das Ziel modifiziert.
Fahrzeug, aufweisend: eine erste Eingabevorrichtung, die zum Empfangen von Sprachsignalen konfiguriert ist; einen Speicher, der zum Speichern von Zielinformationen über ein Ziel und einen Zielwert für mehrdeutige Sprache konfiguriert ist; und ein Dialogsystem, das zu Folgendem konfiguriert ist: Umwandeln der Sprachsignale, die von der ersten Eingabevorrichtung empfangen werden, in Text; Bestimmen einer Absicht eines Benutzers basierend auf den empfangenen Sprachsignalen; basierend auf dem Bestimmen, dass die bestimmte Absicht eines Benutzers einer Anfrageabsicht entspricht und der umgewandelte Text der mehrdeutigen Sprache entspricht, Erhalten des Ziels und des Zielwertes, die der mehrdeutigen Sprache entsprechen, anhand der Zielinformationen, die in dem Speicher gespeichert sind; Erzeugen einer Antwort basierend auf dem erhaltenen Ziel und Zielwert; und Steuern einer Ausgabe der erzeugten Antwort.
Fahrzeug nach Anspruch 7, ferner aufweisend: eine Anzeige, die zum Ausgeben der erzeugten Antwort als ein Bild konfiguriert ist; und einen Lautsprecher, der zum Ausgeben der erzeugten Antwort als Audio konfiguriert ist.
Fahrzeug nach Anspruch 7, wobei das Dialogsystem in Erwiderung auf ein Vorhandensein eines Sprachsignals, das einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den empfangenen Sprachsignalen konfiguriert ist, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf dem Sprachsignal zu aktualisieren, das der Abfrage entspricht.
Fahrzeug nach Anspruch 7, ferner aufweisend: eine zweite Eingabevorrichtung, die konfiguriert ist, um Benutzereingaben außer einer Sprache zu empfangen, wobei das Dialogsystem in Erwiderung auf ein Vorhandensein einer Benutzereingabe, die einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den Benutzereingaben, die durch die zweite Eingabevorrichtung empfangen werden, konfiguriert ist, um die Zielinformationen, die der mehrdeutigen Sprache entsprechen und in dem Speicher gespeichert sind, basierend auf der Benutzereingabe zu aktualisieren, die der Abfrage entspricht.
Fahrzeug nach Anspruch 7, ferner aufweisend: eine zweite Eingabevorrichtung, die konfiguriert ist, um Benutzereingaben außer einer Sprache zu empfangen, wobei das Dialogsystem zu Folgendem konfiguriert ist: Erhalten einer Verlaufswahrscheinlichkeit des Zielwertes für jede mehrdeutige Sprache basierend auf Auswahlinformationen des Zielwertes für jede mehrdeutige Sprache, die durch die erste und zweite Eingabevorrichtung empfangen werden; Erzeugen einer Vielzahl von Antworten basierend auf der Verlaufswahrscheinlichkeit für den erhaltenen Zielwert für jede mehrdeutige Sprache; und Ausgeben der erzeugten Vielzahl von Antworten.
Fahrzeug nach Anspruch 7, wobei das Dialogsystem zu Folgendem konfiguriert ist: basierend auf Dialoginformationen mit dem Benutzer Bestimmen, ob die mehrdeutige Sprache vorliegt; in Erwiderung auf das Bestimmen, dass die mehrdeutige Sprache vorliegt, basierend auf den Dialoginformationen Erzeugen der Zielinformationen für die mehrdeutige Sprache als Erfahrungsinformationen basierend auf den Dialoginformationen; und Speichern der erzeugten Erfahrungsinformationen in dem Speicher.
Fahrzeug nach Anspruch 7, ferner aufweisend: eine Steuerung, die konfiguriert ist, um zumindest eine Klimaanlage, Fenster, Türen, Sitze, eine Audio-Video-Navigationsvorrichtung (AVN-Vorrichtung), eine Heizung, einen Scheibenwischer, Seitenspiegel, Innenleuchten und/oder Außenleuchten in Erwiderung auf die von dem Dialogsystem ausgegebene Antwort zu steuern.
Fahrzeug nach Anspruch 13, wobei das Dialogsystem in Erwiderung darauf, dass die Absicht einer Anfrage eines Benutzers eine Zielortsuchanfrageabsicht ist, zu Folgendem konfiguriert ist: Erzeugen der Zielinformationen für die mehrdeutige Sprache als Erfahrungsinformationen basierend auf den Dialoginformationen vor einem Neustart und den Dialoginformationen nach dem Neustart; und Speichern der erzeugten Erfahrungsinformationen in dem Speicher.
Fahrzeug nach Anspruch 13, wobei das Dialogsystem konfiguriert ist, um Erfahrungsinformationen basierend auf Zielortverlaufs-Informationen, Spracherkennungsnutzungs-Informationen und Steuerinformationen von zumindest einer Vorrichtung zu erzeugen.
Fahrzeug nach Anspruch 13, wobei das Dialogsystem zu Folgendem konfiguriert ist: Erhalten von Steuerinformationen für zumindest eine Vorrichtung basierend auf Dialoginformationen gemäß einem Verlauf einer Zeit während der Fahrt; und Erzeugen von Erfahrungsinformationen basierend auf den erhaltenen Steuerinformationen von zumindest einer Vorrichtung.
Verfahren zum Steuern eines Dialogsystems, aufweisend: Empfangen eines Sprachsignals; Umwandeln des empfangenen Sprachsignals in Text; Identifizieren einer Absicht einer Äußerung eines Benutzers basierend auf dem umgewandelten Text; in Erwiderung darauf, dass die identifizierte Absicht der Äußerung eines Benutzers eine Anfrageabsicht ist und der umgewandelte Text ein Text für mehrdeutige Sprache ist, Erhalten von Zielinformationen, die der mehrdeutigen Sprache entsprechen, basierend auf Erfahrungsinformationen, die in einer Erfahrungsdatenbank gespeichert sind; Bestimmen einer Aktion, die den erhaltenen Zielinformationen entspricht; Erzeugen einer Antwort, die der bestimmten Aktion entspricht; und Ausgeben der erzeugten Antwort.
Verfahren nach Anspruch 17, ferner aufweisend: Erzeugen der Erfahrungsinformationen basierend auf dem ausgegebenen Sprachsignal und dem empfangenen Sprachsignal; und Speichern der erzeugten Erfahrungsinformationen in der Erfahrungsdatenbank.
Verfahren nach Anspruch 17, ferner aufweisend: basierend auf dem Empfangen von Benutzereingaben außer einer Sprache durch eine zweite Eingabevorrichtung Bestimmen, ob eine Benutzereingabe, die einer Abfrage nach der mehrdeutigen Sprache entspricht, unter den empfangenen Benutzereingaben vorliegt; und in Erwiderung auf das Bestimmen, dass die Benutzereingabe, die der Abfrage nach der mehrdeutigen Sprache entspricht, vorliegt, Aktualisieren der Zielinformationen, die der mehrdeutigen Sprache entsprechen und in der Erfahrungsdatenbank gespeichert sind, basierend auf der Benutzereingabe, die der Abfrage entspricht.
Verfahren nach Anspruch 17, wobei das Ausgeben der erzeugten Antwort Folgendes aufweist: Erhalten einer Verlaufswahrscheinlichkeit eines Zielwertes für jede mehrdeutige Sprache basierend auf Auswahlinformationen des Zielwertes für jede mehrdeutige Sprache, die durch die erste und zweite Eingabevorrichtung empfangen werden; Erzeugen einer Vielzahl von Antworten basierend auf der Verlaufswahrscheinlichkeit für den erhaltenen Zielwert für jede mehrdeutige Sprache; und Ausgeben der erzeugten Vielzahl von Antworten.