DE112006000225B4

DE112006000225B4 - Dialogsystem und Dialogsoftware

Info

Publication number: DE112006000225B4
Application number: DE112006000225.2T
Authority: DE
Inventors: Mikio Nakano; Hiroshi Okuno; Kazunori Komatani
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2005-02-28
Filing date: 2006-02-27
Publication date: 2020-03-26
Anticipated expiration: 2026-02-28
Also published as: WO2006093092A1; JPWO2006093092A1; US20080065371A1; DE112006000225T5; JP4950024B2

Abstract

Ein System oder dergleichen wird bereitgestellt, das in der Lage ist, mit einem Benutzer zu kommunizieren, während auf geeignete Weise eine Widersprüchlichkeit zwischen einer Benutzeräußerung und einer erkannten Sprache beseitigt wird.Gemäß dem Dialogsystem 100 der vorliegenden Erfindung wird eine Frage i-ter Ordnung Q, um eine Benutzerbedeutung zu erfragen, basierend auf einer Ausgabespracheinheit i-ter Ordnung ybezüglich einer Eingabespracheinheit i-ter Ordnung x(i = 1, 2, --), die in der erkannten Äußerung enthalten ist, generiert. Dadurch wird festgestellt, ob es eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Eingabespracheinheit i-ter Ordnung xbasierend auf einer als eine Benutzerantwort erkannten Antwort i-ter Ordnung Aauf die Frage i-ter Ordnung Qgibt.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf ein System zur Erkennung einer Benutzeräußerung und zur Ausgabe einer Äußerung an den Benutzer und auf Software zur Bereitstellung eines Computers mit notwendigen Funktionen zur Kommunikation mit dem Benutzer.
Bisheriger Stand der Technik
Bei der Kommunikation zwischen einem Benutzer und einem System können ein Umgebungsgeräusch oder andere verschiedene Ursachen zu einem Fehler durch das System bei der Erkennung einer Benutzeräußerung führen (verhören). Folglich wurde bereits eine Technik zur Sprachausgabe vorgeschlagen, um den Inhalt der Benutzeräußerung in einem System zu bestätigen (siehe zum Beispiel die japanische offen gelegte Patentanmeldung Nr. JP 2002 - 351 492 A ). Gemäß dem System wird, wenn „Merkmale“, „Merkmalswerte“ und „Abstände zwischen den Merkmalswerten“ für die Wörter festgelegt sind und mehrere Wörter erkannt werden, deren Merkmalswerte voneinander trotz eines gemeinsamen Merkmals verschieden sind und deren Unterschiede zwischen den Merkmalswerten (die Abstände zwischen den Merkmalswerten) jeweils gleich oder größer als ein Grenzwert während einer Kommunikation mit demselben Benutzer sind, eine Äußerung zur Bestätigung der Wörter ausgegeben.
Gemäß dem obigen System können jedoch in dem Fall des Auftretens von Verhören die Abstände zwischen den Merkmalswerten in manchen Fällen ungenau berechnet werden. Deshalb gibt es eine Wahrscheinlichkeit, dass der Dialog ohne Beseitigung einer Widersprüchlichkeit fortgesetzt wird, da das System die Benutzeräußerung als „B“ erkennt, was akustisch ähnlich „A“ ist, obwohl der Benutzer „A“ spricht.
Die US 2002/0120452 A1 offenbart ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Äußerung eines Benutzers und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung, wobei ein von dem ersten Sprachabschnitt erkannte Äußerung mit einer gespeicherten Namenliste abgeglichen wird und bei Mehrfachtreffern eine erste Sprachreinheit bezüglich eines ersten Treffers der Mehrfachtreffer abgerufen und von dem zweiten Sprachabschnitt als Äußerung ausgegeben wird.
Die der vorliegenden Erfindung zugrundeliegende Aufgabe besteht darin, ein Dialogsystem und ein Programm für einen Computer mit Dialogfunktion bereitzustellen, die es ermöglichen, mit einem Benutzer zu kommunizieren und bei einer drohenden Fehlerkennung einer Äußerung des Benutzers eine Nachfrage auszugeben, die von dem Benutzer gut verständlich ist und die die Anzahl weiterer Nachfragen verringern kann.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst. Die Erfindung wird durch die Merkmale der abhängigen Ansprüche weitergebildet.
Gemäß der vorliegenden Erfindung wird ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Äußerung eines Benutzer und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung bereitgestellt, wobei das Dialogsystem umfasst: einen ersten Verarbeitungsabschnitt zum Abrufen einer ersten, in der durch den ersten Sprachabschnitt erkannten Äußerung eines Benutzers enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank, Abrufen mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abzurufen; und einen zweiten Verarbeitungsabschnitt zur Auswahl einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen, zur Generierung einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts, die erste Frage auszugeben, wobei der zweite Verarbeitungsabschnitt basierend auf einer auf die erste Frage folgenden Benutzerantwort feststellt, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
Falls es möglich ist, die der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank abzurufen, könnte eine andere Spracheinheit in der Benutzeräußerung anstelle der ersten Eingabespracheinheit enthalten sein. Insbesondere könnte in diesem Fall der erste Sprachabschnitt die erste Eingabespracheinheit so oder so falsch gehört haben. Angesichts dessen wird die auf die erste Eingabespracheinheit bezogene erste Ausgabespracheinheit aus der zweiten Wörterbuchdatenbank abgerufen.
Ferner wird die der ersten Ausgabespracheinheit entsprechende erste Frage generiert und ausgegeben. Danach wird ermittelt, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit basierend auf der ersten Antwort, die als die Benutzeräußerung auf die erste Frage erkannt wurde, übereinstimmt. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, während eine Diskrepanz zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
„Spracheinheit“ bedeutet ein Satz bestehend aus Buchstaben, Wörtern und mehreren Wörtern, einem langen Satz bestehend aus kurzen Sätzen o. ä.
Ein erster Faktor der Faktoren kann den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in bestimmten Massenmedien darstellen und ein zweiter Faktor der Faktoren kann den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellen.
Somit wird die erste Ausgabespracheinheit basierend auf dem ersten Faktor ausgewählt, der den Schwierigkeitsgrad bei der Erkennung aus mehreren ersten Ausgabespracheinheiten darstellen, wodurch der Benutzer die ausgewählte erste Ausgabespracheineinheit leichter erkennen kann. Dadurch wird eine geeignete erste Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit Ordnung übereinstimmt, generiert.
Zudem kann der Benutzer die ausgewählte erste Ausgabespracheinheit leichter begrifflich oder akustisch erkennen. Dadurch wird eine geeignete erste Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit Ordnung übereinstimmt, generiert.
Ferner kann der zweite Verarbeitungsabschnitt die erste Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der ersten Eingabespracheinheit und jeder der mehreren ersten Ausgabespracheinheiten auswählen, wodurch der Benutzer die ausgewählte erste Ausgabespracheinheit von der ersten Eingabespracheinheit akustisch leichter unterscheiden kann.
Ferner kann der erste Verarbeitungsabschnitt beim Abrufen der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abrufen:

- eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der ersten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält;
- eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt;
- eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht;
- eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und
- eine Spracheinheit fünfter Art, die der ersten Eingabespracheinheit begrifflich ähnlich ist

Gemäß dem Dialogsystem der vorliegenden Erfindung ist es möglich, die Auswahlanzahl der ersten Ausgabespracheinheiten zu erhöhen, die die Basis zur Generierung der ersten Frage bilden. Deshalb kann die am besten geeignete Frage hinsichtlich der Bestimmung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert werden.
Ferner kann, wenn der zweite Verarbeitungsabschnitt basierend auf der Benutzerantwort feststellt, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, der erste Verarbeitungsabschnitt eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abrufen und dieselbe als eine zweite Eingabespracheinheit definieren und dann mehrere Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank abrufen und als mehrere zweite Ausgabespracheinheiten definieren; und der zweite Verarbeitungsabschnitt eine zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählen, eine zweite Frage generieren, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen und den zweiten Sprachabschnitt dazu veranlassen, die zweite Frage auszugeben, wobei der zweite Verarbeitungsabschnitt basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht.
Auf diese Weise werden mehrere Fragen an den Benutzer ausgegeben, um die Benutzerbedeutung zu erfragen. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, mit dem die Diskrepanz zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert werden kann.
Zusätzlich kann der zweite Verarbeitungsabschnitt die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der zweiten Eingabespracheinheit und jeder der mehreren zweiten Ausgabespracheinheiten auswählen.
Dies ermöglicht die Generierung einer geeigneten zweiten Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt.
Zu dem kann ein erster Faktor der Faktoren, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in Massenmedien darstellen und ein zweiter Faktor der Faktoren, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, kann den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellen.
Folglich kann die ausgewählte zweite Ausgabespracheinheit von der ersten Eingabespracheinheit akustisch leichter unterschieden werden. Überdies kann die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand von der zweiten Eingabespracheinheit ausgewählt werden. Folglich kann die ausgewählte zweite Ausgabespracheinheit Ordnung von der zweiten Eingabespracheinheit akustisch leichter unterschieden werden.
Der erste Verarbeitungsabschnitt kann beim Abrufen der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abrufen:

- eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der zweiten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält;
- eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt;
- eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht;
- eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und
- eine Spracheinheit fünfter Art, die der zweiten Eingabespracheinheit begrifflich ähnlich ist

Zusätzlich kann, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit der zweiten Eingabespracheinheit übereinstimmt, der zweite Verarbeitungsabschnitt eine Frage generieren, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt veranlasst, die Frage auszugeben.
Gemäß dem Dialogsystem der vorliegenden Erfindung ist es in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, möglich, die Bedeutung erneut zu bestätigen.
Gemäß der vorliegenden Erfindung wird eine Programm bereitgestellt, das, wenn es auf einem Computer läuft oder auf einem Computer geladen wird, den Computer dazu veranlasst folgende Schritte auszuführen:

- Erkennen einer Äußerung eines Benutzers,
- Abrufen einer ersten, in der erkannten Benutzeräußerung enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank,
- Abrufen mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abzurufen,
- Auswählen einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen,
- Generieren einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen,
- Ausgeben der ersten Frage und
- Ermitteln basierend auf einer auf die erste Frage folgenden Benutzerantwort, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.

Überdies kann, wenn in dem Ermittlungsschritt basierend auf der Benutzerantwort feststellt wird, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abgerufen und dieselbe als eine zweite Eingabespracheinheit definiert werden und dann mehrerer Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank abgerufen und als mehrere zweite Ausgabespracheinheiten definiert werden; und eine zweite Ausgabespracheinheiten aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählt, eine zweite Frage generiert und ausgegeben werden, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen, und basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt werden, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht..
Somit ist der Computer mit der Funktion ausgestattet, mehrere Fragen zu generieren, um die Benutzerbedeutung zu erfragen. Folglich ist der Computer mit einer Funktion ausgestattet, mit dem Benutzer zu kommunizieren, während die Benutzerbedeutung genauer verstanden und eine Diskrepanz zwischen der Benutzeräußerung und der durch das System erkannten Sprache zuverlässiger verhindert wird.
Figurenliste

1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung.2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß

Beste Art zur Ausführung der Erfindung
Bevorzugte Ausführungsformen eines Dialogsystems und einer Dialogsoftware gemäß der vorliegenden Erfindung werden unten unter Verwendung der beiliegenden Zeichnungen beschrieben.
In 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung dargestellt. In 2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß der vorliegenden Erfindung dargestellt.
Das Dialogsystem 100 (hierin nachstehend als „System“ bezeichnet) besteht aus einem Computer als Hardware, der in einem an einem Kraftfahrzeug angebrachten Navigationssystem 10 (Navi-System) eingebaut ist und aus „Dialogsoftware“ der vorliegenden Erfindung, die in einem Speicher des Computers gespeichert ist.
Das Dialogsystem 100 umfasst einen ersten Sprachabschnitt 101, einen zweiten Sprachabschnitt 102, einen ersten Verarbeitungsabschnitt 111, einen zweiten Verarbeitungsabschnitt 112, eine erste Wörterbuchdatenbank 121 und eine zweite Wörterbuchdatenbank 122.
Der erste Sprachabschnitt 101, der aus einem Mikrofon (nicht dargestellt) o. ä. besteht, erkennt eine Benutzeräußerung basierend auf einer Eingabestimme gemäß einer bekannten Technik, wie zum Beispiel einem Hidden-Markov-Modell.
Der zweite Sprachabschnitt 102, der aus einem Lautsprecher (nicht dargestellt) o. ä. besteht, gibt eine Stimme (oder eine Äußerung) aus.
Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten von Spracheinheiten bezüglich einer Eingabespracheinheit erster Ordnung aus der zweiten Wörterbuchdatenbank 122 ab und erkennt diese als Ausgabespracheinheiten erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheiten, die in der durch den ersten Sprachabschnitt 101 erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank 121 abzurufen. Ferner erkennt der erste Verarbeitungsabschnitt 111 eine Ausgabespracheinheit höherer Ordnung, falls erforderlich, wie später beschrieben werden wird.
Der zweite Verarbeitungsabschnitt 112 wählt eine aus mehreren Arten der durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheiten erster Ordnung basierend auf der Eingabespracheinheit erster Ordnung aus. Außerdem generiert der zweite Verarbeitungsabschnitt 112 eine Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und veranlasst den zweiten Sprachabschnitt 102, dieselbe basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung auszugeben. Noch weiter stellt der zweite Verarbeitungsabschnitt 112 fest, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf der durch den ersten Sprachabschnitt 101 erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt. Ferner generiert der zweite Verarbeitungsabschnitt 112 eine Frage höherer Ordnung, falls erforderlich, wie später beschrieben wird und bestätigt die Benutzerbedeutung basierend auf einer Antwort höherer Ordnung.
Die erste Wörterbuchdatenbank 121 speichert mehrere Spracheinheiten, die als Eingabespracheinheiten (i+1)-ter Ordnung (i = 1, 2, --) durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
Die zweite Wörterbuchdatenbank 122 speichert mehrere Spracheinheiten, die als Ausgabespracheinheiten i-ter Ordnung durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
Funktionen des Systems 100 mit der obigen Anordnung werden unter Verwendung der 2 beschrieben.
Zuerst gibt der zweite Sprachabschnitt 102 als Antwort auf eine Benutzerbedienung des Navi-Systems 10 zum Zweck der Einstellung eines Ziels eine Anfangsäußerung „Wo befindet sich Ihr Ziel?“ aus (2: S1). Als Antwort auf die Anfangsäußerung spricht der Benutzer ein Wort, das ein Ziel bedeutet, und der erste Sprachabschnitt 101 erkennt dann diese Äußerung (2: S2). Zu diesem Zeitpunkt wird der Index i, der die Ordnung der Eingabespracheinheit, Ausgabespracheinheit, Frage und Antwort darstellt, auf 1 gesetzt (2: S3).
Außerdem wandelt der erste Verarbeitungsabschnitt 111 die durch den ersten Sprachabschnitt 101 erkannte Äußerung in eine Spracheinheitenkette um und extrahiert dann eine in der ersten Wörterbuchdatenbank 121 als „Bezirksbezeichnung“, „Gebäudebezeichnung“ o. ä. klassifizierte Spracheinheit aus der Spracheinheit und erkennt dieselbe als eine Eingabespracheinheit i-ter Ordnung x_i (2: S4). Die Klassifizierung der aus der Spracheinheitenkette extrahierten Spracheinheit basiert auf einem Gebiet, in dem eine Navi-Einheit 1 dem Benutzer eine Fahrroute bis zum Ziel zeigt.
Ferner ermittelt der erste Verarbeitungsabschnitt 111, ob eine der Eingabespracheinheit i-ter Ordnung x_i akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 abgerufen werden kann, mit anderen Worten, ob das akustisch ähnliche Wort in der ersten Wörterbuchdatenbank 121 gespeichert ist (2: S5). Die einander akustisch ähnlichen Spracheinheiten x_i und x_j bedeuten, dass der durch die folgende Gleichung (1) definierte akustische Abstand pd(x_i, x_j) kleiner als ein Grenzwert ist: $\begin{array}{l} pd (x_{i}, x_{j}) \\ = ed (x_{i}, x_{j}) / In [min (| x_{i} |, | x_{j} |) + 1] \end{array}$
In der Gleichung (1) ist |x| die Zahl der Phoneme (oder phonetischer Einheiten), die in der Spracheinheit x enthalten ist. Der Begriff „Phonem“ bedeutet die kleinste Schalleinheit, die in einer Sprache verwendet wird, definiert vom Standpunkt einer Diskriminierungsfunktion.
Ferner ist ed(x_i, x_j) ein Bearbeitungsabstand zwischen der Spracheinheit x_i und x_j, und wird durch DP-Matching erhalten unter der Bedingung, dass die Kosten auf 1 gesetzt sind, wenn sich die Zahl der Moras (der Begriff „Mora“ bedeutet die kleinste Einheit einer japanischen Aussprache) oder der Phoneme verändert, und dass die Kosten auf 2 gesetzt sind, wenn sich die Zahl der Moras oder der Phoneme zum Zeitpunkt des Einfügens, Löschens oder Ersetzens von Phonemen bei der Umwandlung einer Phonemkette der Spracheinheit x_i in eine Phonemkette der Spracheinheit x_j nicht verändert.
Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten der Ausgabespracheinheiten i-ter Ordnung y_ki = y_k(x_i) (k = 1 bis 5), die in Beziehung zu der Eingabespracheinheit i-ter Ordnung x_i stehen, aus der zweiten Wörterbuchdatenbank 122 ab (2: S6), wenn er feststellt, dass eine der Eingabespracheinheit i-ter Ordnung x_i akustisch ähnliche Spracheinheit in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 - JA).
Insbesondere ruft der erste Verarbeitungsabschnitt 111 eine Spracheinheit, die einen andersartigen Teil δ_i = δ(x_i, z_i) von der akustisch ähnlichen Spracheinheit z_i in der Eingabespracheinheit i-ter Ordnung x_i enthält, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung erster Art y_1i = y_i(x_i). Zum Beispiel wird, wenn die Eingabespracheinheit i-ter Ordnung x_i ein Wort ist, das eine Ortsbezeichnung „Boston“ angibt, und die akustisch ähnliche Spracheinheit z_i ein Wort ist, das eine Ortsbezeichnung „Austin“ angibt, „b“ des Anfangsbuchstabens der Eingabespracheinheit i-ter Ordnung x_i als der andersartige Teil δ_i extrahiert. Zusätzlich wird „bravo“ als eine Spracheinheit abgerufen, die den andersartigen Teil δ_i enthält.
Überdies ruft der erste Verarbeitungsabschnitt 111 eine von der Lesung p_1i = p₁(δ_i) (ursprüngliche Lesung) andersartige Lesung p_2i = p₂(δ_i) des andersartigen Teils δ_i aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung zweiter Art y_2i = y₂(x_i). Zum Beispiel gibt es im Japanischen unterschiedliche Lesungen und zwar die chinesische Lesung und die japanische Lesung in den meisten Kanji. Wenn deshalb die ursprüngliche Lesung des Kanji „
“, das der andersartige Teil δ_i ist, in der chinesischen Lesung „gin“ ist, wird die japanische Lesung des Kanji „shirogane“ als die Ausgabespracheinheit i-ter Ordnung zweiter Art y_2i erkannt.
Ferner ruft der erste Verarbeitungsabschnitt 111 die Lesung p(f) einer Spracheinheit f = f(δ_i), was den andersartigen Teil δ_i in einer anderen Spracheinheit bedeutet, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung dritter Art y_3i = y₃(x_i). Wenn zum Beispiel ein Kanji „
“ im Japanischen der andersartige Teil δ_i ist, wird die Lesung „sirubaa“ des englischen Worts „Silber“, welches das zuvor genannte Kanji bedeutet, als die Ausgabespracheinheit i-ter Ordnung dritter Art y_3i erkannt.
Wenn außerdem die Lesung p(δ_i) des andersartigen Teils δ_i aus mehreren Moras (oder Phonemen) besteht, ruft der erste Verarbeitungsabschnitt 111 ein Phonemzeichen, das eine Mora darstellt, wie zum Beispiel die erste Mora oder einen die Mora erläuternden Satz, unter mehreren Moras aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung vierter Art y_4i = y₄(x_i). Wenn zum Beispiel ein Kanji „
“ im Japanischen der andersartige Teil δ_i ist, wird das erste Morazeichen „ni“ als die Ausgabespracheinheit i-ter Ordnung vierter Art y_4i in der Lesung p(δ_i) „nishi“ erkannt. Zusätzlich gibt es Kategorien: Resonanzlaut, P-Laut (Konsonant: p) und Dumpflaut (Konsonant: g, z, d, b) in japanischen Moras. Deshalb werden die Wörter „Resonanzlaut“, „P-Laut“ und „Dumpflaut“, die die Kategorien angeben, als die Ausgabespracheinheit i-ter Ordnung vierter Art y_4i erkannt.
Ferner ruft der erste Verarbeitungsabschnitt 111 eine in Bezug zu der Eingabespracheinheit i-ter Ordnung x_i stehende Spracheinheit aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung fünfter Art y_5i = y₅(x_i). Zum Beispiel wird eine durch die Eingabespracheinheit i-ter Ordnung x_i dargestellte Spracheinheit (ein Ortsname) g = g(x_i), die ein Gebiet einschließlich des Ziels darstellt, als die Ausgabespracheinheit i-ter Ordnung fünfter Art y_5i erkannt.
Mehrere Spracheinheiten können als Ausgabespracheinheit i-ter Ordnung k-ter Art erkannt werden. Wenn zum Beispiel der andersartige Teil δ_i ein Kanji
ist, können sowohl ein Satz „
(Schweigen ist Gold)“, der als historisches Idiom klassifiziert ist als auch ein Name
, der als Prominentenname klassifiziert ist, als die Ausgabespracheinheit i-ter Ordnung erster Art y_1i erkannt werden.
Wenn auf der anderen Seite der erste Verarbeitungsabschnitt 111 feststellt, dass die der Eingabespracheinheit i-ter Ordnung x_i akustisch ähnliche Spracheinheit nicht in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 - NEIN), wird die nächste Verarbeitung gemäß einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung x_i für die Festlegung der Benutzerzielbezeichnung verwendet wird. Dabei gibt zum Beispiel der zweite Sprachabschnitt 102 eine Äußerung aus „Dann zeige ich Ihnen die Route zum Ziel x_i“ o. ä. Zusätzlich führt das Navi-System 10 das Einstellen der Verarbeitung für die Route zu dem durch die Eingabespracheinheit i-ter Ordnung x_i angegeben Ziel durch.
Anschließend wählt der zweite Verarbeitungsabschnitt 112 eine aus der ersten bis fünften durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheit i-ter Ordnung y_ki aus (2: S7).
Insbesondere berechnet der zweite Verarbeitungsabschnitt 112 eine Indexmaßzahl₁ i-ter Ordnung (y_ki) in Übereinstimmung mit der folgenden Gleichung (2) in Bezug auf die verschiedenen Ausgabespracheinheiten i-ter Ordnung y_ki und wählt dann die Ausgabespracheinheit i-ter Ordnung y_ki mit der höchsten Indexmaßzahl1 i-ter Ordnung (y_ki) aus. $\begin{array}{l} Ma ß {zahl}_{1} (y_{ki}) \\ = W_{1} \cdot c_{1} (y_{k 1}) + W_{2} \cdot c_{2} (y_{k 1}) + W_{3} \cdot pd (x_{1}, y_{k 1}), \\ Ma ß {zahl}_{i + 1} (y_{ki + 1}) \\ = W_{1} \cdot c_{1} (y_{ki + 1}) + W_{2} \cdot c_{2} (y_{ki + 1}) + W_{3} \cdot pd (x_{i}, y_{ki + 1}) + W_{4} \cdot pd (y_{ki}, y_{ki + 1}) \end{array}$
In der Gleichung (2) sind W₁ bis W₄ Gewichtungsfaktoren. c₁(y_ki) ist ein erster Faktor, der den Schwierigkeitsgrad (Bekanntschaftsgrad) bei der begrifflichen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art y_ki darstellt. Als erster Faktor wird die Trefferzahl aus einer Internetsuchmaschine, wobei die Ausgabespracheinheit i-ter Ordnung y_ki als Stichwort verwendet wird, die Auftrittshäufigkeit in Massenmedien, wie zum Beispiel große Zeitungen und Rundfunk o. ä., verwendet. Zusätzlich ist c₂(y_k _i) ein zweiter Faktor, der den Schwierigkeitsgrad (eine Eindeutigkeit bei der Aussprache oder Hörbarkeit) bei der akustischen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art y_ki darstellt. Als zweiter Faktor wird zum Beispiel der Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl (zum Beispiel 10) anderer Spracheinheiten verwendet (Homonyme usw.). pd(x, y) ist ein durch die Gleichung (1) definierter akustischer Abstand zwischen der Spracheinheit x und y.
Anschließend generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i = Q(y_i), um die Benutzerbedeutung basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung y_ki zu erfragen, und veranlasst den zweiten Sprachabschnitt 102, dieselbe auszugeben (2: S8).
Zum Beispiel generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δ_i, der in y_1i enthalten ist?“, in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung erster Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch den andersartigen Teil δ_i verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i (zum Beispiel eine in der Sprache enthaltene Ortsbezeichnung oder Gebäudebezeichnung) richtig oder falsch ist.
Zusätzlich generiert er die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben, der wie p_2i gelesen (oder ausgesprochen) wird?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung zweiter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch die von der ursprünglichen Lesung p_1i verschiedene Lesung p_2i des andersartigen Teils δ_i verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δ_i, der p in einer fremden Sprache bedeutet (zum Beispiel Englisch für Japanischsprecher)?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung dritter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch die Lesung p(f) der Spracheinheit f = f(δ_i), die den andersartigen Teil δ_i in einer anderen Spracheinheit bedeutet, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Noch überdies generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen n-ten Buchstaben, der wie p(δ_i) ausgesprochen wird?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung vierter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch einen Buchstaben, der eine Mora oder einen die Mora erläuternden Satz in der Lesung p(δi) des andersartigen Teils δ_i darstellt, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Ist das Ziel in g enthalten?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung fünfter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch die begrifflich in Bezug zu der Eingabespracheinheit i-ter Ordnung x_i stehenden Spracheinheit verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Überdies erkennt der erste Sprachabschnitt 101 eine Antwort i-ter Ordnung A_i als Benutzeräußerung auf die Frage i-ter Ordnung Q_i (2: S9). Zusätzlich ermittelt der zweite Verarbeitungsabschnitt 112, ob die Antwort i-ter Ordnung A_i positiv gleich „JA“ oder negative gleich „NEIN“ ist (2: S10).
Wenn dann der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung A_i positiv ist (2: S10 - JA), wird die nächste Verarbeitung in Übereinstimmung mit einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung x_i für die Festlegung der Benutzerzielbezeichnung verwendet wird.
Wenn auf der anderen Seite der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung A_i negativ ist (2: S10 - NEIN), wird festgestellt, ob eine Bedingung erfüllt ist, dass der Index i kleiner als eine gegebene Zahl j (>2) ist (2: S11). Wenn die Bedingung erfüllt ist (2: S11 - JA), wird der Index um 1 erhöht (2: S12) und die Verarbeitung von S4 bis S10 wiederholt. Bei dieser Verarbeitung ruft der erste Verarbeitungsabschnitt 111 eine der Eingabespracheinheit (i-1)-ter Ordnung x_i-1 (i ≥ 2) akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 ab und erkennt dieselbe als die Eingabespracheinheit i-ter Ordnung x_i. Die akustisch ähnliche Spracheinheit z_i-1 der Eingabespracheinheit (i-1)-ter Ordnung x_i-1 kann ebenso als die Eingabespracheinheit i-ter Ordnung x_i erkannt werden. Sofern außerdem die Bedingung nicht erfüllt ist (2: S11 - NEIN), wird die Kommunikation mit dem Benutzer erneut von Beginn an auf eine solche Weise gestartet, dass der zweite Sprachabschnitt 102 eine Anfangsäußerung neu ausgibt (2: S1).
Gemäß dem Dialogsystem 100 (und der Dialogsoftware), das die obigen Funktionen verwirklicht, wird eine aus mehreren Arten der Ausgabespracheinheiten i-ter Ordnung y_ki basierend auf dem ersten Faktor c₁, der den Schwierigkeitsgrad bei der begrifflichen Erkennung darstellt, und dem zweiten Faktor c₂, der den Schwierigkeitsgrad bei der akustischen Erkennung darstellt, mit Bezug auf jede der Ausgabespracheinheiten i-ter Ordnung y_ki ausgewählt (2: S6, S7). Zusätzlich wird die Frage i-ter Ordnung Q_i basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung y_ki generiert (2: S8). Dadurch wird die am besten geeignete Frage i-ter Ordnung Q_i hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung x_i übereinstimmt, generiert. Wenn festgestellt wird, dass eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Systemerkennung besteht, wird eine neue Frage generiert (2: S10 - NEIN, S4 bis S10). Deshalb ist es möglich, einen Dialog zwischen dem Benutzer und dem System 100 bereitzustellen, während die Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System 100 erkannten Sprache zuverlässig vermieden wird.
Sofern ferner die Benutzerbedeutung nicht mit der Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, wird eine Anfangsfrage generiert, um den Benutzer aufzufordern, erneut zu sprechen (2: S11 - NEIN, S1). Dadurch kann in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, die Bedeutung erneut bestätigt werden.
Ein erstes Dialogbeispiel zwischen dem Benutzer und dem Dialogsystem 100 wird unten gemäß der obigen Verarbeitung beschrieben, wobei U die Äußerung des Benutzers und S die Äußerung des Dialogsystems 100 ist.
(Erstes Dialogbeispiel)

S₀: Wo liegt Ihr Ziel?
U₀: Kinkakuji (
: Goldener Pavillon).
S₁: Enthält die Zielbezeichnung einen Buchstaben „
“, der Silber in Englisch bedeutet?
U₁: Nein.
S₂: Nun, enthält die Zielbezeichnung einen Buchstaben
wie er in „
(Schweigen ist Gold)“ verwendet wird?
U₂: Ja.
S₃: Dann zeige ich Ihnen die Route nach Kinkakuji.

Die Äußerung S₀ des Systems 100 entspricht einer Anfangsfrage (2: S1).
Die Äußerung S₁ des Systems 100 entspricht der Frage erster Ordnung Q₁ (2: S8). Die Frage erster Ordnung Q₁ wird gemäß den folgenden Tatsachen generiert: „Ginkakuji (Silberner Pavillon)“ wird erkannt (falsch erkannt) anstelle von „Kinkakuji“ als Eingabespracheinheit erster Ordnung x₁ (2: S4); „Kinkakuji“ wird als akustisch ähnliche Spracheinheit z₁ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y₁₁ bis y₅₁ werden als jene erkannt, die in Bezug zu dem Kanji
stehen, das ein andersartiger Teil δ₁ zwischen den zwei Spracheinheiten x₁ und z₁ ist (2: S6); und die Lesung des japanischen Worts „sirubaa“ wird als eines ausgewählt, das dem englischen Wort „Silber“ entspricht, das den andersartigen Teil δ₁ als Ausgabespracheinheit erster Ordnung dritter Art y₃₁ darstellt (2: S7).
Die Äußerung S₂ des Systems 100 entspricht der Frage zweiter Ordnung Q₂ (2: S8). Die Frage zweiter Ordnung Q₂ wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A₁ erkannte Benutzeräußerung U₁ ist negativ (2: S10 - NEIN); „Kinkakuji“ wird als Eingabespracheinheit zweiter Ordnung x₂ erkannt (2: S4); „Ginkakuji“ wird als akustisch ähnliche Spracheinheit z₂ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y₁₂ bis y₅₂ werden als jene erkannt, die in Bezug zu dem Kanji
stehen, das ein andersartiger Teil δ₂ zwischen den zwei Spracheinheiten x₂ und z₂ ist (2: S6); und das historische Idiom
, das den andersartigen Teil δ₂ enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y₁₂ ausgewählt (2: S7).
Gemäß der positiven Benutzeräußerung U₂, die als Antwort zweiter Ordnung A₂ erkannt wird (2: S10 - JA), gibt das System 100 die Äußerung U₄ basierend auf der Feststellung aus, dass das Benutzerziel Kinkakuji ist.
Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Ginkakuji“ ist, obwohl das Benutzerziel „Kinkakuji“ ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Kinkakuji ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Kinkakuji, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.
Ferner wird unten ein zweites Dialogbeispiel zwischen dem Benutzer und dem System 100 gemäß der obigen Verarbeitung beschrieben.
(Zweites Dialogbeispiel)

S₀: Können Sie mir die Abfahrtsstadt nennen?
U₀: Von Austin.
S₁: Ist der erste Buchstabe der Stadt „b“ wie „bravo“?
U₁: Nein.
S₂: Ist dann der erste Buchstabe der Stadt „a“ wie „alpha“?
U₂: Ja.

Die Äußerung S₀ des Systems 100 entspricht der Anfangsfrage (2: S8).
Die Äußerung S₁ des Systems 100 entspricht der Frage erster Ordnung Q₁ (2: S1). Die Frage erster Ordnung Q₁ wird gemäß den folgenden Tatsachen generiert: „Boston“ wird erkannt (falsch erkannt) anstelle von „Austin“ als Eingabespracheinheit erster Ordnung x₁ (2: S4); „Austin“ wird als akustisch ähnliche Spracheinheit z₁ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y₁₁ bis y₅₁ werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „b“ stehen, der ein andersartiger Teil δ₁ zwischen zwei Spracheinheiten x₁ und z₁ ist (2: S6); und das englische Wort „bravo“ wird als eines ausgewählt, das den andersartigen Teil δ₁ als die Ausgabespracheinheit erster Ordnung erster Art y₁₁ darstellt (2: S7).
Die Äußerung S₂ des Systems 100 entspricht der Frage zweiter Ordnung Q₂ (2: S8). Die Frage zweiter Ordnung Q₂ wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A₁ erkannte Benutzeräußerung U₁ ist negativ (2: S10 - NEIN); „Austin“ wird als Eingabespracheinheit zweiter Ordnung x₂ erkannt (2: S4); „Boston“ wird als akustisch ähnliche Spracheinheit z₂ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y₁₂ bis y₅₂ werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „a“ stehen, der ein andersartiger Teil δ₂ zwischen zwei Spracheinheiten x₂ und z₂ ist (2: S6); und das englische Wort „alpha“, das den andersartigen Teil δ₂ enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y₁₂ ausgewählt (2: S7).
Gemäß der positiven Benutzeräußerung U₂, die als Antwort zweiter Ordnung A₂ erkannt wird (2: S10 - JA), gibt das System 100 die Äußerung basierend auf der Feststellung aus, dass das Benutzerziel Austin ist.
Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Boston“ ist, obwohl das Benutzerziel „Austin“ ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Austin ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Austin, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.

Claims

Dialogsystem (100) mit einem ersten Sprachabschnitt (101) zur Erkennung (S2) einer Äußerung eines Benutzers und einem zweiten Sprachabschnitt (102) zur Ausgabe einer Äußerung, wobei das Dialogsystem (100) umfasst: einen ersten Verarbeitungsabschnitt (111) zum Abrufen (S4) einer ersten, in der durch den ersten Sprachabschnitt (101) erkannten Äußerung eines Benutzers enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank (121), Abrufen (S6) mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank (122) und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abzurufen; und einen zweiten Verarbeitungsabschnitt (112) zur Auswahl (S7) einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen, zur Generierung (S8) einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts (102), die erste Frage auszugeben, wobei der zweite Verarbeitungsabschnitt (112) basierend auf einer auf die erste Frage folgenden Benutzerantwort feststellt (S10), ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
Dialogsystem gemäß Anspruch 1, wobei ein erster Faktor der Faktoren den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in Massenmedien darstellt und ein zweiter Faktor der Faktoren den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt.
Dialogsystem gemäß Anspruch 1, wobei der zweite Verarbeitungsabschnitt (112) die erste Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der ersten Eingabespracheinheit und jeder der mehreren ersten Ausgabespracheinheiten auswählt (S7).
Dialogsystem gemäß Anspruch 1, wobei der erste Verarbeitungsabschnitt (111) beim Abrufen (S6) der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abruft: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der ersten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der ersten Eingabespracheinheit begrifflich ähnlich ist.
Dialogsystem gemäß Anspruch 1, wobei, wenn der zweite Verarbeitungsabschnitt (112) basierend auf der Benutzerantwort feststellt (S10), dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, dann: der erste Verarbeitungsabschnitt (111) eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abruft (S12, S4, S5) und dieselbe als eine zweite Eingabespracheinheit definiert und dann mehrere Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank (122) abruft und als mehrere zweite Ausgabespracheinheiten definiert; und der zweite Verarbeitungsabschnitt (112) eine zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählt (S7), eine zweite Frage generiert (S8), die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen und den zweiten Sprachabschnitt (102) dazu veranlasst, die zweite Frage auszugeben, wobei der zweite Verarbeitungsabschnitt (112) basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt (S10), ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht.
Dialogsystem gemäß Anspruch 5, wobei ein erster Faktor der Faktoren den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in Massenmedien darstellt und ein zweiter Faktor der Faktoren den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt.
Dialogsystem gemäß Anspruch 5, wobei der zweite Verarbeitungsabschnitt (112) die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der zweiten Eingabespracheinheit und jeder der mehreren zweiten Ausgabespracheinheiten auswählt (S7).
Dialogsystem gemäß Anspruch 5, wobei der erste Verarbeitungsabschnitt (111) beim Abrufen (S6) der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abruft: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der zweiten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der zweiten Eingabespracheinheit begrifflich ähnlich ist.
Dialogsystem gemäß Anspruch 5, wobei, wenn der zweite Verarbeitungsabschnitt (112) feststellt, dass die Benutzerbedeutung nicht mit der zweiten Eingabespracheinheit übereinstimmt, der zweite Verarbeitungsabschnitt (112) eine Frage generiert, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt (102) veranlasst, die Frage auszugeben.
Programm, das, wenn es auf einem Computer läuft oder auf einem Computer geladen wird, den Computer dazu veranlasst folgende Schritte auszuführen: Erkennen (S2) einer Äußerung eines Benutzers, Abrufen (S4) einer ersten, in der erkannten Benutzeräußerung enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank (121), Abrufen (S6) mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank (122) und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abzurufen, Auswählen (S7) einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen, Generieren (S8) einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen, Ausgeben der ersten Frage und Ermitteln (S10) basierend auf einer auf die erste Frage folgenden Benutzerantwort, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
Programm gemäß Anspruch 10, wobei, wenn in dem Ermittlungsschritt (S10) basierend auf der Benutzerantwort feststellt wird, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abgerufen (S12, S4, S5) und dieselbe als eine zweite Eingabespracheinheit definiert wird und dann mehrerer Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank (122) abgerufen und als mehrere zweite Ausgabespracheinheiten definiert werden; und eine zweite Ausgabespracheinheiten aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählt wird (S7), eine zweite Frage generiert (S8) und ausgegeben wird, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen, und basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt wird (S10), ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht.