-
Technisches Gebiet
-
Die vorliegende Erfindung bezieht sich auf ein System zur Erkennung einer Benutzeräußerung und zur Ausgabe einer Äußerung an den Benutzer und auf Software zur Bereitstellung eines Computers mit notwendigen Funktionen zur Kommunikation mit dem Benutzer.
-
Bisheriger Stand der Technik
-
Bei der Kommunikation zwischen einem Benutzer und einem System können ein Umgebungsgeräusch oder andere verschiedene Ursachen zu einem Fehler durch das System bei der Erkennung einer Benutzeräußerung führen (verhören). Folglich wurde bereits eine Technik zur Sprachausgabe vorgeschlagen, um den Inhalt der Benutzeräußerung in einem System zu bestätigen (siehe zum Beispiel die japanische offen gelegte Patentanmeldung Nr.
JP 2002 - 351 492 A ). Gemäß dem System wird, wenn „Merkmale“, „Merkmalswerte“ und „Abstände zwischen den Merkmalswerten“ für die Wörter festgelegt sind und mehrere Wörter erkannt werden, deren Merkmalswerte voneinander trotz eines gemeinsamen Merkmals verschieden sind und deren Unterschiede zwischen den Merkmalswerten (die Abstände zwischen den Merkmalswerten) jeweils gleich oder größer als ein Grenzwert während einer Kommunikation mit demselben Benutzer sind, eine Äußerung zur Bestätigung der Wörter ausgegeben.
-
Gemäß dem obigen System können jedoch in dem Fall des Auftretens von Verhören die Abstände zwischen den Merkmalswerten in manchen Fällen ungenau berechnet werden. Deshalb gibt es eine Wahrscheinlichkeit, dass der Dialog ohne Beseitigung einer Widersprüchlichkeit fortgesetzt wird, da das System die Benutzeräußerung als „B“ erkennt, was akustisch ähnlich „A“ ist, obwohl der Benutzer „A“ spricht.
-
Die
US 2002/0120452 A1 offenbart ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Äußerung eines Benutzers und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung, wobei ein von dem ersten Sprachabschnitt erkannte Äußerung mit einer gespeicherten Namenliste abgeglichen wird und bei Mehrfachtreffern eine erste Sprachreinheit bezüglich eines ersten Treffers der Mehrfachtreffer abgerufen und von dem zweiten Sprachabschnitt als Äußerung ausgegeben wird.
-
Die der vorliegenden Erfindung zugrundeliegende Aufgabe besteht darin, ein Dialogsystem und ein Programm für einen Computer mit Dialogfunktion bereitzustellen, die es ermöglichen, mit einem Benutzer zu kommunizieren und bei einer drohenden Fehlerkennung einer Äußerung des Benutzers eine Nachfrage auszugeben, die von dem Benutzer gut verständlich ist und die die Anzahl weiterer Nachfragen verringern kann.
-
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst. Die Erfindung wird durch die Merkmale der abhängigen Ansprüche weitergebildet.
-
Gemäß der vorliegenden Erfindung wird ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Äußerung eines Benutzer und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung bereitgestellt, wobei das Dialogsystem umfasst: einen ersten Verarbeitungsabschnitt zum Abrufen einer ersten, in der durch den ersten Sprachabschnitt erkannten Äußerung eines Benutzers enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank, Abrufen mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abzurufen; und einen zweiten Verarbeitungsabschnitt zur Auswahl einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen, zur Generierung einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts, die erste Frage auszugeben, wobei der zweite Verarbeitungsabschnitt basierend auf einer auf die erste Frage folgenden Benutzerantwort feststellt, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
-
Falls es möglich ist, die der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank abzurufen, könnte eine andere Spracheinheit in der Benutzeräußerung anstelle der ersten Eingabespracheinheit enthalten sein. Insbesondere könnte in diesem Fall der erste Sprachabschnitt die erste Eingabespracheinheit so oder so falsch gehört haben. Angesichts dessen wird die auf die erste Eingabespracheinheit bezogene erste Ausgabespracheinheit aus der zweiten Wörterbuchdatenbank abgerufen.
-
Ferner wird die der ersten Ausgabespracheinheit entsprechende erste Frage generiert und ausgegeben. Danach wird ermittelt, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit basierend auf der ersten Antwort, die als die Benutzeräußerung auf die erste Frage erkannt wurde, übereinstimmt. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, während eine Diskrepanz zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
-
„Spracheinheit“ bedeutet ein Satz bestehend aus Buchstaben, Wörtern und mehreren Wörtern, einem langen Satz bestehend aus kurzen Sätzen o. ä.
-
Ein erster Faktor der Faktoren kann den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in bestimmten Massenmedien darstellen und ein zweiter Faktor der Faktoren kann den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellen.
-
Somit wird die erste Ausgabespracheinheit basierend auf dem ersten Faktor ausgewählt, der den Schwierigkeitsgrad bei der Erkennung aus mehreren ersten Ausgabespracheinheiten darstellen, wodurch der Benutzer die ausgewählte erste Ausgabespracheineinheit leichter erkennen kann. Dadurch wird eine geeignete erste Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit Ordnung übereinstimmt, generiert.
-
Zudem kann der Benutzer die ausgewählte erste Ausgabespracheinheit leichter begrifflich oder akustisch erkennen. Dadurch wird eine geeignete erste Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit Ordnung übereinstimmt, generiert.
-
Ferner kann der zweite Verarbeitungsabschnitt die erste Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der ersten Eingabespracheinheit und jeder der mehreren ersten Ausgabespracheinheiten auswählen, wodurch der Benutzer die ausgewählte erste Ausgabespracheinheit von der ersten Eingabespracheinheit akustisch leichter unterscheiden kann.
-
Ferner kann der erste Verarbeitungsabschnitt beim Abrufen der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abrufen:
- - eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der ersten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält;
- - eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt;
- - eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht;
- - eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und
- - eine Spracheinheit fünfter Art, die der ersten Eingabespracheinheit begrifflich ähnlich ist
-
Gemäß dem Dialogsystem der vorliegenden Erfindung ist es möglich, die Auswahlanzahl der ersten Ausgabespracheinheiten zu erhöhen, die die Basis zur Generierung der ersten Frage bilden. Deshalb kann die am besten geeignete Frage hinsichtlich der Bestimmung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert werden.
-
Ferner kann, wenn der zweite Verarbeitungsabschnitt basierend auf der Benutzerantwort feststellt, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, der erste Verarbeitungsabschnitt eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abrufen und dieselbe als eine zweite Eingabespracheinheit definieren und dann mehrere Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank abrufen und als mehrere zweite Ausgabespracheinheiten definieren; und der zweite Verarbeitungsabschnitt eine zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählen, eine zweite Frage generieren, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen und den zweiten Sprachabschnitt dazu veranlassen, die zweite Frage auszugeben, wobei der zweite Verarbeitungsabschnitt basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht.
-
Auf diese Weise werden mehrere Fragen an den Benutzer ausgegeben, um die Benutzerbedeutung zu erfragen. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, mit dem die Diskrepanz zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert werden kann.
-
Zusätzlich kann der zweite Verarbeitungsabschnitt die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der zweiten Eingabespracheinheit und jeder der mehreren zweiten Ausgabespracheinheiten auswählen.
-
Dies ermöglicht die Generierung einer geeigneten zweiten Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt.
-
Zu dem kann ein erster Faktor der Faktoren, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in Massenmedien darstellen und ein zweiter Faktor der Faktoren, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, kann den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellen.
-
Folglich kann die ausgewählte zweite Ausgabespracheinheit von der ersten Eingabespracheinheit akustisch leichter unterschieden werden. Überdies kann die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand von der zweiten Eingabespracheinheit ausgewählt werden. Folglich kann die ausgewählte zweite Ausgabespracheinheit Ordnung von der zweiten Eingabespracheinheit akustisch leichter unterschieden werden.
-
Der erste Verarbeitungsabschnitt kann beim Abrufen der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abrufen:
- - eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der zweiten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält;
- - eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt;
- - eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht;
- - eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und
- - eine Spracheinheit fünfter Art, die der zweiten Eingabespracheinheit begrifflich ähnlich ist
-
Zusätzlich kann, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit der zweiten Eingabespracheinheit übereinstimmt, der zweite Verarbeitungsabschnitt eine Frage generieren, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt veranlasst, die Frage auszugeben.
-
Gemäß dem Dialogsystem der vorliegenden Erfindung ist es in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, möglich, die Bedeutung erneut zu bestätigen.
-
Gemäß der vorliegenden Erfindung wird eine Programm bereitgestellt, das, wenn es auf einem Computer läuft oder auf einem Computer geladen wird, den Computer dazu veranlasst folgende Schritte auszuführen:
- - Erkennen einer Äußerung eines Benutzers,
- - Abrufen einer ersten, in der erkannten Benutzeräußerung enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank,
- - Abrufen mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abzurufen,
- - Auswählen einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen,
- - Generieren einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen,
- - Ausgeben der ersten Frage und
- - Ermitteln basierend auf einer auf die erste Frage folgenden Benutzerantwort, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
-
Überdies kann, wenn in dem Ermittlungsschritt basierend auf der Benutzerantwort feststellt wird, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abgerufen und dieselbe als eine zweite Eingabespracheinheit definiert werden und dann mehrerer Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank abgerufen und als mehrere zweite Ausgabespracheinheiten definiert werden; und eine zweite Ausgabespracheinheiten aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählt, eine zweite Frage generiert und ausgegeben werden, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen, und basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt werden, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht..
-
Somit ist der Computer mit der Funktion ausgestattet, mehrere Fragen zu generieren, um die Benutzerbedeutung zu erfragen. Folglich ist der Computer mit einer Funktion ausgestattet, mit dem Benutzer zu kommunizieren, während die Benutzerbedeutung genauer verstanden und eine Diskrepanz zwischen der Benutzeräußerung und der durch das System erkannten Sprache zuverlässiger verhindert wird.
-
Figurenliste
-
- 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung.2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß
gemäß der vorliegenden Erfindung.
-
Beste Art zur Ausführung der Erfindung
-
Bevorzugte Ausführungsformen eines Dialogsystems und einer Dialogsoftware gemäß der vorliegenden Erfindung werden unten unter Verwendung der beiliegenden Zeichnungen beschrieben.
-
In 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung dargestellt. In 2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß der vorliegenden Erfindung dargestellt.
-
Das Dialogsystem 100 (hierin nachstehend als „System“ bezeichnet) besteht aus einem Computer als Hardware, der in einem an einem Kraftfahrzeug angebrachten Navigationssystem 10 (Navi-System) eingebaut ist und aus „Dialogsoftware“ der vorliegenden Erfindung, die in einem Speicher des Computers gespeichert ist.
-
Das Dialogsystem 100 umfasst einen ersten Sprachabschnitt 101, einen zweiten Sprachabschnitt 102, einen ersten Verarbeitungsabschnitt 111, einen zweiten Verarbeitungsabschnitt 112, eine erste Wörterbuchdatenbank 121 und eine zweite Wörterbuchdatenbank 122.
-
Der erste Sprachabschnitt 101, der aus einem Mikrofon (nicht dargestellt) o. ä. besteht, erkennt eine Benutzeräußerung basierend auf einer Eingabestimme gemäß einer bekannten Technik, wie zum Beispiel einem Hidden-Markov-Modell.
-
Der zweite Sprachabschnitt 102, der aus einem Lautsprecher (nicht dargestellt) o. ä. besteht, gibt eine Stimme (oder eine Äußerung) aus.
-
Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten von Spracheinheiten bezüglich einer Eingabespracheinheit erster Ordnung aus der zweiten Wörterbuchdatenbank 122 ab und erkennt diese als Ausgabespracheinheiten erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheiten, die in der durch den ersten Sprachabschnitt 101 erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank 121 abzurufen. Ferner erkennt der erste Verarbeitungsabschnitt 111 eine Ausgabespracheinheit höherer Ordnung, falls erforderlich, wie später beschrieben werden wird.
-
Der zweite Verarbeitungsabschnitt 112 wählt eine aus mehreren Arten der durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheiten erster Ordnung basierend auf der Eingabespracheinheit erster Ordnung aus. Außerdem generiert der zweite Verarbeitungsabschnitt 112 eine Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und veranlasst den zweiten Sprachabschnitt 102, dieselbe basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung auszugeben. Noch weiter stellt der zweite Verarbeitungsabschnitt 112 fest, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf der durch den ersten Sprachabschnitt 101 erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt. Ferner generiert der zweite Verarbeitungsabschnitt 112 eine Frage höherer Ordnung, falls erforderlich, wie später beschrieben wird und bestätigt die Benutzerbedeutung basierend auf einer Antwort höherer Ordnung.
-
Die erste Wörterbuchdatenbank 121 speichert mehrere Spracheinheiten, die als Eingabespracheinheiten (i+1)-ter Ordnung (i = 1, 2, --) durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
-
Die zweite Wörterbuchdatenbank 122 speichert mehrere Spracheinheiten, die als Ausgabespracheinheiten i-ter Ordnung durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
-
Funktionen des Systems 100 mit der obigen Anordnung werden unter Verwendung der 2 beschrieben.
-
Zuerst gibt der zweite Sprachabschnitt 102 als Antwort auf eine Benutzerbedienung des Navi-Systems 10 zum Zweck der Einstellung eines Ziels eine Anfangsäußerung „Wo befindet sich Ihr Ziel?“ aus (2: S1). Als Antwort auf die Anfangsäußerung spricht der Benutzer ein Wort, das ein Ziel bedeutet, und der erste Sprachabschnitt 101 erkennt dann diese Äußerung (2: S2). Zu diesem Zeitpunkt wird der Index i, der die Ordnung der Eingabespracheinheit, Ausgabespracheinheit, Frage und Antwort darstellt, auf 1 gesetzt (2: S3).
-
Außerdem wandelt der erste Verarbeitungsabschnitt 111 die durch den ersten Sprachabschnitt 101 erkannte Äußerung in eine Spracheinheitenkette um und extrahiert dann eine in der ersten Wörterbuchdatenbank 121 als „Bezirksbezeichnung“, „Gebäudebezeichnung“ o. ä. klassifizierte Spracheinheit aus der Spracheinheit und erkennt dieselbe als eine Eingabespracheinheit i-ter Ordnung xi (2: S4). Die Klassifizierung der aus der Spracheinheitenkette extrahierten Spracheinheit basiert auf einem Gebiet, in dem eine Navi-Einheit 1 dem Benutzer eine Fahrroute bis zum Ziel zeigt.
-
Ferner ermittelt der erste Verarbeitungsabschnitt
111, ob eine der Eingabespracheinheit i-ter Ordnung x
i akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank
121 abgerufen werden kann, mit anderen Worten, ob das akustisch ähnliche Wort in der ersten Wörterbuchdatenbank
121 gespeichert ist (
2:
S5). Die einander akustisch ähnlichen Spracheinheiten x
i und x
j bedeuten, dass der durch die folgende Gleichung (1) definierte akustische Abstand pd(x
i, x
j) kleiner als ein Grenzwert ist:
-
In der Gleichung (1) ist |x| die Zahl der Phoneme (oder phonetischer Einheiten), die in der Spracheinheit x enthalten ist. Der Begriff „Phonem“ bedeutet die kleinste Schalleinheit, die in einer Sprache verwendet wird, definiert vom Standpunkt einer Diskriminierungsfunktion.
-
Ferner ist ed(xi, xj) ein Bearbeitungsabstand zwischen der Spracheinheit xi und xj, und wird durch DP-Matching erhalten unter der Bedingung, dass die Kosten auf 1 gesetzt sind, wenn sich die Zahl der Moras (der Begriff „Mora“ bedeutet die kleinste Einheit einer japanischen Aussprache) oder der Phoneme verändert, und dass die Kosten auf 2 gesetzt sind, wenn sich die Zahl der Moras oder der Phoneme zum Zeitpunkt des Einfügens, Löschens oder Ersetzens von Phonemen bei der Umwandlung einer Phonemkette der Spracheinheit xi in eine Phonemkette der Spracheinheit xj nicht verändert.
-
Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten der Ausgabespracheinheiten i-ter Ordnung yki = yk(xi) (k = 1 bis 5), die in Beziehung zu der Eingabespracheinheit i-ter Ordnung xi stehen, aus der zweiten Wörterbuchdatenbank 122 ab (2: S6), wenn er feststellt, dass eine der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 - JA).
-
Insbesondere ruft der erste Verarbeitungsabschnitt 111 eine Spracheinheit, die einen andersartigen Teil δi = δ(xi, zi) von der akustisch ähnlichen Spracheinheit zi in der Eingabespracheinheit i-ter Ordnung xi enthält, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung erster Art y1i = yi(xi). Zum Beispiel wird, wenn die Eingabespracheinheit i-ter Ordnung xi ein Wort ist, das eine Ortsbezeichnung „Boston“ angibt, und die akustisch ähnliche Spracheinheit zi ein Wort ist, das eine Ortsbezeichnung „Austin“ angibt, „b“ des Anfangsbuchstabens der Eingabespracheinheit i-ter Ordnung xi als der andersartige Teil δi extrahiert. Zusätzlich wird „bravo“ als eine Spracheinheit abgerufen, die den andersartigen Teil δi enthält.
-
Überdies ruft der erste Verarbeitungsabschnitt
111 eine von der Lesung p
1i = p
1(δ
i) (ursprüngliche Lesung) andersartige Lesung p
2i = p
2(δ
i) des andersartigen Teils δ
i aus der zweiten Wörterbuchdatenbank
122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung zweiter Art y
2i = y
2(x
i). Zum Beispiel gibt es im Japanischen unterschiedliche Lesungen und zwar die chinesische Lesung und die japanische Lesung in den meisten Kanji. Wenn deshalb die ursprüngliche Lesung des Kanji „
“, das der andersartige Teil δ
i ist, in der chinesischen Lesung „gin“ ist, wird die japanische Lesung des Kanji „shirogane“ als die Ausgabespracheinheit i-ter Ordnung zweiter Art y
2i erkannt.
-
Ferner ruft der erste Verarbeitungsabschnitt
111 die Lesung p(f) einer Spracheinheit f = f(δ
i), was den andersartigen Teil δ
i in einer anderen Spracheinheit bedeutet, aus der zweiten Wörterbuchdatenbank
122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung dritter Art y
3i = y
3(x
i). Wenn zum Beispiel ein Kanji „
“ im Japanischen der andersartige Teil δ
i ist, wird die Lesung „sirubaa“ des englischen Worts „Silber“, welches das zuvor genannte Kanji bedeutet, als die Ausgabespracheinheit i-ter Ordnung dritter Art y
3i erkannt.
-
Wenn außerdem die Lesung p(δ
i) des andersartigen Teils δ
i aus mehreren Moras (oder Phonemen) besteht, ruft der erste Verarbeitungsabschnitt
111 ein Phonemzeichen, das eine Mora darstellt, wie zum Beispiel die erste Mora oder einen die Mora erläuternden Satz, unter mehreren Moras aus der zweiten Wörterbuchdatenbank
122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung vierter Art y
4i = y
4(x
i). Wenn zum Beispiel ein Kanji „
“ im Japanischen der andersartige Teil δ
i ist, wird das erste Morazeichen „ni“ als die Ausgabespracheinheit i-ter Ordnung vierter Art y
4i in der Lesung p(δ
i) „nishi“ erkannt. Zusätzlich gibt es Kategorien: Resonanzlaut, P-Laut (Konsonant: p) und Dumpflaut (Konsonant: g, z, d, b) in japanischen Moras. Deshalb werden die Wörter „Resonanzlaut“, „P-Laut“ und „Dumpflaut“, die die Kategorien angeben, als die Ausgabespracheinheit i-ter Ordnung vierter Art y
4i erkannt.
-
Ferner ruft der erste Verarbeitungsabschnitt 111 eine in Bezug zu der Eingabespracheinheit i-ter Ordnung xi stehende Spracheinheit aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung fünfter Art y5i = y5(xi). Zum Beispiel wird eine durch die Eingabespracheinheit i-ter Ordnung xi dargestellte Spracheinheit (ein Ortsname) g = g(xi), die ein Gebiet einschließlich des Ziels darstellt, als die Ausgabespracheinheit i-ter Ordnung fünfter Art y5i erkannt.
-
Mehrere Spracheinheiten können als Ausgabespracheinheit i-ter Ordnung k-ter Art erkannt werden. Wenn zum Beispiel der andersartige Teil δ
i ein Kanji
ist, können sowohl ein Satz „
(Schweigen ist Gold)“, der als historisches Idiom klassifiziert ist als auch ein Name
, der als Prominentenname klassifiziert ist, als die Ausgabespracheinheit i-ter Ordnung erster Art y
1i erkannt werden.
-
Wenn auf der anderen Seite der erste Verarbeitungsabschnitt 111 feststellt, dass die der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit nicht in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 - NEIN), wird die nächste Verarbeitung gemäß einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung xi für die Festlegung der Benutzerzielbezeichnung verwendet wird. Dabei gibt zum Beispiel der zweite Sprachabschnitt 102 eine Äußerung aus „Dann zeige ich Ihnen die Route zum Ziel xi“ o. ä. Zusätzlich führt das Navi-System 10 das Einstellen der Verarbeitung für die Route zu dem durch die Eingabespracheinheit i-ter Ordnung xi angegeben Ziel durch.
-
Anschließend wählt der zweite Verarbeitungsabschnitt 112 eine aus der ersten bis fünften durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheit i-ter Ordnung yki aus (2: S7).
-
Insbesondere berechnet der zweite Verarbeitungsabschnitt
112 eine Indexmaßzahl
1 i-ter Ordnung (y
ki) in Übereinstimmung mit der folgenden Gleichung (2) in Bezug auf die verschiedenen Ausgabespracheinheiten i-ter Ordnung y
ki und wählt dann die Ausgabespracheinheit i-ter Ordnung y
ki mit der höchsten Indexmaßzahl1 i-ter Ordnung (y
ki) aus.
-
In der Gleichung (2) sind W1 bis W4 Gewichtungsfaktoren. c1(yki) ist ein erster Faktor, der den Schwierigkeitsgrad (Bekanntschaftsgrad) bei der begrifflichen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art yki darstellt. Als erster Faktor wird die Trefferzahl aus einer Internetsuchmaschine, wobei die Ausgabespracheinheit i-ter Ordnung yki als Stichwort verwendet wird, die Auftrittshäufigkeit in Massenmedien, wie zum Beispiel große Zeitungen und Rundfunk o. ä., verwendet. Zusätzlich ist c2(yk i) ein zweiter Faktor, der den Schwierigkeitsgrad (eine Eindeutigkeit bei der Aussprache oder Hörbarkeit) bei der akustischen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art yki darstellt. Als zweiter Faktor wird zum Beispiel der Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl (zum Beispiel 10) anderer Spracheinheiten verwendet (Homonyme usw.). pd(x, y) ist ein durch die Gleichung (1) definierter akustischer Abstand zwischen der Spracheinheit x und y.
-
Anschließend generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi = Q(yi), um die Benutzerbedeutung basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung yki zu erfragen, und veranlasst den zweiten Sprachabschnitt 102, dieselbe auszugeben (2: S8).
-
Zum Beispiel generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δi, der in y1i enthalten ist?“, in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung erster Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch den andersartigen Teil δi verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi (zum Beispiel eine in der Sprache enthaltene Ortsbezeichnung oder Gebäudebezeichnung) richtig oder falsch ist.
-
Zusätzlich generiert er die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben, der wie p2i gelesen (oder ausgesprochen) wird?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung zweiter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die von der ursprünglichen Lesung p1i verschiedene Lesung p2i des andersartigen Teils δi verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
-
Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δi, der p in einer fremden Sprache bedeutet (zum Beispiel Englisch für Japanischsprecher)?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung dritter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die Lesung p(f) der Spracheinheit f = f(δi), die den andersartigen Teil δi in einer anderen Spracheinheit bedeutet, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
-
Noch überdies generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen n-ten Buchstaben, der wie p(δi) ausgesprochen wird?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung vierter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch einen Buchstaben, der eine Mora oder einen die Mora erläuternden Satz in der Lesung p(δi) des andersartigen Teils δi darstellt, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
-
Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Ist das Ziel in g enthalten?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung fünfter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die begrifflich in Bezug zu der Eingabespracheinheit i-ter Ordnung xi stehenden Spracheinheit verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
-
Überdies erkennt der erste Sprachabschnitt 101 eine Antwort i-ter Ordnung Ai als Benutzeräußerung auf die Frage i-ter Ordnung Qi (2: S9). Zusätzlich ermittelt der zweite Verarbeitungsabschnitt 112, ob die Antwort i-ter Ordnung Ai positiv gleich „JA“ oder negative gleich „NEIN“ ist (2: S10).
-
Wenn dann der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung Ai positiv ist (2: S10 - JA), wird die nächste Verarbeitung in Übereinstimmung mit einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung xi für die Festlegung der Benutzerzielbezeichnung verwendet wird.
-
Wenn auf der anderen Seite der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung Ai negativ ist (2: S10 - NEIN), wird festgestellt, ob eine Bedingung erfüllt ist, dass der Index i kleiner als eine gegebene Zahl j (>2) ist (2: S11). Wenn die Bedingung erfüllt ist (2: S11 - JA), wird der Index um 1 erhöht (2: S12) und die Verarbeitung von S4 bis S10 wiederholt. Bei dieser Verarbeitung ruft der erste Verarbeitungsabschnitt 111 eine der Eingabespracheinheit (i-1)-ter Ordnung xi-1 (i ≥ 2) akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 ab und erkennt dieselbe als die Eingabespracheinheit i-ter Ordnung xi. Die akustisch ähnliche Spracheinheit zi-1 der Eingabespracheinheit (i-1)-ter Ordnung xi-1 kann ebenso als die Eingabespracheinheit i-ter Ordnung xi erkannt werden. Sofern außerdem die Bedingung nicht erfüllt ist (2: S11 - NEIN), wird die Kommunikation mit dem Benutzer erneut von Beginn an auf eine solche Weise gestartet, dass der zweite Sprachabschnitt 102 eine Anfangsäußerung neu ausgibt (2: S1).
-
Gemäß dem Dialogsystem 100 (und der Dialogsoftware), das die obigen Funktionen verwirklicht, wird eine aus mehreren Arten der Ausgabespracheinheiten i-ter Ordnung yki basierend auf dem ersten Faktor c1, der den Schwierigkeitsgrad bei der begrifflichen Erkennung darstellt, und dem zweiten Faktor c2, der den Schwierigkeitsgrad bei der akustischen Erkennung darstellt, mit Bezug auf jede der Ausgabespracheinheiten i-ter Ordnung yki ausgewählt (2: S6, S7). Zusätzlich wird die Frage i-ter Ordnung Qi basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung yki generiert (2: S8). Dadurch wird die am besten geeignete Frage i-ter Ordnung Qi hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung xi übereinstimmt, generiert. Wenn festgestellt wird, dass eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Systemerkennung besteht, wird eine neue Frage generiert (2: S10 - NEIN, S4 bis S10). Deshalb ist es möglich, einen Dialog zwischen dem Benutzer und dem System 100 bereitzustellen, während die Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System 100 erkannten Sprache zuverlässig vermieden wird.
-
Sofern ferner die Benutzerbedeutung nicht mit der Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, wird eine Anfangsfrage generiert, um den Benutzer aufzufordern, erneut zu sprechen (2: S11 - NEIN, S1). Dadurch kann in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, die Bedeutung erneut bestätigt werden.
-
Ein erstes Dialogbeispiel zwischen dem Benutzer und dem Dialogsystem 100 wird unten gemäß der obigen Verarbeitung beschrieben, wobei U die Äußerung des Benutzers und S die Äußerung des Dialogsystems 100 ist.
-
(Erstes Dialogbeispiel)
-
- S0: Wo liegt Ihr Ziel?
- U0: Kinkakuji (
: Goldener Pavillon).
- S1: Enthält die Zielbezeichnung einen Buchstaben „
“, der Silber in Englisch bedeutet?
- U1: Nein.
- S2: Nun, enthält die Zielbezeichnung einen Buchstaben
wie er in „
(Schweigen ist Gold)“ verwendet wird?
- U2: Ja.
- S3: Dann zeige ich Ihnen die Route nach Kinkakuji.
-
Die Äußerung S0 des Systems 100 entspricht einer Anfangsfrage (2: S1).
-
Die Äußerung
S1 des Systems
100 entspricht der Frage erster Ordnung Q
1 (
2:
S8). Die Frage erster Ordnung Q
1 wird gemäß den folgenden Tatsachen generiert: „Ginkakuji (Silberner Pavillon)“ wird erkannt (falsch erkannt) anstelle von „Kinkakuji“ als Eingabespracheinheit erster Ordnung x
1 (
2:
S4); „Kinkakuji“ wird als akustisch ähnliche Spracheinheit z
1 erkannt (
2:
S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y
11 bis y
51 werden als jene erkannt, die in Bezug zu dem Kanji
stehen, das ein andersartiger Teil δ
1 zwischen den zwei Spracheinheiten x
1 und z
1 ist (
2:
S6); und die Lesung des japanischen Worts „sirubaa“ wird als eines ausgewählt, das dem englischen Wort „Silber“ entspricht, das den andersartigen Teil δ
1 als Ausgabespracheinheit erster Ordnung dritter Art y
31 darstellt (
2:
S7).
-
Die Äußerung
S2 des Systems
100 entspricht der Frage zweiter Ordnung Q
2 (
2:
S8). Die Frage zweiter Ordnung Q
2 wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A
1 erkannte Benutzeräußerung U
1 ist negativ (
2:
S10 - NEIN); „Kinkakuji“ wird als Eingabespracheinheit zweiter Ordnung x
2 erkannt (
2:
S4); „Ginkakuji“ wird als akustisch ähnliche Spracheinheit z
2 erkannt (
2:
S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y
12 bis y
52 werden als jene erkannt, die in Bezug zu dem Kanji
stehen, das ein andersartiger Teil δ
2 zwischen den zwei Spracheinheiten x
2 und z
2 ist (
2:
S6); und das historische Idiom
, das den andersartigen Teil δ
2 enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y
12 ausgewählt (
2:
S7).
-
Gemäß der positiven Benutzeräußerung U2, die als Antwort zweiter Ordnung A2 erkannt wird (2: S10 - JA), gibt das System 100 die Äußerung U4 basierend auf der Feststellung aus, dass das Benutzerziel Kinkakuji ist.
-
Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Ginkakuji“ ist, obwohl das Benutzerziel „Kinkakuji“ ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Kinkakuji ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Kinkakuji, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.
-
Ferner wird unten ein zweites Dialogbeispiel zwischen dem Benutzer und dem System 100 gemäß der obigen Verarbeitung beschrieben.
-
(Zweites Dialogbeispiel)
-
- S0: Können Sie mir die Abfahrtsstadt nennen?
- U0: Von Austin.
- S1: Ist der erste Buchstabe der Stadt „b“ wie „bravo“?
- U1: Nein.
- S2: Ist dann der erste Buchstabe der Stadt „a“ wie „alpha“?
- U2: Ja.
-
Die Äußerung S0 des Systems 100 entspricht der Anfangsfrage (2: S8).
-
Die Äußerung S1 des Systems 100 entspricht der Frage erster Ordnung Q1 (2: S1). Die Frage erster Ordnung Q1 wird gemäß den folgenden Tatsachen generiert: „Boston“ wird erkannt (falsch erkannt) anstelle von „Austin“ als Eingabespracheinheit erster Ordnung x1 (2: S4); „Austin“ wird als akustisch ähnliche Spracheinheit z1 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y11 bis y51 werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „b“ stehen, der ein andersartiger Teil δ1 zwischen zwei Spracheinheiten x1 und z1 ist (2: S6); und das englische Wort „bravo“ wird als eines ausgewählt, das den andersartigen Teil δ1 als die Ausgabespracheinheit erster Ordnung erster Art y11 darstellt (2: S7).
-
Die Äußerung S2 des Systems 100 entspricht der Frage zweiter Ordnung Q2 (2: S8). Die Frage zweiter Ordnung Q2 wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A1 erkannte Benutzeräußerung U1 ist negativ (2: S10 - NEIN); „Austin“ wird als Eingabespracheinheit zweiter Ordnung x2 erkannt (2: S4); „Boston“ wird als akustisch ähnliche Spracheinheit z2 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y12 bis y52 werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „a“ stehen, der ein andersartiger Teil δ2 zwischen zwei Spracheinheiten x2 und z2 ist (2: S6); und das englische Wort „alpha“, das den andersartigen Teil δ2 enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y12 ausgewählt (2: S7).
-
Gemäß der positiven Benutzeräußerung U2, die als Antwort zweiter Ordnung A2 erkannt wird (2: S10 - JA), gibt das System 100 die Äußerung basierend auf der Feststellung aus, dass das Benutzerziel Austin ist.
-
Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Boston“ ist, obwohl das Benutzerziel „Austin“ ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Austin ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Austin, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.