DE112006000225T5

DE112006000225T5 - Dialogsystem und Dialogsoftware

Info

Publication number: DE112006000225T5
Application number: DE112006000225T
Authority: DE
Inventors: Mikio Nakano; Hiroshi Okuno; Kazunori Komatani
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2005-02-28
Filing date: 2006-02-27
Publication date: 2007-12-13
Anticipated expiration: 2026-02-28
Also published as: JPWO2006093092A1; WO2006093092A1; US20080065371A1; DE112006000225B4; JP4950024B2

Abstract

Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Benutzeräußerung und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung, wobei das Dialogsystem umfasst:
einen ersten Verarbeitungsabschnitt zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und
einen zweiten Verarbeitungsabschnitt zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts, die Frage basierend auf einer durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit erster Ordnung auszugeben, und zur Feststellung ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch den ersten Sprachabschnitt erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf ein System zur Erkennung einer Benutzeräußerung und zur Ausgabe einer Äußerung an den Benutzer und auf Software zur Bereitstellung eines Computers mit notwendigen Funktionen zur Kommunikation mit dem Benutzer.
Bisheriger Stand der Technik
Beider Kommunikation zwischen einem Benutzer und einem System können ein Umgebungsgeräusch oder andere verschiedene Ursachen zu einem Fehler durch das System bei der Erkennung einer Benutzeräußerung führen (verhören). Folglich wurde bereits eine Technik zur Sprachausgabe vorgeschlagen, um den Inhalt der Benutzeräußerung in einem System zu bestätigen (siehe zum Beispiel die japanische offen gelegte Patentanmeldung Nr. 2002-351492). Gemäß dem System wird, wenn „Merkmale", „Merkmalswerte" und „Abstände zwischen den Merkmalswerten" für die Wörter festgelegt sind und mehrere Wörter erkannt werden, deren Merkmalswerte voneinander trotz eines gemeinsamen Merkmals verschieden sind und deren Unterschiede zwischen den Merkmalswerten (die Abstände zwischen den Merkmalswerten) jeweils gleich oder größer als ein Grenzwert während einer Kommunikation mit demselben Benutzer sind, eine Äußerung zur Bestätigung der Wörter ausgegeben.
Gemäß dem obigen System können jedoch in dem Fall des Auftretens von Verhören die Abstände zwischen den Merkmalswerten in manchen Fällen ungenau berechnet werden. Deshalb gibt es eine Wahrscheinlichkeit, dass der Dialog ohne Beseitigung einer Widersprüchlichkeit fortgesetzt wird, da das System die Benutzeräußerung als „B" erkennt, was akustisch ähnlich „A" ist, obwohl der Benutzer „A" spricht.
Daher ist es ein Ziel der vorliegenden Erfindung, ein System bereitzustellen, das in der Lage ist, mit einem Benutzer zu kommunizieren, während eine Widersprüchlichkeit zwischen einer Benutzeräußerung und einer erkannten Sprache zutreffender beseitigt wird, und Software bereitzustellen, die einen Computer mit Dialogfunktionen ausstattet.
Offenbarung der Erfindung
Um die obige Aufgabe zu lösen wird gemäß einem Gesichtspunkt der vorliegenden Erfindung ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Benutzeräußerung und einem zweiten Sprachabschnitt zur Sprachausgabe bereitgestellt, wobei das Dialogsystem umfasst: einen ersten Verarbeitungsabschnitt zum Abrufen einer Spracheinheit, die sich auf eine Eingabespracheinheit erster Ordnung bezieht, aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einen zweiten Verarbeitungsabschnitt zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen, und zur Veranlassung des zweiten Sprachabschnitts, die Frage basierend auf einer durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit erster Ordnung auszugeben, und zur Feststellung ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch den ersten Sprachabschnitt erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
Falls es möglich ist, die der „Eingabespracheinheit erster Ordnung" akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank abzurufen, könnte eine andere Spracheinheit in der Benutzeräußerung anstelle der Eingabespracheinheit erster Ordnung enthaften sein. Insbesondere könnte in diesem Fall der erste Sprachabschnitt die Eingabespracheinheit erster Ordnung so oder so falsch gehört haben. Angesichts dessen wird die auf die Eingabespracheinheit erster Ordnung bezogene „Ausgabespracheinheit erster Ordnung" aus der zweiten Wörterbuchdatenbank abgerufen.
Ferner wird die der Ausgabespracheinheit erster Ordnung entsprechende „Frage erster Ordnung" generiert und ausgegeben. Danach wird ermittelt, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf der „Antwort erster Ordnung", die als die Benutzeräußerung auf die Frage erster Ordnung erkannt wurde, übereinstimmt. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, während eine Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
„Spracheinheit" bedeutet ein Satz bestehend aus Buchstaben, Wörtern und mehreren Wörtern, einem langen Satz bestehend aus kurzen Sätzen o. ä.
Ferner ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten erster Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine der mehreren durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheiten erster Ordnung basierend auf Faktoren auswählt, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren Ausgabespracheinheiten erster Ordnung darstellen, und die Frage erster Ordnung basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung generiert.
Gemäß dem Dialogsystem der vorliegenden Erfindung wird die Ausgabespracheinheit erster Ordnung basierend auf dem Faktor ausgewählt, der den Schwierigkeitsgrad bei der Erkennung aus mehreren Ausgabespracheinheiten erster Ordnung darstellt, wodurch der Benutzer die ausgewählte Ausgabespracheineinheit erster Ordnung leichter erkennen kann. Dadurch wird eine geeignete Frage erster Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert.
Ferner ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten erster Ordnung, die durch den ersten Verarbeitungsabschnitt erkannt wurden, basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der mehreren Ausgabespracheinheiten erster Ordnung auswählt.
Gemäß dem Dialogsystem der vorliegenden Erfindung kann der Benutzer die ausgewählte Ausgabespracheinheit erster Ordnung leichter begrifflich oder akustisch erkennen. Dadurch wird eine geeignete Frage erster Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert.
Ferner ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten erster Ordnung basierend auf dem akustischen Abstand zwischen der Eingabespracheinheit erster Ordnung und jeder der mehreren Ausgabespracheinheiten erster Ordnung, die durch den ersten Verarbeitungsabschnitt erkannt wurden, auswählt.
Gemäß dem Dialogsystem der vorliegenden Erfindung wird die Ausgabespracheinheit erster Ordnung aus mehreren Ausgabespracheinheiten erster Ordnung basierend auf den akustischen Abständen von den Eingabespracheinheiten erster Ordnung ausgewählt, wodurch der Benutzer die ausgewählte Ausgabespracheinheit erster Ordnung von der Eingabespracheinheit erster Ordnung akustisch leichter unterscheiden kann.
Ferner ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt als Ausgabespracheinheit erster Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit erster Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderem Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit erster Ordnung begrifflich ähnlich ist.
Noch weiter ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten erster Ordnung erkennt.
Gemäß dem Dialogsystem der vorliegenden Erfindung ist es möglich, die Auswahlanzahl der Ausgabespracheinheiten erster Ordnung zu erhöhen, die die Basis zur Generierung der Frage erster Ordnung bilden. Deshalb kann die am besten geeignete Frage hinsichtlich der Bestimmung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert werden.
Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, dann: der erste Verarbeitungsabschnitt eine der Eingabespracheinheit i-ter Ordnung akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abruft und dieselbe als eine Eingabespracheinheit (i+1)-ter Ordnung erkennt und eine Spracheinheit bezüglich der Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank abruft und dieselbe als eine Ausgabespracheinheit (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine Frage (i+1)-ter Ordnung generiert, um die Benutzerbedeutung zu erfragen, und den zweiten Sprachabschnitt veranlasst, dieselbe basierend auf der durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben und feststellt, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch den ersten Sprachabschnitt als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.
Gemäß dem Dialogsystem der vorliegenden Erfindung wird die zur Eingabespracheinheit (i+1)-ter Ordnung gehörende „Ausgabespracheinheit (i+1)-ter Ordnung" aus der zweiten Wörterbuchdatenbank angesichts der Tatsache abgerufen, dass die „Eingabespracheinheit (i+1)-ter Ordnung" als eine der Eingabespracheinheit i-ter Ordnung akustisch ähnlichen Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, in der Benutzeräußerung enthalten sein könnte. Überdies wird die „Frage (i+1)-ter Ordnung" generiert und basierend auf der Ausgabespracheinheit (i+1)-ter Ordnung ausgegeben. Danach wird festgestellt, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf der „Antwort (i+1)-ter Ordnung", die als eine Benutzeräußerung auf die Frage (i+1)-ter Ordnung erkannt wird, übereinstimmt. Auf diese Weise werden mehrere Fragen an den Benutzer ausgegeben, um die Benutzerbedeutung zu erfragen. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, während die Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf Faktoren auswählt, die den Schwierigkeitsgrad bei der Erkennung der jeweils durch den ersten Verarbeitungsabschnitt erkannten mehreren Ausgabespracheinheiten (i+1)-ter Ordnung darstellen, und eine Frage (i+1)-ter Ordnung basierend auf den ausgewählten Ausgabespracheinheiten (i+1)-ter Ordnung generiert.
Gemäß dem Dialogsystem der vorliegenden Erfindung wird die Ausgabespracheinheit (i+1)-ter Ordnung basierend auf den Faktoren ausgewählt, die den Schwierigkeitsgrad bei der Erkennung aus den mehreren Ausgabespracheinheiten (i+1)-ter Ordnung darstellen, wodurch der Benutzer die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung leichter erkennen kann. Dies ermöglicht die Generierung einer geeigneten Frage (i+1)-ter Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Ausgabespracheinheit (i+1)-ter Ordnung übereinstimmt.
Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines gegebenen Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
Gemäß dem Dialogsystem der vorliegenden Erfindung kann der Benutzer die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung leichter begrifflich oder akustisch erkennen. Dies ermöglicht die Generierung einer geeigneten Frage (i+1)-ter Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung übereinstimmt.
Noch weiter ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines gegebenen Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
Gemäß dem Dialogsystem der vorliegenden Erfindung kann die Ausgabespracheinheit (i+1)-ter Ordnung aus mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf dem akustischen Abstand von der Eingabespracheinheit i-ter Ordnung ausgewählt werden. Folglich kann die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung von der Eingabespracheinheit i-ter Ordnung akustisch leichter unterschieden werden. Überdies kann die Ausgabespracheinheit (i+1)-ter Ordnung aus den mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf dem akustischen Abstand von der Eingabespracheinheit (i+1)-ter Ordnung ausgewählt werden. Folglich kann die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung von der Eingabespracheinheit (i+1)-ter Ordnung akustisch leichter unterschieden werden.
Ferner ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt als eine Ausgabespracheinheit zweiter Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit (i+1)-ter Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderem Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit (i+1)-ter Ordnung begrifflich ähnlich ist.
Noch weiter ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten (i+1)-ter Ordnung erkennt.
Gemäß dem Dialogsystem der vorliegenden Erfindung ist es möglich, die Auswahlanzahl der Ausgabespracheinheiten (i+1)-ter Ordnung zu erhöhen, die die Basis zur Generierung der Frage (i+1)-ter Ordnung bilden. Deshalb kann die am besten geeignete Frage (i+1)-ter Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung übereinstimmt, generiert werden.
Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, der zweite Verarbeitungsabschnitt eine Frage generiert, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt veranlasst, die Frage auszugeben.
Gemäß dem Dialogsystem der vorliegenden Erfindung ist es in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, möglich, die Bedeutung erneut zu bestätigen.
Um die zuvor genannte Aufgabe zu lösen wird gemäß einem anderen Gesichtspunkt der vorliegenden Erfindung eine Dialogsoftware bereitgestellt, die in einer Computerspeichereinrichtung gespeichert wird, mit einer ersten Sprachfunktion zur Erkennung einer Benutzeräußerung und einer zweiten Sprachfunktion zur Ausgabe einer Äußerung, worin die Dialogsoftware den Computer ausstattet mit: einer ersten Verarbeitungsfunktion zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch die erste Sprachfunktion erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einer zweiten Verarbeitungsfunktion zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen, und zur Ausgabe derselben unter Verwendung der zweiten Sprachfunktion basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit erster Ordnung, und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch die erste Sprachfunktion erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
Gemäß der Dialogsoftware der vorliegenden Erfindung ist der Computer mit den Funktionen ausgestattet, mit dem Benutzer zu kommunizieren, während die Widersprüchlichkeit zwischen der Benutzeräußerung (oder -bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
Überdies ist die Dialogsoftware der vorliegenden Erfindung dadurch gekennzeichnet, dass, wenn die zweite Verarbeitungsfunktion feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, die Dialogsoftware den Computer ausstattet mit: einer Funktion als die erste Verarbeitungsfunktion zum Abrufen einer der Eingabespracheinheit i-ter Ordnung akustisch ähnlichen Spracheinheit aus der ersten Wörterbuchdatenbank und Erkennen derselben als eine Eingabespracheinheit (i+1)-ter Ordnung und zum Abrufen einer Spracheinheit bezüglich der Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit (i+1)-ter Ordnung; und einer Funktion als die zweite Verarbeitungsfunktion zur Generierung einer Frage (i+1)-ter Ordnung, um die Benutzerbedeutung zu erfragen, und die zweite Sprachfunktion zu veranlassen, dieselbe basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch die erste Sprachfunktion als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.
Gemäß der Dialogsoftware der vorliegenden Erfindung ist der Computer mit der Funktion ausgestattet, mehrere Fragen zu generieren, um die Benutzerbedeutung zu erfragen. Folglich ist der Computer mit einer Funktion ausgestattet, mit dem Benutzer zu kommunizieren, während die Benutzerbedeutung genauer verstanden wird und eine Widersprüchlichkeit zwischen der Benutzeräußerung und der durch das System erkannten Sprache zuverlässiger verhindert wird.
Kurzbeschreibung der Zeichnungen
1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung.
2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß der vorliegenden Erfindung.
Beste Art zur Ausführung der Erfindung
Bevorzugte Ausführungsformen eines Dialogsystems und einer Dialogsoftware gemäß der vorliegenden Erfindung werden unten unter Verwendung der beiliegenden Zeichnungen beschrieben.
In 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung dargestellt. In 2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß der vorliegenden Erfindung dargestellt.
Das Dialogsystem 100 (hierin nachstehend als „System" bezeichnet) besteht aus einem Computer als Hardware, der in einem an einem Kraftfahrzeug angebrachten Navigationssystem 10 (Navi-System) eingebaut ist und aus „Dialogsoftware" der vorliegenden Erfindung, die in einem Speicher des Computers gespeichert ist.
Das Dialogsystem 100 umfasst einen ersten Sprachabschnitt 101, einen zweiten Sprachabschnitt 102, einen ersten Verarbeitungsabschnitt 111, einen zweiten Verarbeitungsabschnitt 112, eine erste Wörterbuchdatenbank 121 und eine zweite Wörterbuchdatenbank 122.
Der erste Sprachabschnitt 101, der aus einem Mikrofon (nicht dargestellt) o. ä. besteht, erkennt eine Benutzeräußerung basierend auf einer Eingabestimme gemäß einer bekannten Technik, wie zum Beispiel einem Hidden-Markov-Modell.
Der zweite Sprachabschnitt 102, der aus einem Lautsprecher (nicht dargestellt) o. ä. besteht, gibt eine Stimme (oder eine Äußerung) aus.
Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten von Spracheinheiten bezüglich einer Eingabespracheinheit erster Ordnung aus der zweiten Wörterbuchdatenbank 122 ab und erkennt diese als Ausgabespracheinheiten erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheiten, die in der durch den ersten Sprachabschnitt 101 erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank 121 abzurufen. Ferner erkennt der erste Verarbeitungsabschnitt 111 eine Ausgabespracheinheit höherer Ordnung, falls erforderlich, wie später beschrieben werden wird.
Der zweite Verarbeitungsabschnitt 112 wählt eine aus mehreren Arten der durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheiten erster Ordnung basierend auf der Eingabespracheinheit erster Ordnung aus. Außerdem generiert der zweite Verarbeitungsabschnitt 112 eine Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und veranlasst den zweiten Sprachabschnitt 102, dieselbe basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung auszugeben. Noch weiter stellt der zweite Verarbeitungsabschnitt 112 fest, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf der durch den ersten Sprachabschnitt 101 erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt. Ferner generiert der zweite Verarbeitungsabschnitt 112 eine Frage höherer Ordnung, falls erforderlich, wie später beschrieben wird und bestätigt die Benutzerbedeutung basierend auf einer Antwort höherer Ordnung.
Die erste Wörterbuchdatenbank 121 speichert mehrere Spracheinheiten, die als Eingabespracheinheiten (i+1)-ter Ordnung (i = 1, 2, --) durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
Die zweite Wörterbuchdatenbank 122 speichert mehrere Spracheinheiten, die als Ausgabespracheinheiten i-ter Ordnung durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
Funktionen des Systems 100 mit der obigen Anordnung werden unter Verwendung der 2 beschrieben.
Zuerst gibt der zweite Sprachabschnitt 102 als Antwort auf eine Benutzerbedienung des Navi-Systems 10 zum Zweck der Einstellung eines Ziels eine Anfangsäußerung „Wo befindet sich Ihr Ziel?" aus (2: S1). Als Antwort auf die Anfangsäußerung spricht der Benutzer ein Wort, das ein Ziel bedeutet, und der erste Sprachabschnitt 101 erkennt dann diese Äußerung (2: S2). Zu diesem Zeitpunkt wird der Index i, der die Ordnung der Eingabespracheinheit, Ausgabespracheinheit, Frage und Antwort darstellt, auf 1 gesetzt (2: S3).
Außerdem wandelt der erste Verarbeitungsabschnitt 111 die durch den ersten Sprachabschnitt 101 erkannte Äußerung in eine Spracheinheitenkette um und extrahiert dann eine in der ersten Wörterbuchdatenbank 121 als „Bezirksbezeichnung", „Gebäudebezeichnung" o. ä. klassifizierte Spracheinheit aus der Spracheinheit und erkennt dieselbe als eine Eingabespracheinheit i-ter Ordnung x_i (2: S4). Die Klassifizierung der aus der Spracheinheitenkette extrahierten Spracheinheit basiert auf einem Gebiet, in dem eine Navi-Einheit 1 dem Benutzer eine Fahrroute bis zum Ziel zeigt.
Ferner ermittelt der erste Verarbeitungsabschnitt 111, ob eine der Eingabespracheinheit i-ter Ordnung x_i akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 abgerufen werden kann, mit anderen Worten, ob das akustisch ähnliche Wort in der ersten Wörterbuchdatenbank 121 gespeichert ist (2: S5). Die einander akustisch ähnlichen Spracheinheiten x_i und x_j bedeuten, dass der durch die folgende Gleichung (1) definierte akustische Abstand pd(x_i, x_j) kleiner als ein Grenzwert ist: pd(xi, xj) = ed(xi, xj)/ln[min(|xj|, |xj|) + 1] (1)
In der Gleichung (1) ist |x| die Zahl der Phoneme (oder phonetischer Einheiten), die in der Spracheinheit x enthalten ist. Der Begriff „Phonem" bedeutet die kleinste Schalleinheit, die in einer Sprache verwendet wird, definiert vom Standpunkt einer Diskriminierungsfunktion.
Ferner ist ed(x_i, x_j) ein Bearbeitungsabstand zwischen der Spracheinheit x_i und x_j, und wird durch DP-Matching erhalten unter der Bedingung, dass die Kosten auf 1 gesetzt sind, wenn sich die Zahl der Moras (der Begriff „Mora" bedeutet die kleinste Einheit einer japanischen Aussprache) oder der Phoneme verändert, und dass die Kosten auf 2 gesetzt sind, wenn sich die Zahl der Moras oder der Phoneme zum Zeitpunkt des Einfügens, Löschens oder Ersetzens von Phonemen bei der Umwandlung einer Phonemkette der Spracheinheit x_j in eine Phonemkette der Spracheinheit x_j nicht verändert.
Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten der Ausgabespracheinheiten i-ter Ordnung y_ki = y_k(x_i) (k = 1 bis 5), die in Beziehung zu der Eingabespracheinheit i-ter Ordnung x_i stehen, aus der zweiten Wörterbuchdatenbank 122 ab (2: S6), wenn er feststellt, dass eine der Eingabespracheinheit i-ter Ordnung x_i akustisch ähnliche Spracheinheit in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 – JA).
Insbesondere ruft der erste Verarbeitungsabschnitt 111 eine Spracheinheit, die einen andersartigen Teil δ_i = δ(x_i, z_i) von der akustisch ähnlichen Spracheinheit z_i in der Eingabespracheinheit i-ter Ordnung x_i enthält, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung erster Art y_1i = y₁(x_i). Zum Beispiel wird, wenn die Eingabespracheinheit i-ter Ordnung x_i ein Wort ist, das eine Ortsbezeichnung „Boston" angibt, und die akustisch ähnliche Spracheinheit z_i ein Wort ist, das eine Ortsbezeichnung „Austin" angibt, „b" des Anfangsbuchstabens der Eingabespracheinheit i-ter Ordnung x_i als der andersartige Teil δ_i extrahiert. Zusätzlich wird „bravo" als eine Spracheinheit abgerufen, die den andersartigen Teil δ_i enthält.
Überdies ruft der erste Verarbeitungsabschnitt 111 eine von der Lesung p_1i = p₁(δ_i) (ursprüngliche Lesung) andersartige Lesung p_2i = p₂(δ_i) des andersartigen Teils δ_i aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung zweiter Art y_2i = y₂(x_i). Zum Beispiel gibt es im Japanischen unterschiedliche Lesungen und zwar die chinesische Lesung und die japanische Lesung in den meisten Kanji. Wenn deshalb die ursprüngliche Lesung des Kanji
das der andersartige Teil δ_i ist, in der chinesischen Lesung „gin" ist, wird die japanische Lesung des Kanji „shirogane" als die Ausgabespracheinheit i-ter Ordnung zweiter Art y_2i erkannt.
Ferner ruft der erste Verarbeitungsabschnitt 111 die Lesung p(f) einer Spracheinheit f = f(δ_i), was den andersartigen Teil δ_i in einer anderen Spracheinheit bedeutet, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung dritter Art y_3i = y₃(x_i). Wenn zum Beispiel ein Kanji
im Japanischen der andersartige Teil δ_i ist, wird die Lesung „sirubaa" des englischen Worts „Silber", welches das zuvor genannte Kanji bedeutet, als die Ausgabespracheinheit i-ter Ordnung dritter Art y_3i erkannt.
Wenn außerdem die Lesung p(δ_i) des andersartigen Teils δ_i aus mehreren Moras (oder Phonemen) besteht, ruft der erste Verarbeitungsabschnitt 111 ein Phonemzeichen, das eine Mora darstellt, wie zum Beispiel die erste Mora oder einen die Mora erläuternden Satz, unter mehreren Moras aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung vierter Art y_4i = y₄(x_i). Wenn zum Beispiel ein Kanji
im Japanischen der andersartige Teil δ_i ist, wird das erste Morazeichen „ni" als die Ausgabespracheinheit i-ter Ordnung vierter Art y_4i in der Lesung p(δ_i) „nishi" erkannt. Zusätzlich gibt es Kategorien: Resonanzlaut, P-Laut (Konsonant: p) und Dumpflaut (Konsonant: g, z, d, b) in japanischen Moras. Deshalb werden die Wörter „Resonanzlaut", „P-Laut" und „Dumpflaut", die die Kategorien angeben, als die Ausgabespracheinheit i-ter Ordnung vierter Art y_4i erkannt.
Ferner ruft der erste Verarbeitungsabschnitt 111 eine in Bezug zu der Eingabespracheinheit i-ter Ordnung x_i stehende Spracheinheit aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung fünfter Art y_5i = y₅(x_i). Zum Beispiel wird eine durch die Eingabespracheinheit i-ter Ordnung x_i dargestellte Spracheinheit (ein Ortsname) g = g(x_i), die ein Gebiet einschließlich des Ziels darstellt, als die Ausgabespracheinheit i-ter Ordnung fünfter Art y_5i erkannt.
Mehrere Spracheinheiten können als Ausgabespracheinheit i-ter Ordnung k-ter Art erkannt werden. Wenn zum Beispiel der andersartige Teil δ_i ein Kanji
ist, können sowohl ein Satz
Schweigen ist Gold)", der als historisches Idiom klassifiziert ist als auch ein Name
der als Prominentenname klassifiziert ist, als die Ausgabespracheinheit i-ter Ordnung erster Art y_1i erkannt werden.
Wenn auf der anderen Seite der erste Verarbeitungsabschnitt 111 feststellt, dass die der Eingabespracheinheit i-ter Ordnung x_i akustisch ähnliche Spracheinheit nicht in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 – NEIN), wird die nächste Verarbeitung gemäß einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung x₁ für die Festlegung der Benutzerzielbezeichnung verwendet wird. Dabei gibt zum Beispiel der zweite Sprachabschnitt 102 eine Äußerung aus „Dann zeige ich Ihnen die Route zum Ziel x₁" o. ä. Zusätzlich führt das Navi-System 10 das Einstellen der Verarbeitung für die Route zu dem durch die Eingabespracheinheit i-ter Ordnung x_i angegeben Ziel durch.
Anschließend wählt der zweite Verarbeitungsabschnitt 112 eine aus der ersten bis fünften durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheit i-ter Ordnung y_ki aus (2: S7).
Insbesondere berechnet der zweite Verarbeitungsabschnitt 112 eine Indexmaßzahl₁ i-ter Ordnung (y_ki) in Übereinstimmung mit der folgenden Gleichung (2) in Bezug auf die verschiedenen Ausgabespracheinheiten i-ter Ordnung y_ki und wählt dann die Ausgabespracheinheit i-ter Ordnung y_ki mit der höchsten Indexmaßzahl1 j-ter Ordnung (y_ki) aus. Maßzahhl1 (yki) = W1·c1(yk1) + W2·c2(Yk1) + W3·pd(x1, yk1), Maßzahli+1 (yki+1) = W1·c1(yki+1) + W2·c2(yki+1) + W3·pd(xi, yki+1) + W4·pd(Yki, Yki+1) (2)
In der Gleichung (2) sind W₁ bis W₄ Gewichtungsfaktoren. c₁(y_ki) ist ein erster Faktor, der den Schwierigkeitsgrad (Bekanntschaftsgrad) bei der begrifflichen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art y_ki darstellt. Als erster Faktor wird die Trefferzahl aus einer Internetsuchmaschine, wobei die Ausgabespracheinheit i-ter Ordnung y_ki als Stichwort verwendet wird, die Auftrittshäufigkeit in Massenmedien, wie zum Beispiel große Zeitungen und Rundfunk o. ä., verwendet. Zusätzlich ist c₂(y_ki) ein zweiter Faktor, der den Schwierigkeitsgrad (eine Eindeutigkeit bei der Aussprache oder Hörbarkeit) bei der akustischen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art y_ki darstellt. Als zweiter Faktor wird zum Beispiel der Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl (zum Beispiel 10) anderer Spracheinheiten verwendet (Homonyme usw.). pd(x, y) ist ein durch die Gleichung (1) definierter akustischer Abstand zwischen der Spracheinheit x und y.
Anschließend generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i = Q(y_i), um die Benutzerbedeutung basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung y_ki zu erfragen, und veranlasst den zweiten Sprachabschnitt 102, dieselbe auszugeben (2: S8).
Zum Beispiel generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δ_i, der in y_1i enthalten ist?", in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung erster Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch den andersartigen Teil δ_i verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i (zum Beispiel eine in der Sprache enthaltene Ortsbezeichnung oder Gebäudebezeichnung) richtig oder falsch ist.
Zusätzlich generiert er die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben, der wie p_2i gelesen (oder ausgesprochen) wird?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung zweiter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch die von der ursprünglichen Lesung p_1i verschiedene Lesung p_2i des andersartigen Teils δ_i verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δ_i, der p in einer fremden Sprache bedeutet (zum Beispiel Englisch für Japanischsprecher)?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung dritter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch die Lesung p(f) der Spracheinheit f = f(δ_i), die den andersartigen Teil δ_i in einer anderen Spracheinheit bedeutet, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Noch überdies generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Enthält die Zielbezeichnung einen n-ten Buchstaben, der wie p(δ_i) ausgesprochen wird?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung vierter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch einen Buchstaben, der eine Mora oder einen die Mora erläuternden Satz in der Lesung p(δi) des andersartigen Teils δ_i darstellt, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Q_i, wie zum Beispiel „Ist das Ziel in g enthalten?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung fünfter Art y_1i. Diese Frage i-ter Ordnung Q_i wird bei der indirekten Bestätigung mit dem Benutzer durch die begrifflich in Bezug zu der Eingabespracheinheit i-ter Ordnung x_i stehenden Spracheinheit verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung x_i richtig oder falsch ist.
Überdies erkennt der erste Sprachabschnitt 101 eine Antwort i-ter Ordnung A_i als Benutzeräußerung auf die Frage i-ter Ordnung Q_i (2: S9). Zusätzlich ermittelt der zweite Verarbeitungsabschnitt 112, ob die Antwort i-ter Ordnung A_i positiv gleich „JA" oder negative gleich „NEIN" ist (2: S10).
Wenn dann der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung A_i positiv ist (2: S10 – JA), wird die nächste Verarbeitung in Übereinstimmung mit einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung x_i für die Festlegung der Benutzerzielbezeichnung verwendet wird.
Wenn auf der anderen Seite der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung A_i negativ ist (2: S10 – NEIN), wird festgestellt, ob eine Bedingung erfüllt ist, dass der Index i kleiner als eine gegebene Zahl j (> 2) ist (2: S11). Wenn die Bedingung erfüllt ist (2: S11 – JA), wird der Index um 1 erhöht (2: S12) und die Verarbeitung von S4 bis S10 wiederholt. Bei dieser Verarbeitung ruft der erste Verarbeitungsabschnitt 111 eine der Eingabespracheinheit (i-1)-ter Ordnung x_i-1 (i > 2) akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 ab und erkennt dieselbe als die Eingabespracheinheit i-ter Ordnung x_i. Die akustisch ähnliche Spracheinheit z_i-1 der Eingabespracheinheit (i-1)-ter Ordnung x_i-1 kann ebenso als die Eingabespracheinheit i-ter Ordnung x_i erkannt werden. Sofern außerdem die Bedingung nicht erfüllt ist (2: S11 – NEIN), wird die Kommunikation mit dem Benutzer erneut von Beginn an auf eine solche Weise gestartet, dass der zweite Sprachabschnitt 102 eine Anfangsäußerung neu ausgibt (2: S1).
Gemäß dem Dialogsystem 100 (und der Dialogsoftware), das die obigen Funktionen verwirklicht, wird eine aus mehreren Arten der Ausgabespracheinheiten i-ter Ordnung y_ki basierend auf dem ersten Faktor c₁, der den Schwierigkeitsgrad bei der begrifflichen Erkennung darstellt, und dem zweiten Faktor c₂, der den Schwierigkeitsgrad bei der akustischen Erkennung darstellt, mit Bezug auf jede der Ausgabespracheinheiten i-ter Ordnung y_ki ausgewählt (2: S6, S7). Zusätzlich wird die Frage i-ter Ordnung Q_i basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung y_ki generiert (2: S8). Dadurch wird die am besten geeignete Frage i-ter Ordnung Q_i hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung x_i übereinstimmt, generiert. Wenn festgestellt wird, dass eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Systemerkennung besteht, wird eine neue Frage generiert (2: S10 – NEIN, S4 bis S10). Deshalb ist es möglich, einen Dialog zwischen dem Benutzer und dem System 100 bereitzustellen, während die Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System 100 erkannten Sprache zuverlässig vermieden wird.
Sofern ferner die Benutzerbedeutung nicht mit der Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, wird eine Anfangsfrage generiert, um den Benutzer aufzufordern, erneut zu sprechen (2: S11 – NEIN, S1). Dadurch kann in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, die Bedeutung erneut bestätigt werden.
Ein erstes Dialogbeispiel zwischen dem Benutzer und dem Dialogsystem 100 wird unten gemäß der obigen Verarbeitung beschrieben, wobei U die Äußerung des Benutzers und S die Äußerung des Dialogsystems 100 ist.
(Erstes Dialogbeispiel)

S₀: Wo liegt Ihr Ziel?
U₀: Kinkakuji
Goldener Pavillon).
S₁: Enthält die Zielbezeichnung einen Buchstaben
der Silber in Englisch bedeutet?
U₁: Nein.
S₂: Nun, enthält die Zielbezeichnung einen Buchstaben
wie er in
(Schweigen ist Gold)" verwendet wird?
U₂: Ja.
S₃: Dann zeige ich Ihnen die Route nach Kinkakuji.

Die Äußerung S₀ des Systems 100 entspricht einer Anfangsfrage (2: S1).
Die Äußerung S₁ des Systems 100 entspricht der Frage erster Ordnung Q₁ (2: S8). Die Frage erster Ordnung Q₁ wird gemäß den folgenden Tatsachen generiert: „Ginkakuji (Silberner Pavillon)" wird erkannt (falsch erkannt) anstelle von „Kinkakuji" als Eingabespracheinheit erster Ordnung x₁ (2: S4); „Kinkakuji" wird als akustisch ähnliche Spracheinheit z₁ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y₁₁ bis y₅₁ werden als jene erkannt, die in Bezug zu dem Kanji
stehen, das ein andersartiger Teil δ₁ zwischen den zwei Spracheinheiten x₁ und z₁ ist (2: S6); und die Lesung des japanischen Worts „sirubaa" wird als eines ausgewählt, das dem englischen Wort „Silber" entspricht, das den andersartigen Teil δ₁ als Ausgabespracheinheit erster Ordnung dritter Art y₃₁ darstellt (2: S7).
Die Äußerung S₂ des Systems 100 entspricht der Frage zweiter Ordnung Q₂ (2: S8). Die Frage zweiter Ordnung Q₂ wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A₁ erkannte Benutzeräußerung U₁ ist negativ (2: S10 – NEIN); „Kinkakuji" wird als Eingabespracheinheit zweiter Ordnung x₂ erkannt (2: S4); „Ginkakuji" wird als akustisch ähnliche Spracheinheit z₂ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y₁₂ bis y₅₂ werden als jene erkannt, die in Bezug zu dem Kanji
stehen, das ein andersartiger Teil δ₂ zwischen den zwei Spracheinheiten x₂ und z₂ ist (2: S6); und das historische Idiom
das den andersartigen Teil δ₂ enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y₁₂ ausgewählt (2: S7).
Gemäß der positiven Benutzeräußerung U₂, die als Antwort zweiter Ordnung A₂ erkannt wird (2: S10 – JA), gibt das System 100 die Äußerung U₄ basierend auf der Feststellung aus, dass das Benutzerziel Kinkakuji ist.
Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Ginkakuji" ist, obwohl das Benutzerziel „Kinkakuji" ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Kinkakuji ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Kinkakuji, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.
Ferner wird unten ein zweites Dialogbeispiel zwischen dem Benutzer und dem System 100 gemäß der obigen Verarbeitung beschrieben.
(Zweites Dialogbeispiel)

S₀: Können Sie mir die Abfahrtsstadt nennen?
U₀: Von Austin.
S₁: Ist der erste Buchstabe der Stadt „b" wie „bravo"?
U₁: Nein.
S₂: Ist dann der erste Buchstabe der Stadt „a" wie „alpha"?
U₂: Ja.

Die Äußerung S₀ des Systems 100 entspricht der Anfangsfrage (2: S8).
Die Äußerung S₁ des Systems 100 entspricht der Frage erster Ordnung Q₁ (2: S1). Die Frage erster Ordnung Q₁ wird gemäß den folgenden Tatsachen generiert: „Boston" wird erkannt (falsch erkannt) anstelle von „Austin" als Eingabespracheinheit erster Ordnung x₁ (2: S4); „Austin" wird als akustisch ähnliche Spracheinheit z₁ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y₁₁ bis y₅₁ werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „b" stehen, der ein andersartiger Teil δ zwischen zwei Spracheinheiten x₁ und z₁ ist (2: S6); und das englische Wort „bravo" wird als eines ausgewählt, das den andersartigen Teil δ₁ als die Ausgabespracheinheit erster Ordnung erster Art y₁₁ darstellt (2: S7).
Die Äußerung S₂ des Systems 100 entspricht der Frage zweiter Ordnung Q₂ (2: S8). Die Frage zweiter Ordnung Q₂ wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A₁ erkannte Benutzeräußerung U₁ ist negativ (2: S10 – NEIN); „Austin" wird als Eingabespracheinheit zweiter Ordnung x₂ erkannt (2: S4); „Boston" wird als akustisch ähnliche Spracheinheit z₂ erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y₁₂ bis y₅₂ werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „a" stehen, der ein andersartiger Teil δ₂ zwischen zwei Spracheinheiten x₂ und z₂ ist (2: S6); und das englische Wort „alpha", das den andersartigen Teil δ₂ enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y₁₂ ausgewählt (2: S7).
Gemäß der positiven Benutzeräußerung U₂, die als Antwort zweiter Ordnung A₂ erkannt wird (2: S10 – JA), gibt das System 100 die Äußerung basierend auf der Feststellung aus, dass das Benutzerziel Austin ist.
Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Boston" ist, obwohl das Benutzerziel „Austin" ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Austin ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Austin, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.
ZUSAMMENFASSUNG DER OFFENBARUNG
Ein System oder dergleichen wird bereitgestellt, das in der Lage ist, mit einem Benutzer zu kommunizieren, während auf geeignete Weise eine Widersprüchlichkeit zwischen einer Benutzeräußerung und einer erkannten Sprache beseitigt wird.
Gemäß dem Dialogsystem 100 der vorliegenden Erfindung wird eine Frage i-ter Ordnung Q_i, um eine Benutzerbedeutung zu ertragen, basierend auf einer Ausgabespracheinheit i-ter Ordnung y_ki bezüglich einer Eingabespracheinheit i-ter Ordnung x_i (i = 1, 2, --), die in der erkannten Äußerung enthalten ist, generiert. Dadurch wird festgestellt, ob es eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Eingabespracheinheit i-ter Ordnung x_i basierend auf einer als eine Benutzerantwort erkannten Antwort i-ter Ordnung A_i auf die Frage i-ter Ordnung Q_i gibt.

Claims

Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Benutzeräußerung und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung, wobei das Dialogsystem umfasst: einen ersten Verarbeitungsabschnitt zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einen zweiten Verarbeitungsabschnitt zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts, die Frage basierend auf einer durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit erster Ordnung auszugeben, und zur Feststellung ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch den ersten Sprachabschnitt erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
Dialogsystem gemäß Anspruch 1, worin: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten erster Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten erster Ordnung basierend auf Faktoren auswählt, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren Ausgabespracheinheiten erster Ordnung darstellen, und die Frage erster Ordnung basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung generiert.
Dialogsystem gemäß Anspruch 2, worin der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten erster Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, hinsichtlich jeder der mehreren Ausgabespracheinheiten erster Ordnung auswählt.
Dialogsystem gemäß Anspruch 2, worin der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten erster Ordnung basierend auf dem akustischen Abstand zwischen der Eingabespracheinheit erster Ordnung und jeder der mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten erster Ordnung auswählt.
Dialogsystem gemäß Anspruch 2, worin der erste Verarbeitungsabschnitt als Ausgabespracheinheit erster Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit erster Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderen Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit erster Ordnung begrifflich ähnlich ist.
Dialogsystem gemäß Anspruch 5, worin der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten erster Ordnung erkennt.
Dialogsystem gemäß Anspruch 1, worin, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, dann: der erste Verarbeitungsabschnitt eine der Eingabespracheinheit i-ter Ordnung akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abruft und dieselbe als eine Eingabespracheinheit (i+1)-ter Ordnung erkennt und dann eine Spracheinheit bezogen auf die Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank abruft und dieselbe als eine Ausgabespracheinheit (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine Frage (i+1)-ter Ordnung generiert, um die Benutzerbedeutung zu erfragen, und den zweiten Sprachabschnitt veranlasst, dieselbe basierend auf der durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben und dann feststellt, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch den ersten Sprachabschnitt als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.
Dialogsystem gemäß Anspruch 7, worin: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine aus den mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf Faktoren auswählt, die den Schwierigkeitsgrad bei der Erkennung der jeweils durch den ersten Verarbeitungsabschnitt erkannten mehreren Ausgabespracheinheiten (i+1)-ter Ordnung darstellen, und eine Frage (i+1)-ter Ordnung basierend auf den ausgewählten Ausgabespracheinheiten (i+1)-ter Ordnung generiert.
Dialogsystem gemäß Anspruch 8, worin der zweite Verarbeitungsabschnitt eine aus mehreren durch die erste Verarbeitungseinheit erkannte Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines gegebenen Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der mehreren Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
Dialogsystem gemäß Anspruch 7, worin der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl einem akustischen Abstand zwischen der Eingabespracheinheit i-ter Ordnung und jeder der mehreren Ausgabespracheinheiten (i+1)-ter als auch einem akustischen Abstand zwischen der Eingabespracheinheit (i+1)-ter Ordnung und mehreren Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
Dialogsystem gemäß Anspruch 8, worin der erste Verarbeitungsabschnitt als eine Ausgabespracheinheit zweiter Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit (i+1)-ter Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderem Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit (i+1)-ter Ordnung begrifflich ähnlich ist.
Dialogsystem gemäß Anspruch 9, worin der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten (i+1)-ter Ordnung erkennt.
Dialogsystem gemäß Anspruch 7, worin, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, der zweite Verarbeitungsabschnitt eine Frage generiert, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt veranlasst, die Frage auszugeben.
Dialogsoftware, die in einer Computerspeichereinrichtung gespeichert wird, mit einer ersten Sprachfunktion zur Erkennung einer Benutzeräußerung und einer zweiten Sprachfunktion zur Ausgabe einer Äußerung, worin die Dialogsoftware den Computer ausstattet mit: einer ersten Verarbeitungsfunktion zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch die erste Sprachfunktion erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einer zweiten Verarbeitungsfunktion zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen, und zur Ausgabe derselben unter Verwendung der zweiten Sprachfunktion basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit erster Ordnung, und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch die erste Sprachfunktion erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
Dialogsystem gemäß Anspruch 14, worin, wenn die zweite Verarbeitungsfunktion feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, die Dialogsoftware den Computer ausstattet mit: einer Funktion als die erste Verarbeitungsfunktion zum Abrufen einer der Eingabespracheinheit i-ter Ordnung akustisch ähnlichen Spracheinheit aus der ersten Wörterbuchdatenbank und Erkennen derselben als eine Eingabespracheinheit (i+1)-ter Ordnung und zum Abrufen einer Spracheinheit bezüglich der Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit (i+1)-ter Ordnung; und einer Funktion als die zweite Verarbeitungsfunktion zur Generierung einer Frage (i+1)-ter Ordnung, um die Benutzerbedeutung zu erfragen, und die zweite Sprachfunktion zu veranlassen, dieselbe basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben, und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch die erste Sprachfunktion als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.