DE112006000225B4 - Dialogsystem und Dialogsoftware - Google Patents

Dialogsystem und Dialogsoftware Download PDF

Info

Publication number
DE112006000225B4
DE112006000225B4 DE112006000225.2T DE112006000225T DE112006000225B4 DE 112006000225 B4 DE112006000225 B4 DE 112006000225B4 DE 112006000225 T DE112006000225 T DE 112006000225T DE 112006000225 B4 DE112006000225 B4 DE 112006000225B4
Authority
DE
Germany
Prior art keywords
unit
language
user
output
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE112006000225.2T
Other languages
English (en)
Other versions
DE112006000225T5 (de
Inventor
Mikio Nakano
Hiroshi Okuno
Kazunori Komatani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of DE112006000225T5 publication Critical patent/DE112006000225T5/de
Application granted granted Critical
Publication of DE112006000225B4 publication Critical patent/DE112006000225B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Ein System oder dergleichen wird bereitgestellt, das in der Lage ist, mit einem Benutzer zu kommunizieren, während auf geeignete Weise eine Widersprüchlichkeit zwischen einer Benutzeräußerung und einer erkannten Sprache beseitigt wird.Gemäß dem Dialogsystem 100 der vorliegenden Erfindung wird eine Frage i-ter Ordnung Q, um eine Benutzerbedeutung zu erfragen, basierend auf einer Ausgabespracheinheit i-ter Ordnung ybezüglich einer Eingabespracheinheit i-ter Ordnung x(i = 1, 2, --), die in der erkannten Äußerung enthalten ist, generiert. Dadurch wird festgestellt, ob es eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Eingabespracheinheit i-ter Ordnung xbasierend auf einer als eine Benutzerantwort erkannten Antwort i-ter Ordnung Aauf die Frage i-ter Ordnung Qgibt.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf ein System zur Erkennung einer Benutzeräußerung und zur Ausgabe einer Äußerung an den Benutzer und auf Software zur Bereitstellung eines Computers mit notwendigen Funktionen zur Kommunikation mit dem Benutzer.
  • Bisheriger Stand der Technik
  • Bei der Kommunikation zwischen einem Benutzer und einem System können ein Umgebungsgeräusch oder andere verschiedene Ursachen zu einem Fehler durch das System bei der Erkennung einer Benutzeräußerung führen (verhören). Folglich wurde bereits eine Technik zur Sprachausgabe vorgeschlagen, um den Inhalt der Benutzeräußerung in einem System zu bestätigen (siehe zum Beispiel die japanische offen gelegte Patentanmeldung Nr. JP 2002 - 351 492 A ). Gemäß dem System wird, wenn „Merkmale“, „Merkmalswerte“ und „Abstände zwischen den Merkmalswerten“ für die Wörter festgelegt sind und mehrere Wörter erkannt werden, deren Merkmalswerte voneinander trotz eines gemeinsamen Merkmals verschieden sind und deren Unterschiede zwischen den Merkmalswerten (die Abstände zwischen den Merkmalswerten) jeweils gleich oder größer als ein Grenzwert während einer Kommunikation mit demselben Benutzer sind, eine Äußerung zur Bestätigung der Wörter ausgegeben.
  • Gemäß dem obigen System können jedoch in dem Fall des Auftretens von Verhören die Abstände zwischen den Merkmalswerten in manchen Fällen ungenau berechnet werden. Deshalb gibt es eine Wahrscheinlichkeit, dass der Dialog ohne Beseitigung einer Widersprüchlichkeit fortgesetzt wird, da das System die Benutzeräußerung als „B“ erkennt, was akustisch ähnlich „A“ ist, obwohl der Benutzer „A“ spricht.
  • Die US 2002/0120452 A1 offenbart ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Äußerung eines Benutzers und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung, wobei ein von dem ersten Sprachabschnitt erkannte Äußerung mit einer gespeicherten Namenliste abgeglichen wird und bei Mehrfachtreffern eine erste Sprachreinheit bezüglich eines ersten Treffers der Mehrfachtreffer abgerufen und von dem zweiten Sprachabschnitt als Äußerung ausgegeben wird.
  • Die der vorliegenden Erfindung zugrundeliegende Aufgabe besteht darin, ein Dialogsystem und ein Programm für einen Computer mit Dialogfunktion bereitzustellen, die es ermöglichen, mit einem Benutzer zu kommunizieren und bei einer drohenden Fehlerkennung einer Äußerung des Benutzers eine Nachfrage auszugeben, die von dem Benutzer gut verständlich ist und die die Anzahl weiterer Nachfragen verringern kann.
  • Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst. Die Erfindung wird durch die Merkmale der abhängigen Ansprüche weitergebildet.
  • Gemäß der vorliegenden Erfindung wird ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Äußerung eines Benutzer und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung bereitgestellt, wobei das Dialogsystem umfasst: einen ersten Verarbeitungsabschnitt zum Abrufen einer ersten, in der durch den ersten Sprachabschnitt erkannten Äußerung eines Benutzers enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank, Abrufen mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abzurufen; und einen zweiten Verarbeitungsabschnitt zur Auswahl einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen, zur Generierung einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts, die erste Frage auszugeben, wobei der zweite Verarbeitungsabschnitt basierend auf einer auf die erste Frage folgenden Benutzerantwort feststellt, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
  • Falls es möglich ist, die der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank abzurufen, könnte eine andere Spracheinheit in der Benutzeräußerung anstelle der ersten Eingabespracheinheit enthalten sein. Insbesondere könnte in diesem Fall der erste Sprachabschnitt die erste Eingabespracheinheit so oder so falsch gehört haben. Angesichts dessen wird die auf die erste Eingabespracheinheit bezogene erste Ausgabespracheinheit aus der zweiten Wörterbuchdatenbank abgerufen.
  • Ferner wird die der ersten Ausgabespracheinheit entsprechende erste Frage generiert und ausgegeben. Danach wird ermittelt, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit basierend auf der ersten Antwort, die als die Benutzeräußerung auf die erste Frage erkannt wurde, übereinstimmt. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, während eine Diskrepanz zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
  • „Spracheinheit“ bedeutet ein Satz bestehend aus Buchstaben, Wörtern und mehreren Wörtern, einem langen Satz bestehend aus kurzen Sätzen o. ä.
  • Ein erster Faktor der Faktoren kann den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in bestimmten Massenmedien darstellen und ein zweiter Faktor der Faktoren kann den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellen.
  • Somit wird die erste Ausgabespracheinheit basierend auf dem ersten Faktor ausgewählt, der den Schwierigkeitsgrad bei der Erkennung aus mehreren ersten Ausgabespracheinheiten darstellen, wodurch der Benutzer die ausgewählte erste Ausgabespracheineinheit leichter erkennen kann. Dadurch wird eine geeignete erste Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit Ordnung übereinstimmt, generiert.
  • Zudem kann der Benutzer die ausgewählte erste Ausgabespracheinheit leichter begrifflich oder akustisch erkennen. Dadurch wird eine geeignete erste Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit Ordnung übereinstimmt, generiert.
  • Ferner kann der zweite Verarbeitungsabschnitt die erste Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der ersten Eingabespracheinheit und jeder der mehreren ersten Ausgabespracheinheiten auswählen, wodurch der Benutzer die ausgewählte erste Ausgabespracheinheit von der ersten Eingabespracheinheit akustisch leichter unterscheiden kann.
  • Ferner kann der erste Verarbeitungsabschnitt beim Abrufen der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abrufen:
    • - eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der ersten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält;
    • - eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt;
    • - eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht;
    • - eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und
    • - eine Spracheinheit fünfter Art, die der ersten Eingabespracheinheit begrifflich ähnlich ist
  • Gemäß dem Dialogsystem der vorliegenden Erfindung ist es möglich, die Auswahlanzahl der ersten Ausgabespracheinheiten zu erhöhen, die die Basis zur Generierung der ersten Frage bilden. Deshalb kann die am besten geeignete Frage hinsichtlich der Bestimmung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert werden.
  • Ferner kann, wenn der zweite Verarbeitungsabschnitt basierend auf der Benutzerantwort feststellt, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, der erste Verarbeitungsabschnitt eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abrufen und dieselbe als eine zweite Eingabespracheinheit definieren und dann mehrere Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank abrufen und als mehrere zweite Ausgabespracheinheiten definieren; und der zweite Verarbeitungsabschnitt eine zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählen, eine zweite Frage generieren, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen und den zweiten Sprachabschnitt dazu veranlassen, die zweite Frage auszugeben, wobei der zweite Verarbeitungsabschnitt basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht.
  • Auf diese Weise werden mehrere Fragen an den Benutzer ausgegeben, um die Benutzerbedeutung zu erfragen. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, mit dem die Diskrepanz zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert werden kann.
  • Zusätzlich kann der zweite Verarbeitungsabschnitt die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der zweiten Eingabespracheinheit und jeder der mehreren zweiten Ausgabespracheinheiten auswählen.
  • Dies ermöglicht die Generierung einer geeigneten zweiten Frage hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt.
  • Zu dem kann ein erster Faktor der Faktoren, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in Massenmedien darstellen und ein zweiter Faktor der Faktoren, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, kann den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellen.
  • Folglich kann die ausgewählte zweite Ausgabespracheinheit von der ersten Eingabespracheinheit akustisch leichter unterschieden werden. Überdies kann die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand von der zweiten Eingabespracheinheit ausgewählt werden. Folglich kann die ausgewählte zweite Ausgabespracheinheit Ordnung von der zweiten Eingabespracheinheit akustisch leichter unterschieden werden.
  • Der erste Verarbeitungsabschnitt kann beim Abrufen der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abrufen:
    • - eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der zweiten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält;
    • - eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt;
    • - eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht;
    • - eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und
    • - eine Spracheinheit fünfter Art, die der zweiten Eingabespracheinheit begrifflich ähnlich ist
  • Zusätzlich kann, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit der zweiten Eingabespracheinheit übereinstimmt, der zweite Verarbeitungsabschnitt eine Frage generieren, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt veranlasst, die Frage auszugeben.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung ist es in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, möglich, die Bedeutung erneut zu bestätigen.
  • Gemäß der vorliegenden Erfindung wird eine Programm bereitgestellt, das, wenn es auf einem Computer läuft oder auf einem Computer geladen wird, den Computer dazu veranlasst folgende Schritte auszuführen:
    • - Erkennen einer Äußerung eines Benutzers,
    • - Abrufen einer ersten, in der erkannten Benutzeräußerung enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank,
    • - Abrufen mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abzurufen,
    • - Auswählen einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen,
    • - Generieren einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen,
    • - Ausgeben der ersten Frage und
    • - Ermitteln basierend auf einer auf die erste Frage folgenden Benutzerantwort, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
  • Überdies kann, wenn in dem Ermittlungsschritt basierend auf der Benutzerantwort feststellt wird, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abgerufen und dieselbe als eine zweite Eingabespracheinheit definiert werden und dann mehrerer Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank abgerufen und als mehrere zweite Ausgabespracheinheiten definiert werden; und eine zweite Ausgabespracheinheiten aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählt, eine zweite Frage generiert und ausgegeben werden, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen, und basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt werden, ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht..
  • Somit ist der Computer mit der Funktion ausgestattet, mehrere Fragen zu generieren, um die Benutzerbedeutung zu erfragen. Folglich ist der Computer mit einer Funktion ausgestattet, mit dem Benutzer zu kommunizieren, während die Benutzerbedeutung genauer verstanden und eine Diskrepanz zwischen der Benutzeräußerung und der durch das System erkannten Sprache zuverlässiger verhindert wird.
  • Figurenliste
    • 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung.2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß
    gemäß der vorliegenden Erfindung.
  • Beste Art zur Ausführung der Erfindung
  • Bevorzugte Ausführungsformen eines Dialogsystems und einer Dialogsoftware gemäß der vorliegenden Erfindung werden unten unter Verwendung der beiliegenden Zeichnungen beschrieben.
  • In 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung dargestellt. In 2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß der vorliegenden Erfindung dargestellt.
  • Das Dialogsystem 100 (hierin nachstehend als „System“ bezeichnet) besteht aus einem Computer als Hardware, der in einem an einem Kraftfahrzeug angebrachten Navigationssystem 10 (Navi-System) eingebaut ist und aus „Dialogsoftware“ der vorliegenden Erfindung, die in einem Speicher des Computers gespeichert ist.
  • Das Dialogsystem 100 umfasst einen ersten Sprachabschnitt 101, einen zweiten Sprachabschnitt 102, einen ersten Verarbeitungsabschnitt 111, einen zweiten Verarbeitungsabschnitt 112, eine erste Wörterbuchdatenbank 121 und eine zweite Wörterbuchdatenbank 122.
  • Der erste Sprachabschnitt 101, der aus einem Mikrofon (nicht dargestellt) o. ä. besteht, erkennt eine Benutzeräußerung basierend auf einer Eingabestimme gemäß einer bekannten Technik, wie zum Beispiel einem Hidden-Markov-Modell.
  • Der zweite Sprachabschnitt 102, der aus einem Lautsprecher (nicht dargestellt) o. ä. besteht, gibt eine Stimme (oder eine Äußerung) aus.
  • Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten von Spracheinheiten bezüglich einer Eingabespracheinheit erster Ordnung aus der zweiten Wörterbuchdatenbank 122 ab und erkennt diese als Ausgabespracheinheiten erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheiten, die in der durch den ersten Sprachabschnitt 101 erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank 121 abzurufen. Ferner erkennt der erste Verarbeitungsabschnitt 111 eine Ausgabespracheinheit höherer Ordnung, falls erforderlich, wie später beschrieben werden wird.
  • Der zweite Verarbeitungsabschnitt 112 wählt eine aus mehreren Arten der durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheiten erster Ordnung basierend auf der Eingabespracheinheit erster Ordnung aus. Außerdem generiert der zweite Verarbeitungsabschnitt 112 eine Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und veranlasst den zweiten Sprachabschnitt 102, dieselbe basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung auszugeben. Noch weiter stellt der zweite Verarbeitungsabschnitt 112 fest, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf der durch den ersten Sprachabschnitt 101 erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt. Ferner generiert der zweite Verarbeitungsabschnitt 112 eine Frage höherer Ordnung, falls erforderlich, wie später beschrieben wird und bestätigt die Benutzerbedeutung basierend auf einer Antwort höherer Ordnung.
  • Die erste Wörterbuchdatenbank 121 speichert mehrere Spracheinheiten, die als Eingabespracheinheiten (i+1)-ter Ordnung (i = 1, 2, --) durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
  • Die zweite Wörterbuchdatenbank 122 speichert mehrere Spracheinheiten, die als Ausgabespracheinheiten i-ter Ordnung durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
  • Funktionen des Systems 100 mit der obigen Anordnung werden unter Verwendung der 2 beschrieben.
  • Zuerst gibt der zweite Sprachabschnitt 102 als Antwort auf eine Benutzerbedienung des Navi-Systems 10 zum Zweck der Einstellung eines Ziels eine Anfangsäußerung „Wo befindet sich Ihr Ziel?“ aus (2: S1). Als Antwort auf die Anfangsäußerung spricht der Benutzer ein Wort, das ein Ziel bedeutet, und der erste Sprachabschnitt 101 erkennt dann diese Äußerung (2: S2). Zu diesem Zeitpunkt wird der Index i, der die Ordnung der Eingabespracheinheit, Ausgabespracheinheit, Frage und Antwort darstellt, auf 1 gesetzt (2: S3).
  • Außerdem wandelt der erste Verarbeitungsabschnitt 111 die durch den ersten Sprachabschnitt 101 erkannte Äußerung in eine Spracheinheitenkette um und extrahiert dann eine in der ersten Wörterbuchdatenbank 121 als „Bezirksbezeichnung“, „Gebäudebezeichnung“ o. ä. klassifizierte Spracheinheit aus der Spracheinheit und erkennt dieselbe als eine Eingabespracheinheit i-ter Ordnung xi (2: S4). Die Klassifizierung der aus der Spracheinheitenkette extrahierten Spracheinheit basiert auf einem Gebiet, in dem eine Navi-Einheit 1 dem Benutzer eine Fahrroute bis zum Ziel zeigt.
  • Ferner ermittelt der erste Verarbeitungsabschnitt 111, ob eine der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 abgerufen werden kann, mit anderen Worten, ob das akustisch ähnliche Wort in der ersten Wörterbuchdatenbank 121 gespeichert ist (2: S5). Die einander akustisch ähnlichen Spracheinheiten xi und xj bedeuten, dass der durch die folgende Gleichung (1) definierte akustische Abstand pd(xi, xj) kleiner als ein Grenzwert ist: pd ( x i ,  x j ) = ed ( x i ,  x j ) / In [ min ( | x i | ,   | x j | ) + 1 ]
    Figure DE112006000225B4_0001
  • In der Gleichung (1) ist |x| die Zahl der Phoneme (oder phonetischer Einheiten), die in der Spracheinheit x enthalten ist. Der Begriff „Phonem“ bedeutet die kleinste Schalleinheit, die in einer Sprache verwendet wird, definiert vom Standpunkt einer Diskriminierungsfunktion.
  • Ferner ist ed(xi, xj) ein Bearbeitungsabstand zwischen der Spracheinheit xi und xj, und wird durch DP-Matching erhalten unter der Bedingung, dass die Kosten auf 1 gesetzt sind, wenn sich die Zahl der Moras (der Begriff „Mora“ bedeutet die kleinste Einheit einer japanischen Aussprache) oder der Phoneme verändert, und dass die Kosten auf 2 gesetzt sind, wenn sich die Zahl der Moras oder der Phoneme zum Zeitpunkt des Einfügens, Löschens oder Ersetzens von Phonemen bei der Umwandlung einer Phonemkette der Spracheinheit xi in eine Phonemkette der Spracheinheit xj nicht verändert.
  • Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten der Ausgabespracheinheiten i-ter Ordnung yki = yk(xi) (k = 1 bis 5), die in Beziehung zu der Eingabespracheinheit i-ter Ordnung xi stehen, aus der zweiten Wörterbuchdatenbank 122 ab (2: S6), wenn er feststellt, dass eine der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 - JA).
  • Insbesondere ruft der erste Verarbeitungsabschnitt 111 eine Spracheinheit, die einen andersartigen Teil δi = δ(xi, zi) von der akustisch ähnlichen Spracheinheit zi in der Eingabespracheinheit i-ter Ordnung xi enthält, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung erster Art y1i = yi(xi). Zum Beispiel wird, wenn die Eingabespracheinheit i-ter Ordnung xi ein Wort ist, das eine Ortsbezeichnung „Boston“ angibt, und die akustisch ähnliche Spracheinheit zi ein Wort ist, das eine Ortsbezeichnung „Austin“ angibt, „b“ des Anfangsbuchstabens der Eingabespracheinheit i-ter Ordnung xi als der andersartige Teil δi extrahiert. Zusätzlich wird „bravo“ als eine Spracheinheit abgerufen, die den andersartigen Teil δi enthält.
  • Überdies ruft der erste Verarbeitungsabschnitt 111 eine von der Lesung p1i = p1i) (ursprüngliche Lesung) andersartige Lesung p2i = p2i) des andersartigen Teils δi aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung zweiter Art y2i = y2(xi). Zum Beispiel gibt es im Japanischen unterschiedliche Lesungen und zwar die chinesische Lesung und die japanische Lesung in den meisten Kanji. Wenn deshalb die ursprüngliche Lesung des Kanji „
    Figure DE112006000225B4_0002
    “, das der andersartige Teil δi ist, in der chinesischen Lesung „gin“ ist, wird die japanische Lesung des Kanji „shirogane“ als die Ausgabespracheinheit i-ter Ordnung zweiter Art y2i erkannt.
  • Ferner ruft der erste Verarbeitungsabschnitt 111 die Lesung p(f) einer Spracheinheit f = f(δi), was den andersartigen Teil δi in einer anderen Spracheinheit bedeutet, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung dritter Art y3i = y3(xi). Wenn zum Beispiel ein Kanji „
    Figure DE112006000225B4_0003
    “ im Japanischen der andersartige Teil δi ist, wird die Lesung „sirubaa“ des englischen Worts „Silber“, welches das zuvor genannte Kanji bedeutet, als die Ausgabespracheinheit i-ter Ordnung dritter Art y3i erkannt.
  • Wenn außerdem die Lesung p(δi) des andersartigen Teils δi aus mehreren Moras (oder Phonemen) besteht, ruft der erste Verarbeitungsabschnitt 111 ein Phonemzeichen, das eine Mora darstellt, wie zum Beispiel die erste Mora oder einen die Mora erläuternden Satz, unter mehreren Moras aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung vierter Art y4i = y4(xi). Wenn zum Beispiel ein Kanji „
    Figure DE112006000225B4_0004
    “ im Japanischen der andersartige Teil δi ist, wird das erste Morazeichen „ni“ als die Ausgabespracheinheit i-ter Ordnung vierter Art y4i in der Lesung p(δi) „nishi“ erkannt. Zusätzlich gibt es Kategorien: Resonanzlaut, P-Laut (Konsonant: p) und Dumpflaut (Konsonant: g, z, d, b) in japanischen Moras. Deshalb werden die Wörter „Resonanzlaut“, „P-Laut“ und „Dumpflaut“, die die Kategorien angeben, als die Ausgabespracheinheit i-ter Ordnung vierter Art y4i erkannt.
  • Ferner ruft der erste Verarbeitungsabschnitt 111 eine in Bezug zu der Eingabespracheinheit i-ter Ordnung xi stehende Spracheinheit aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung fünfter Art y5i = y5(xi). Zum Beispiel wird eine durch die Eingabespracheinheit i-ter Ordnung xi dargestellte Spracheinheit (ein Ortsname) g = g(xi), die ein Gebiet einschließlich des Ziels darstellt, als die Ausgabespracheinheit i-ter Ordnung fünfter Art y5i erkannt.
  • Mehrere Spracheinheiten können als Ausgabespracheinheit i-ter Ordnung k-ter Art erkannt werden. Wenn zum Beispiel der andersartige Teil δi ein Kanji
    Figure DE112006000225B4_0005
    ist, können sowohl ein Satz „
    Figure DE112006000225B4_0006
    (Schweigen ist Gold)“, der als historisches Idiom klassifiziert ist als auch ein Name
    Figure DE112006000225B4_0007
    , der als Prominentenname klassifiziert ist, als die Ausgabespracheinheit i-ter Ordnung erster Art y1i erkannt werden.
  • Wenn auf der anderen Seite der erste Verarbeitungsabschnitt 111 feststellt, dass die der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit nicht in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 - NEIN), wird die nächste Verarbeitung gemäß einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung xi für die Festlegung der Benutzerzielbezeichnung verwendet wird. Dabei gibt zum Beispiel der zweite Sprachabschnitt 102 eine Äußerung aus „Dann zeige ich Ihnen die Route zum Ziel xi“ o. ä. Zusätzlich führt das Navi-System 10 das Einstellen der Verarbeitung für die Route zu dem durch die Eingabespracheinheit i-ter Ordnung xi angegeben Ziel durch.
  • Anschließend wählt der zweite Verarbeitungsabschnitt 112 eine aus der ersten bis fünften durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheit i-ter Ordnung yki aus (2: S7).
  • Insbesondere berechnet der zweite Verarbeitungsabschnitt 112 eine Indexmaßzahl1 i-ter Ordnung (yki) in Übereinstimmung mit der folgenden Gleichung (2) in Bezug auf die verschiedenen Ausgabespracheinheiten i-ter Ordnung yki und wählt dann die Ausgabespracheinheit i-ter Ordnung yki mit der höchsten Indexmaßzahl1 i-ter Ordnung (yki) aus. Ma ß zahl 1 ( y ki )     = W 1 c 1 ( y k 1 ) + W 2 c 2 ( y k 1 ) + W 3 pd ( x 1 ,  y k 1 ) , Ma ß zahl i + 1 ( y ki + 1 )     = W 1 c 1 ( y ki + 1 ) + W 2 c 2 ( y ki + 1 ) + W 3 pd ( x i ,  y ki + 1 ) + W 4 pd ( y ki ,  y ki + 1 )
    Figure DE112006000225B4_0008
  • In der Gleichung (2) sind W1 bis W4 Gewichtungsfaktoren. c1(yki) ist ein erster Faktor, der den Schwierigkeitsgrad (Bekanntschaftsgrad) bei der begrifflichen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art yki darstellt. Als erster Faktor wird die Trefferzahl aus einer Internetsuchmaschine, wobei die Ausgabespracheinheit i-ter Ordnung yki als Stichwort verwendet wird, die Auftrittshäufigkeit in Massenmedien, wie zum Beispiel große Zeitungen und Rundfunk o. ä., verwendet. Zusätzlich ist c2(yk i) ein zweiter Faktor, der den Schwierigkeitsgrad (eine Eindeutigkeit bei der Aussprache oder Hörbarkeit) bei der akustischen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art yki darstellt. Als zweiter Faktor wird zum Beispiel der Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl (zum Beispiel 10) anderer Spracheinheiten verwendet (Homonyme usw.). pd(x, y) ist ein durch die Gleichung (1) definierter akustischer Abstand zwischen der Spracheinheit x und y.
  • Anschließend generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi = Q(yi), um die Benutzerbedeutung basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung yki zu erfragen, und veranlasst den zweiten Sprachabschnitt 102, dieselbe auszugeben (2: S8).
  • Zum Beispiel generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δi, der in y1i enthalten ist?“, in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung erster Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch den andersartigen Teil δi verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi (zum Beispiel eine in der Sprache enthaltene Ortsbezeichnung oder Gebäudebezeichnung) richtig oder falsch ist.
  • Zusätzlich generiert er die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben, der wie p2i gelesen (oder ausgesprochen) wird?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung zweiter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die von der ursprünglichen Lesung p1i verschiedene Lesung p2i des andersartigen Teils δi verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δi, der p in einer fremden Sprache bedeutet (zum Beispiel Englisch für Japanischsprecher)?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung dritter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die Lesung p(f) der Spracheinheit f = f(δi), die den andersartigen Teil δi in einer anderen Spracheinheit bedeutet, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Noch überdies generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen n-ten Buchstaben, der wie p(δi) ausgesprochen wird?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung vierter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch einen Buchstaben, der eine Mora oder einen die Mora erläuternden Satz in der Lesung p(δi) des andersartigen Teils δi darstellt, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Ist das Ziel in g enthalten?“ in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung fünfter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die begrifflich in Bezug zu der Eingabespracheinheit i-ter Ordnung xi stehenden Spracheinheit verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Überdies erkennt der erste Sprachabschnitt 101 eine Antwort i-ter Ordnung Ai als Benutzeräußerung auf die Frage i-ter Ordnung Qi (2: S9). Zusätzlich ermittelt der zweite Verarbeitungsabschnitt 112, ob die Antwort i-ter Ordnung Ai positiv gleich „JA“ oder negative gleich „NEIN“ ist (2: S10).
  • Wenn dann der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung Ai positiv ist (2: S10 - JA), wird die nächste Verarbeitung in Übereinstimmung mit einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung xi für die Festlegung der Benutzerzielbezeichnung verwendet wird.
  • Wenn auf der anderen Seite der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung Ai negativ ist (2: S10 - NEIN), wird festgestellt, ob eine Bedingung erfüllt ist, dass der Index i kleiner als eine gegebene Zahl j (>2) ist (2: S11). Wenn die Bedingung erfüllt ist (2: S11 - JA), wird der Index um 1 erhöht (2: S12) und die Verarbeitung von S4 bis S10 wiederholt. Bei dieser Verarbeitung ruft der erste Verarbeitungsabschnitt 111 eine der Eingabespracheinheit (i-1)-ter Ordnung xi-1 (i ≥ 2) akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 ab und erkennt dieselbe als die Eingabespracheinheit i-ter Ordnung xi. Die akustisch ähnliche Spracheinheit zi-1 der Eingabespracheinheit (i-1)-ter Ordnung xi-1 kann ebenso als die Eingabespracheinheit i-ter Ordnung xi erkannt werden. Sofern außerdem die Bedingung nicht erfüllt ist (2: S11 - NEIN), wird die Kommunikation mit dem Benutzer erneut von Beginn an auf eine solche Weise gestartet, dass der zweite Sprachabschnitt 102 eine Anfangsäußerung neu ausgibt (2: S1).
  • Gemäß dem Dialogsystem 100 (und der Dialogsoftware), das die obigen Funktionen verwirklicht, wird eine aus mehreren Arten der Ausgabespracheinheiten i-ter Ordnung yki basierend auf dem ersten Faktor c1, der den Schwierigkeitsgrad bei der begrifflichen Erkennung darstellt, und dem zweiten Faktor c2, der den Schwierigkeitsgrad bei der akustischen Erkennung darstellt, mit Bezug auf jede der Ausgabespracheinheiten i-ter Ordnung yki ausgewählt (2: S6, S7). Zusätzlich wird die Frage i-ter Ordnung Qi basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung yki generiert (2: S8). Dadurch wird die am besten geeignete Frage i-ter Ordnung Qi hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung xi übereinstimmt, generiert. Wenn festgestellt wird, dass eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Systemerkennung besteht, wird eine neue Frage generiert (2: S10 - NEIN, S4 bis S10). Deshalb ist es möglich, einen Dialog zwischen dem Benutzer und dem System 100 bereitzustellen, während die Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System 100 erkannten Sprache zuverlässig vermieden wird.
  • Sofern ferner die Benutzerbedeutung nicht mit der Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, wird eine Anfangsfrage generiert, um den Benutzer aufzufordern, erneut zu sprechen (2: S11 - NEIN, S1). Dadurch kann in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, die Bedeutung erneut bestätigt werden.
  • Ein erstes Dialogbeispiel zwischen dem Benutzer und dem Dialogsystem 100 wird unten gemäß der obigen Verarbeitung beschrieben, wobei U die Äußerung des Benutzers und S die Äußerung des Dialogsystems 100 ist.
  • (Erstes Dialogbeispiel)
    • S0: Wo liegt Ihr Ziel?
    • U0: Kinkakuji (
      Figure DE112006000225B4_0009
      : Goldener Pavillon).
    • S1: Enthält die Zielbezeichnung einen Buchstaben „
      Figure DE112006000225B4_0010
      “, der Silber in Englisch bedeutet?
    • U1: Nein.
    • S2: Nun, enthält die Zielbezeichnung einen Buchstaben
      Figure DE112006000225B4_0011
      wie er in „
      Figure DE112006000225B4_0012
      (Schweigen ist Gold)“ verwendet wird?
    • U2: Ja.
    • S3: Dann zeige ich Ihnen die Route nach Kinkakuji.
  • Die Äußerung S0 des Systems 100 entspricht einer Anfangsfrage (2: S1).
  • Die Äußerung S1 des Systems 100 entspricht der Frage erster Ordnung Q1 (2: S8). Die Frage erster Ordnung Q1 wird gemäß den folgenden Tatsachen generiert: „Ginkakuji (Silberner Pavillon)“ wird erkannt (falsch erkannt) anstelle von „Kinkakuji“ als Eingabespracheinheit erster Ordnung x1 (2: S4); „Kinkakuji“ wird als akustisch ähnliche Spracheinheit z1 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y11 bis y51 werden als jene erkannt, die in Bezug zu dem Kanji
    Figure DE112006000225B4_0013
    stehen, das ein andersartiger Teil δ1 zwischen den zwei Spracheinheiten x1 und z1 ist (2: S6); und die Lesung des japanischen Worts „sirubaa“ wird als eines ausgewählt, das dem englischen Wort „Silber“ entspricht, das den andersartigen Teil δ1 als Ausgabespracheinheit erster Ordnung dritter Art y31 darstellt (2: S7).
  • Die Äußerung S2 des Systems 100 entspricht der Frage zweiter Ordnung Q2 (2: S8). Die Frage zweiter Ordnung Q2 wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A1 erkannte Benutzeräußerung U1 ist negativ (2: S10 - NEIN); „Kinkakuji“ wird als Eingabespracheinheit zweiter Ordnung x2 erkannt (2: S4); „Ginkakuji“ wird als akustisch ähnliche Spracheinheit z2 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y12 bis y52 werden als jene erkannt, die in Bezug zu dem Kanji
    Figure DE112006000225B4_0014
    stehen, das ein andersartiger Teil δ2 zwischen den zwei Spracheinheiten x2 und z2 ist (2: S6); und das historische Idiom
    Figure DE112006000225B4_0015
    , das den andersartigen Teil δ2 enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y12 ausgewählt (2: S7).
  • Gemäß der positiven Benutzeräußerung U2, die als Antwort zweiter Ordnung A2 erkannt wird (2: S10 - JA), gibt das System 100 die Äußerung U4 basierend auf der Feststellung aus, dass das Benutzerziel Kinkakuji ist.
  • Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Ginkakuji“ ist, obwohl das Benutzerziel „Kinkakuji“ ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Kinkakuji ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Kinkakuji, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.
  • Ferner wird unten ein zweites Dialogbeispiel zwischen dem Benutzer und dem System 100 gemäß der obigen Verarbeitung beschrieben.
  • (Zweites Dialogbeispiel)
    • S0: Können Sie mir die Abfahrtsstadt nennen?
    • U0: Von Austin.
    • S1: Ist der erste Buchstabe der Stadt „b“ wie „bravo“?
    • U1: Nein.
    • S2: Ist dann der erste Buchstabe der Stadt „a“ wie „alpha“?
    • U2: Ja.
  • Die Äußerung S0 des Systems 100 entspricht der Anfangsfrage (2: S8).
  • Die Äußerung S1 des Systems 100 entspricht der Frage erster Ordnung Q1 (2: S1). Die Frage erster Ordnung Q1 wird gemäß den folgenden Tatsachen generiert: „Boston“ wird erkannt (falsch erkannt) anstelle von „Austin“ als Eingabespracheinheit erster Ordnung x1 (2: S4); „Austin“ wird als akustisch ähnliche Spracheinheit z1 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y11 bis y51 werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „b“ stehen, der ein andersartiger Teil δ1 zwischen zwei Spracheinheiten x1 und z1 ist (2: S6); und das englische Wort „bravo“ wird als eines ausgewählt, das den andersartigen Teil δ1 als die Ausgabespracheinheit erster Ordnung erster Art y11 darstellt (2: S7).
  • Die Äußerung S2 des Systems 100 entspricht der Frage zweiter Ordnung Q2 (2: S8). Die Frage zweiter Ordnung Q2 wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A1 erkannte Benutzeräußerung U1 ist negativ (2: S10 - NEIN); „Austin“ wird als Eingabespracheinheit zweiter Ordnung x2 erkannt (2: S4); „Boston“ wird als akustisch ähnliche Spracheinheit z2 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y12 bis y52 werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „a“ stehen, der ein andersartiger Teil δ2 zwischen zwei Spracheinheiten x2 und z2 ist (2: S6); und das englische Wort „alpha“, das den andersartigen Teil δ2 enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y12 ausgewählt (2: S7).
  • Gemäß der positiven Benutzeräußerung U2, die als Antwort zweiter Ordnung A2 erkannt wird (2: S10 - JA), gibt das System 100 die Äußerung basierend auf der Feststellung aus, dass das Benutzerziel Austin ist.
  • Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Boston“ ist, obwohl das Benutzerziel „Austin“ ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Austin ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Austin, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.

Claims (11)

  1. Dialogsystem (100) mit einem ersten Sprachabschnitt (101) zur Erkennung (S2) einer Äußerung eines Benutzers und einem zweiten Sprachabschnitt (102) zur Ausgabe einer Äußerung, wobei das Dialogsystem (100) umfasst: einen ersten Verarbeitungsabschnitt (111) zum Abrufen (S4) einer ersten, in der durch den ersten Sprachabschnitt (101) erkannten Äußerung eines Benutzers enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank (121), Abrufen (S6) mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank (122) und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abzurufen; und einen zweiten Verarbeitungsabschnitt (112) zur Auswahl (S7) einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen, zur Generierung (S8) einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts (102), die erste Frage auszugeben, wobei der zweite Verarbeitungsabschnitt (112) basierend auf einer auf die erste Frage folgenden Benutzerantwort feststellt (S10), ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
  2. Dialogsystem gemäß Anspruch 1, wobei ein erster Faktor der Faktoren den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in Massenmedien darstellt und ein zweiter Faktor der Faktoren den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt.
  3. Dialogsystem gemäß Anspruch 1, wobei der zweite Verarbeitungsabschnitt (112) die erste Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der ersten Eingabespracheinheit und jeder der mehreren ersten Ausgabespracheinheiten auswählt (S7).
  4. Dialogsystem gemäß Anspruch 1, wobei der erste Verarbeitungsabschnitt (111) beim Abrufen (S6) der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abruft: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der ersten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der ersten Eingabespracheinheit begrifflich ähnlich ist.
  5. Dialogsystem gemäß Anspruch 1, wobei, wenn der zweite Verarbeitungsabschnitt (112) basierend auf der Benutzerantwort feststellt (S10), dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, dann: der erste Verarbeitungsabschnitt (111) eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abruft (S12, S4, S5) und dieselbe als eine zweite Eingabespracheinheit definiert und dann mehrere Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank (122) abruft und als mehrere zweite Ausgabespracheinheiten definiert; und der zweite Verarbeitungsabschnitt (112) eine zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählt (S7), eine zweite Frage generiert (S8), die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen und den zweiten Sprachabschnitt (102) dazu veranlasst, die zweite Frage auszugeben, wobei der zweite Verarbeitungsabschnitt (112) basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt (S10), ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht.
  6. Dialogsystem gemäß Anspruch 5, wobei ein erster Faktor der Faktoren den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit in Massenmedien darstellt und ein zweiter Faktor der Faktoren den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt.
  7. Dialogsystem gemäß Anspruch 5, wobei der zweite Verarbeitungsabschnitt (112) die zweite Ausgabespracheinheit aus den mehreren zweiten Ausgabespracheinheiten basierend auf dem akustischen Abstand zwischen der zweiten Eingabespracheinheit und jeder der mehreren zweiten Ausgabespracheinheiten auswählt (S7).
  8. Dialogsystem gemäß Anspruch 5, wobei der erste Verarbeitungsabschnitt (111) beim Abrufen (S6) der mehreren Spracheinheiten zumindest eine der folgenden Spracheinheiten abruft: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der zweiten Eingabespracheinheit und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einer Fremdsprache entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der zweiten Eingabespracheinheit begrifflich ähnlich ist.
  9. Dialogsystem gemäß Anspruch 5, wobei, wenn der zweite Verarbeitungsabschnitt (112) feststellt, dass die Benutzerbedeutung nicht mit der zweiten Eingabespracheinheit übereinstimmt, der zweite Verarbeitungsabschnitt (112) eine Frage generiert, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt (102) veranlasst, die Frage auszugeben.
  10. Programm, das, wenn es auf einem Computer läuft oder auf einem Computer geladen wird, den Computer dazu veranlasst folgende Schritte auszuführen: Erkennen (S2) einer Äußerung eines Benutzers, Abrufen (S4) einer ersten, in der erkannten Benutzeräußerung enthaltenen Eingabespracheinheit aus einer ersten Wörterbuchdatenbank (121), Abrufen (S6) mehrerer Spracheinheiten bezüglich der ersten Eingabespracheinheit aus einer zweiten Wörterbuchdatenbank (122) und Definieren dieser als mehrere erste Ausgabespracheinheiten, wenn es möglich ist, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abzurufen, Auswählen (S7) einer ersten Ausgabespracheinheit aus den mehreren ersten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren ersten Ausgabespracheinheiten durch den Benutzer darstellen, Generieren (S8) einer ersten Frage, die auf der ausgewählten ersten Ausgabespracheinheit basiert, um eine Benutzerbedeutung zu erfragen, Ausgeben der ersten Frage und Ermitteln (S10) basierend auf einer auf die erste Frage folgenden Benutzerantwort, ob die Benutzerbedeutung mit der ersten Eingabespracheinheit übereinstimmt oder nicht.
  11. Programm gemäß Anspruch 10, wobei, wenn in dem Ermittlungsschritt (S10) basierend auf der Benutzerantwort feststellt wird, dass die Benutzerbedeutung nicht mit der ersten Eingabespracheinheit übereinstimmt, eine der ersten Eingabespracheinheit akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank (121) abgerufen (S12, S4, S5) und dieselbe als eine zweite Eingabespracheinheit definiert wird und dann mehrerer Spracheinheiten bezüglich der zweiten Eingabespracheinheit aus der zweiten Wörterbuchdatenbank (122) abgerufen und als mehrere zweite Ausgabespracheinheiten definiert werden; und eine zweite Ausgabespracheinheiten aus den mehreren zweiten Ausgabespracheinheiten mittels Faktoren, die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren zweiten Ausgabespracheinheiten durch den Benutzer darstellen, auswählt wird (S7), eine zweite Frage generiert (S8) und ausgegeben wird, die auf der ausgewählten zweiten Ausgabespracheinheit basiert, um die Benutzerbedeutung zu erfragen, und basierend auf einer auf die zweite Frage folgenden Benutzerantwort feststellt wird (S10), ob die Benutzerbedeutung mit der zweiten Eingabespracheinheit übereinstimmt oder nicht.
DE112006000225.2T 2005-02-28 2006-02-27 Dialogsystem und Dialogsoftware Expired - Fee Related DE112006000225B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US65721905P 2005-02-28 2005-02-28
US60/657,219 2005-02-28
PCT/JP2006/303613 WO2006093092A1 (ja) 2005-02-28 2006-02-27 会話システムおよび会話ソフトウェア

Publications (2)

Publication Number Publication Date
DE112006000225T5 DE112006000225T5 (de) 2007-12-13
DE112006000225B4 true DE112006000225B4 (de) 2020-03-26

Family

ID=36941121

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112006000225.2T Expired - Fee Related DE112006000225B4 (de) 2005-02-28 2006-02-27 Dialogsystem und Dialogsoftware

Country Status (4)

Country Link
US (1) US20080065371A1 (de)
JP (1) JP4950024B2 (de)
DE (1) DE112006000225B4 (de)
WO (1) WO2006093092A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751240B2 (en) * 2005-05-13 2014-06-10 At&T Intellectual Property Ii, L.P. Apparatus and method for forming search engine queries based on spoken utterances
JP2010282083A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 誤認識訂正装置、方法及びプログラム
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
JP6621613B2 (ja) * 2015-08-10 2019-12-18 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
CN107203265B (zh) * 2017-05-17 2021-01-22 广东美的制冷设备有限公司 信息交互方法和装置
WO2020202315A1 (ja) * 2019-03-29 2020-10-08 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
JP7104277B2 (ja) * 2019-03-29 2022-07-21 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
KR102479379B1 (ko) * 2022-09-19 2022-12-20 헬로칠드런 주식회사 현실세계의 다양한 소리, 이미지를 위치 정보 및 시간 정보와 연계한 홍보 이벤트 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020120452A1 (en) * 2001-02-27 2002-08-29 International Business Machines Corporation Disambiguation method and system for a voice activated directory assistance system
US6446039B1 (en) * 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program
US20040260543A1 (en) * 2001-06-28 2004-12-23 David Horowitz Pattern cross-matching

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5454063A (en) * 1993-11-29 1995-09-26 Rossides; Michael T. Voice input system for data retrieval
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
JPH10269226A (ja) * 1997-03-25 1998-10-09 Nippon Telegr & Teleph Corp <Ntt> 情報検索後処理方法及び装置
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
JPH11153998A (ja) * 1997-11-19 1999-06-08 Canon Inc 音声応答装置及びその方法、コンピュータ可読メモリ
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
JP3678360B2 (ja) * 2002-01-31 2005-08-03 日本電信電話株式会社 音声入力を利用する漢字文字列特定装置およびその方法
US20050049868A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446039B1 (en) * 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program
US20020120452A1 (en) * 2001-02-27 2002-08-29 International Business Machines Corporation Disambiguation method and system for a voice activated directory assistance system
US20040260543A1 (en) * 2001-06-28 2004-12-23 David Horowitz Pattern cross-matching

Also Published As

Publication number Publication date
WO2006093092A1 (ja) 2006-09-08
JPWO2006093092A1 (ja) 2008-08-07
US20080065371A1 (en) 2008-03-13
DE112006000225T5 (de) 2007-12-13
JP4950024B2 (ja) 2012-06-13

Similar Documents

Publication Publication Date Title
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE112006000225B4 (de) Dialogsystem und Dialogsoftware
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE60026637T2 (de) Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69514382T2 (de) Spracherkennung
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE69928181T2 (de) Verfahren und Vorrichtung zur Spracherkennung unter Verwendung einer Wissensbasis
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE69829235T2 (de) Registrierung für die Spracherkennung
DE60201262T2 (de) Hierarchische sprachmodelle
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
EP1611568B1 (de) Dreistufige einzelworterkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
WO1998010413A1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung

Legal Events

Date Code Title Description
8181 Inventor (new situation)

Inventor name: OKUNO, HIROSHI, KYOTO, JP

Inventor name: KOMATANI, KAZUNORI, KYOTO, JP

Inventor name: NAKANO, MIKIO, WAKO, SAITAMA, JP

R012 Request for examination validly filed

Effective date: 20121211

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee