DE112006000225T5 - Dialogsystem und Dialogsoftware - Google Patents

Dialogsystem und Dialogsoftware Download PDF

Info

Publication number
DE112006000225T5
DE112006000225T5 DE112006000225T DE112006000225T DE112006000225T5 DE 112006000225 T5 DE112006000225 T5 DE 112006000225T5 DE 112006000225 T DE112006000225 T DE 112006000225T DE 112006000225 T DE112006000225 T DE 112006000225T DE 112006000225 T5 DE112006000225 T5 DE 112006000225T5
Authority
DE
Germany
Prior art keywords
order
unit
speech
speech unit
processing section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112006000225T
Other languages
English (en)
Other versions
DE112006000225B4 (de
Inventor
Mikio Nakano
Hiroshi Okuno
Kazunori Komatani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of DE112006000225T5 publication Critical patent/DE112006000225T5/de
Application granted granted Critical
Publication of DE112006000225B4 publication Critical patent/DE112006000225B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Benutzeräußerung und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung, wobei das Dialogsystem umfasst:
einen ersten Verarbeitungsabschnitt zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und
einen zweiten Verarbeitungsabschnitt zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts, die Frage basierend auf einer durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit erster Ordnung auszugeben, und zur Feststellung ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch den ersten Sprachabschnitt erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf ein System zur Erkennung einer Benutzeräußerung und zur Ausgabe einer Äußerung an den Benutzer und auf Software zur Bereitstellung eines Computers mit notwendigen Funktionen zur Kommunikation mit dem Benutzer.
  • Bisheriger Stand der Technik
  • Beider Kommunikation zwischen einem Benutzer und einem System können ein Umgebungsgeräusch oder andere verschiedene Ursachen zu einem Fehler durch das System bei der Erkennung einer Benutzeräußerung führen (verhören). Folglich wurde bereits eine Technik zur Sprachausgabe vorgeschlagen, um den Inhalt der Benutzeräußerung in einem System zu bestätigen (siehe zum Beispiel die japanische offen gelegte Patentanmeldung Nr. 2002-351492). Gemäß dem System wird, wenn „Merkmale", „Merkmalswerte" und „Abstände zwischen den Merkmalswerten" für die Wörter festgelegt sind und mehrere Wörter erkannt werden, deren Merkmalswerte voneinander trotz eines gemeinsamen Merkmals verschieden sind und deren Unterschiede zwischen den Merkmalswerten (die Abstände zwischen den Merkmalswerten) jeweils gleich oder größer als ein Grenzwert während einer Kommunikation mit demselben Benutzer sind, eine Äußerung zur Bestätigung der Wörter ausgegeben.
  • Gemäß dem obigen System können jedoch in dem Fall des Auftretens von Verhören die Abstände zwischen den Merkmalswerten in manchen Fällen ungenau berechnet werden. Deshalb gibt es eine Wahrscheinlichkeit, dass der Dialog ohne Beseitigung einer Widersprüchlichkeit fortgesetzt wird, da das System die Benutzeräußerung als „B" erkennt, was akustisch ähnlich „A" ist, obwohl der Benutzer „A" spricht.
  • Daher ist es ein Ziel der vorliegenden Erfindung, ein System bereitzustellen, das in der Lage ist, mit einem Benutzer zu kommunizieren, während eine Widersprüchlichkeit zwischen einer Benutzeräußerung und einer erkannten Sprache zutreffender beseitigt wird, und Software bereitzustellen, die einen Computer mit Dialogfunktionen ausstattet.
  • Offenbarung der Erfindung
  • Um die obige Aufgabe zu lösen wird gemäß einem Gesichtspunkt der vorliegenden Erfindung ein Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Benutzeräußerung und einem zweiten Sprachabschnitt zur Sprachausgabe bereitgestellt, wobei das Dialogsystem umfasst: einen ersten Verarbeitungsabschnitt zum Abrufen einer Spracheinheit, die sich auf eine Eingabespracheinheit erster Ordnung bezieht, aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einen zweiten Verarbeitungsabschnitt zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen, und zur Veranlassung des zweiten Sprachabschnitts, die Frage basierend auf einer durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit erster Ordnung auszugeben, und zur Feststellung ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch den ersten Sprachabschnitt erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
  • Falls es möglich ist, die der „Eingabespracheinheit erster Ordnung" akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank abzurufen, könnte eine andere Spracheinheit in der Benutzeräußerung anstelle der Eingabespracheinheit erster Ordnung enthaften sein. Insbesondere könnte in diesem Fall der erste Sprachabschnitt die Eingabespracheinheit erster Ordnung so oder so falsch gehört haben. Angesichts dessen wird die auf die Eingabespracheinheit erster Ordnung bezogene „Ausgabespracheinheit erster Ordnung" aus der zweiten Wörterbuchdatenbank abgerufen.
  • Ferner wird die der Ausgabespracheinheit erster Ordnung entsprechende „Frage erster Ordnung" generiert und ausgegeben. Danach wird ermittelt, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf der „Antwort erster Ordnung", die als die Benutzeräußerung auf die Frage erster Ordnung erkannt wurde, übereinstimmt. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, während eine Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
  • „Spracheinheit" bedeutet ein Satz bestehend aus Buchstaben, Wörtern und mehreren Wörtern, einem langen Satz bestehend aus kurzen Sätzen o. ä.
  • Ferner ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten erster Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine der mehreren durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheiten erster Ordnung basierend auf Faktoren auswählt, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren Ausgabespracheinheiten erster Ordnung darstellen, und die Frage erster Ordnung basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung generiert.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung wird die Ausgabespracheinheit erster Ordnung basierend auf dem Faktor ausgewählt, der den Schwierigkeitsgrad bei der Erkennung aus mehreren Ausgabespracheinheiten erster Ordnung darstellt, wodurch der Benutzer die ausgewählte Ausgabespracheineinheit erster Ordnung leichter erkennen kann. Dadurch wird eine geeignete Frage erster Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert.
  • Ferner ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten erster Ordnung, die durch den ersten Verarbeitungsabschnitt erkannt wurden, basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der mehreren Ausgabespracheinheiten erster Ordnung auswählt.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung kann der Benutzer die ausgewählte Ausgabespracheinheit erster Ordnung leichter begrifflich oder akustisch erkennen. Dadurch wird eine geeignete Frage erster Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert.
  • Ferner ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten erster Ordnung basierend auf dem akustischen Abstand zwischen der Eingabespracheinheit erster Ordnung und jeder der mehreren Ausgabespracheinheiten erster Ordnung, die durch den ersten Verarbeitungsabschnitt erkannt wurden, auswählt.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung wird die Ausgabespracheinheit erster Ordnung aus mehreren Ausgabespracheinheiten erster Ordnung basierend auf den akustischen Abständen von den Eingabespracheinheiten erster Ordnung ausgewählt, wodurch der Benutzer die ausgewählte Ausgabespracheinheit erster Ordnung von der Eingabespracheinheit erster Ordnung akustisch leichter unterscheiden kann.
  • Ferner ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt als Ausgabespracheinheit erster Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit erster Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderem Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit erster Ordnung begrifflich ähnlich ist.
  • Noch weiter ist das Dialogsystem der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten erster Ordnung erkennt.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung ist es möglich, die Auswahlanzahl der Ausgabespracheinheiten erster Ordnung zu erhöhen, die die Basis zur Generierung der Frage erster Ordnung bilden. Deshalb kann die am besten geeignete Frage hinsichtlich der Bestimmung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung übereinstimmt, generiert werden.
  • Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, dann: der erste Verarbeitungsabschnitt eine der Eingabespracheinheit i-ter Ordnung akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abruft und dieselbe als eine Eingabespracheinheit (i+1)-ter Ordnung erkennt und eine Spracheinheit bezüglich der Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank abruft und dieselbe als eine Ausgabespracheinheit (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine Frage (i+1)-ter Ordnung generiert, um die Benutzerbedeutung zu erfragen, und den zweiten Sprachabschnitt veranlasst, dieselbe basierend auf der durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben und feststellt, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch den ersten Sprachabschnitt als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung wird die zur Eingabespracheinheit (i+1)-ter Ordnung gehörende „Ausgabespracheinheit (i+1)-ter Ordnung" aus der zweiten Wörterbuchdatenbank angesichts der Tatsache abgerufen, dass die „Eingabespracheinheit (i+1)-ter Ordnung" als eine der Eingabespracheinheit i-ter Ordnung akustisch ähnlichen Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, in der Benutzeräußerung enthalten sein könnte. Überdies wird die „Frage (i+1)-ter Ordnung" generiert und basierend auf der Ausgabespracheinheit (i+1)-ter Ordnung ausgegeben. Danach wird festgestellt, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf der „Antwort (i+1)-ter Ordnung", die als eine Benutzeräußerung auf die Frage (i+1)-ter Ordnung erkannt wird, übereinstimmt. Auf diese Weise werden mehrere Fragen an den Benutzer ausgegeben, um die Benutzerbedeutung zu erfragen. Dies ermöglicht einen Dialog zwischen dem Benutzer und dem System, während die Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
  • Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf Faktoren auswählt, die den Schwierigkeitsgrad bei der Erkennung der jeweils durch den ersten Verarbeitungsabschnitt erkannten mehreren Ausgabespracheinheiten (i+1)-ter Ordnung darstellen, und eine Frage (i+1)-ter Ordnung basierend auf den ausgewählten Ausgabespracheinheiten (i+1)-ter Ordnung generiert.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung wird die Ausgabespracheinheit (i+1)-ter Ordnung basierend auf den Faktoren ausgewählt, die den Schwierigkeitsgrad bei der Erkennung aus den mehreren Ausgabespracheinheiten (i+1)-ter Ordnung darstellen, wodurch der Benutzer die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung leichter erkennen kann. Dies ermöglicht die Generierung einer geeigneten Frage (i+1)-ter Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Ausgabespracheinheit (i+1)-ter Ordnung übereinstimmt.
  • Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines gegebenen Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung kann der Benutzer die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung leichter begrifflich oder akustisch erkennen. Dies ermöglicht die Generierung einer geeigneten Frage (i+1)-ter Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung übereinstimmt.
  • Noch weiter ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines gegebenen Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung kann die Ausgabespracheinheit (i+1)-ter Ordnung aus mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf dem akustischen Abstand von der Eingabespracheinheit i-ter Ordnung ausgewählt werden. Folglich kann die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung von der Eingabespracheinheit i-ter Ordnung akustisch leichter unterschieden werden. Überdies kann die Ausgabespracheinheit (i+1)-ter Ordnung aus den mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf dem akustischen Abstand von der Eingabespracheinheit (i+1)-ter Ordnung ausgewählt werden. Folglich kann die ausgewählte Ausgabespracheinheit (i+1)-ter Ordnung von der Eingabespracheinheit (i+1)-ter Ordnung akustisch leichter unterschieden werden.
  • Ferner ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt als eine Ausgabespracheinheit zweiter Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit (i+1)-ter Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderem Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit (i+1)-ter Ordnung begrifflich ähnlich ist.
  • Noch weiter ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten (i+1)-ter Ordnung erkennt.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung ist es möglich, die Auswahlanzahl der Ausgabespracheinheiten (i+1)-ter Ordnung zu erhöhen, die die Basis zur Generierung der Frage (i+1)-ter Ordnung bilden. Deshalb kann die am besten geeignete Frage (i+1)-ter Ordnung hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung übereinstimmt, generiert werden.
  • Überdies ist das Dialogsystem gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, der zweite Verarbeitungsabschnitt eine Frage generiert, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt veranlasst, die Frage auszugeben.
  • Gemäß dem Dialogsystem der vorliegenden Erfindung ist es in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, möglich, die Bedeutung erneut zu bestätigen.
  • Um die zuvor genannte Aufgabe zu lösen wird gemäß einem anderen Gesichtspunkt der vorliegenden Erfindung eine Dialogsoftware bereitgestellt, die in einer Computerspeichereinrichtung gespeichert wird, mit einer ersten Sprachfunktion zur Erkennung einer Benutzeräußerung und einer zweiten Sprachfunktion zur Ausgabe einer Äußerung, worin die Dialogsoftware den Computer ausstattet mit: einer ersten Verarbeitungsfunktion zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch die erste Sprachfunktion erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einer zweiten Verarbeitungsfunktion zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen, und zur Ausgabe derselben unter Verwendung der zweiten Sprachfunktion basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit erster Ordnung, und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch die erste Sprachfunktion erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
  • Gemäß der Dialogsoftware der vorliegenden Erfindung ist der Computer mit den Funktionen ausgestattet, mit dem Benutzer zu kommunizieren, während die Widersprüchlichkeit zwischen der Benutzeräußerung (oder -bedeutung) und der durch das System erkannten Sprache zuverlässiger verhindert wird.
  • Überdies ist die Dialogsoftware der vorliegenden Erfindung dadurch gekennzeichnet, dass, wenn die zweite Verarbeitungsfunktion feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, die Dialogsoftware den Computer ausstattet mit: einer Funktion als die erste Verarbeitungsfunktion zum Abrufen einer der Eingabespracheinheit i-ter Ordnung akustisch ähnlichen Spracheinheit aus der ersten Wörterbuchdatenbank und Erkennen derselben als eine Eingabespracheinheit (i+1)-ter Ordnung und zum Abrufen einer Spracheinheit bezüglich der Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit (i+1)-ter Ordnung; und einer Funktion als die zweite Verarbeitungsfunktion zur Generierung einer Frage (i+1)-ter Ordnung, um die Benutzerbedeutung zu erfragen, und die zweite Sprachfunktion zu veranlassen, dieselbe basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch die erste Sprachfunktion als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.
  • Gemäß der Dialogsoftware der vorliegenden Erfindung ist der Computer mit der Funktion ausgestattet, mehrere Fragen zu generieren, um die Benutzerbedeutung zu erfragen. Folglich ist der Computer mit einer Funktion ausgestattet, mit dem Benutzer zu kommunizieren, während die Benutzerbedeutung genauer verstanden wird und eine Widersprüchlichkeit zwischen der Benutzeräußerung und der durch das System erkannten Sprache zuverlässiger verhindert wird.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung.
  • 2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß der vorliegenden Erfindung.
  • Beste Art zur Ausführung der Erfindung
  • Bevorzugte Ausführungsformen eines Dialogsystems und einer Dialogsoftware gemäß der vorliegenden Erfindung werden unten unter Verwendung der beiliegenden Zeichnungen beschrieben.
  • In 1 ist ein Konfigurationsdiagramm eines Dialogsystems gemäß der vorliegenden Erfindung dargestellt. In 2 ist ein Funktionsdiagramm des Dialogsystems und der Dialogsoftware gemäß der vorliegenden Erfindung dargestellt.
  • Das Dialogsystem 100 (hierin nachstehend als „System" bezeichnet) besteht aus einem Computer als Hardware, der in einem an einem Kraftfahrzeug angebrachten Navigationssystem 10 (Navi-System) eingebaut ist und aus „Dialogsoftware" der vorliegenden Erfindung, die in einem Speicher des Computers gespeichert ist.
  • Das Dialogsystem 100 umfasst einen ersten Sprachabschnitt 101, einen zweiten Sprachabschnitt 102, einen ersten Verarbeitungsabschnitt 111, einen zweiten Verarbeitungsabschnitt 112, eine erste Wörterbuchdatenbank 121 und eine zweite Wörterbuchdatenbank 122.
  • Der erste Sprachabschnitt 101, der aus einem Mikrofon (nicht dargestellt) o. ä. besteht, erkennt eine Benutzeräußerung basierend auf einer Eingabestimme gemäß einer bekannten Technik, wie zum Beispiel einem Hidden-Markov-Modell.
  • Der zweite Sprachabschnitt 102, der aus einem Lautsprecher (nicht dargestellt) o. ä. besteht, gibt eine Stimme (oder eine Äußerung) aus.
  • Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten von Spracheinheiten bezüglich einer Eingabespracheinheit erster Ordnung aus der zweiten Wörterbuchdatenbank 122 ab und erkennt diese als Ausgabespracheinheiten erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheiten, die in der durch den ersten Sprachabschnitt 101 erkannten Äußerung enthalten ist, aus der ersten Wörterbuchdatenbank 121 abzurufen. Ferner erkennt der erste Verarbeitungsabschnitt 111 eine Ausgabespracheinheit höherer Ordnung, falls erforderlich, wie später beschrieben werden wird.
  • Der zweite Verarbeitungsabschnitt 112 wählt eine aus mehreren Arten der durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheiten erster Ordnung basierend auf der Eingabespracheinheit erster Ordnung aus. Außerdem generiert der zweite Verarbeitungsabschnitt 112 eine Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und veranlasst den zweiten Sprachabschnitt 102, dieselbe basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung auszugeben. Noch weiter stellt der zweite Verarbeitungsabschnitt 112 fest, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf der durch den ersten Sprachabschnitt 101 erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt. Ferner generiert der zweite Verarbeitungsabschnitt 112 eine Frage höherer Ordnung, falls erforderlich, wie später beschrieben wird und bestätigt die Benutzerbedeutung basierend auf einer Antwort höherer Ordnung.
  • Die erste Wörterbuchdatenbank 121 speichert mehrere Spracheinheiten, die als Eingabespracheinheiten (i+1)-ter Ordnung (i = 1, 2, --) durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
  • Die zweite Wörterbuchdatenbank 122 speichert mehrere Spracheinheiten, die als Ausgabespracheinheiten i-ter Ordnung durch den ersten Verarbeitungsabschnitt 111 erkannt werden können.
  • Funktionen des Systems 100 mit der obigen Anordnung werden unter Verwendung der 2 beschrieben.
  • Zuerst gibt der zweite Sprachabschnitt 102 als Antwort auf eine Benutzerbedienung des Navi-Systems 10 zum Zweck der Einstellung eines Ziels eine Anfangsäußerung „Wo befindet sich Ihr Ziel?" aus (2: S1). Als Antwort auf die Anfangsäußerung spricht der Benutzer ein Wort, das ein Ziel bedeutet, und der erste Sprachabschnitt 101 erkennt dann diese Äußerung (2: S2). Zu diesem Zeitpunkt wird der Index i, der die Ordnung der Eingabespracheinheit, Ausgabespracheinheit, Frage und Antwort darstellt, auf 1 gesetzt (2: S3).
  • Außerdem wandelt der erste Verarbeitungsabschnitt 111 die durch den ersten Sprachabschnitt 101 erkannte Äußerung in eine Spracheinheitenkette um und extrahiert dann eine in der ersten Wörterbuchdatenbank 121 als „Bezirksbezeichnung", „Gebäudebezeichnung" o. ä. klassifizierte Spracheinheit aus der Spracheinheit und erkennt dieselbe als eine Eingabespracheinheit i-ter Ordnung xi (2: S4). Die Klassifizierung der aus der Spracheinheitenkette extrahierten Spracheinheit basiert auf einem Gebiet, in dem eine Navi-Einheit 1 dem Benutzer eine Fahrroute bis zum Ziel zeigt.
  • Ferner ermittelt der erste Verarbeitungsabschnitt 111, ob eine der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 abgerufen werden kann, mit anderen Worten, ob das akustisch ähnliche Wort in der ersten Wörterbuchdatenbank 121 gespeichert ist (2: S5). Die einander akustisch ähnlichen Spracheinheiten xi und xj bedeuten, dass der durch die folgende Gleichung (1) definierte akustische Abstand pd(xi, xj) kleiner als ein Grenzwert ist: pd(xi, xj) = ed(xi, xj)/ln[min(|xj|, |xj|) + 1] (1)
  • In der Gleichung (1) ist |x| die Zahl der Phoneme (oder phonetischer Einheiten), die in der Spracheinheit x enthalten ist. Der Begriff „Phonem" bedeutet die kleinste Schalleinheit, die in einer Sprache verwendet wird, definiert vom Standpunkt einer Diskriminierungsfunktion.
  • Ferner ist ed(xi, xj) ein Bearbeitungsabstand zwischen der Spracheinheit xi und xj, und wird durch DP-Matching erhalten unter der Bedingung, dass die Kosten auf 1 gesetzt sind, wenn sich die Zahl der Moras (der Begriff „Mora" bedeutet die kleinste Einheit einer japanischen Aussprache) oder der Phoneme verändert, und dass die Kosten auf 2 gesetzt sind, wenn sich die Zahl der Moras oder der Phoneme zum Zeitpunkt des Einfügens, Löschens oder Ersetzens von Phonemen bei der Umwandlung einer Phonemkette der Spracheinheit xj in eine Phonemkette der Spracheinheit xj nicht verändert.
  • Der erste Verarbeitungsabschnitt 111 ruft mehrere Arten der Ausgabespracheinheiten i-ter Ordnung yki = yk(xi) (k = 1 bis 5), die in Beziehung zu der Eingabespracheinheit i-ter Ordnung xi stehen, aus der zweiten Wörterbuchdatenbank 122 ab (2: S6), wenn er feststellt, dass eine der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 – JA).
  • Insbesondere ruft der erste Verarbeitungsabschnitt 111 eine Spracheinheit, die einen andersartigen Teil δi = δ(xi, zi) von der akustisch ähnlichen Spracheinheit zi in der Eingabespracheinheit i-ter Ordnung xi enthält, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung erster Art y1i = y1(xi). Zum Beispiel wird, wenn die Eingabespracheinheit i-ter Ordnung xi ein Wort ist, das eine Ortsbezeichnung „Boston" angibt, und die akustisch ähnliche Spracheinheit zi ein Wort ist, das eine Ortsbezeichnung „Austin" angibt, „b" des Anfangsbuchstabens der Eingabespracheinheit i-ter Ordnung xi als der andersartige Teil δi extrahiert. Zusätzlich wird „bravo" als eine Spracheinheit abgerufen, die den andersartigen Teil δi enthält.
  • Überdies ruft der erste Verarbeitungsabschnitt 111 eine von der Lesung p1i = p1i) (ursprüngliche Lesung) andersartige Lesung p2i = p2i) des andersartigen Teils δi aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung zweiter Art y2i = y2(xi). Zum Beispiel gibt es im Japanischen unterschiedliche Lesungen und zwar die chinesische Lesung und die japanische Lesung in den meisten Kanji. Wenn deshalb die ursprüngliche Lesung des Kanji
    Figure 00140001
    das der andersartige Teil δi ist, in der chinesischen Lesung „gin" ist, wird die japanische Lesung des Kanji „shirogane" als die Ausgabespracheinheit i-ter Ordnung zweiter Art y2i erkannt.
  • Ferner ruft der erste Verarbeitungsabschnitt 111 die Lesung p(f) einer Spracheinheit f = f(δi), was den andersartigen Teil δi in einer anderen Spracheinheit bedeutet, aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung dritter Art y3i = y3(xi). Wenn zum Beispiel ein Kanji
    Figure 00140002
    im Japanischen der andersartige Teil δi ist, wird die Lesung „sirubaa" des englischen Worts „Silber", welches das zuvor genannte Kanji bedeutet, als die Ausgabespracheinheit i-ter Ordnung dritter Art y3i erkannt.
  • Wenn außerdem die Lesung p(δi) des andersartigen Teils δi aus mehreren Moras (oder Phonemen) besteht, ruft der erste Verarbeitungsabschnitt 111 ein Phonemzeichen, das eine Mora darstellt, wie zum Beispiel die erste Mora oder einen die Mora erläuternden Satz, unter mehreren Moras aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung vierter Art y4i = y4(xi). Wenn zum Beispiel ein Kanji
    Figure 00140003
    im Japanischen der andersartige Teil δi ist, wird das erste Morazeichen „ni" als die Ausgabespracheinheit i-ter Ordnung vierter Art y4i in der Lesung p(δi) „nishi" erkannt. Zusätzlich gibt es Kategorien: Resonanzlaut, P-Laut (Konsonant: p) und Dumpflaut (Konsonant: g, z, d, b) in japanischen Moras. Deshalb werden die Wörter „Resonanzlaut", „P-Laut" und „Dumpflaut", die die Kategorien angeben, als die Ausgabespracheinheit i-ter Ordnung vierter Art y4i erkannt.
  • Ferner ruft der erste Verarbeitungsabschnitt 111 eine in Bezug zu der Eingabespracheinheit i-ter Ordnung xi stehende Spracheinheit aus der zweiten Wörterbuchdatenbank 122 ab und erkennt dieselbe als eine Ausgabespracheinheit i-ter Ordnung fünfter Art y5i = y5(xi). Zum Beispiel wird eine durch die Eingabespracheinheit i-ter Ordnung xi dargestellte Spracheinheit (ein Ortsname) g = g(xi), die ein Gebiet einschließlich des Ziels darstellt, als die Ausgabespracheinheit i-ter Ordnung fünfter Art y5i erkannt.
  • Mehrere Spracheinheiten können als Ausgabespracheinheit i-ter Ordnung k-ter Art erkannt werden. Wenn zum Beispiel der andersartige Teil δi ein Kanji
    Figure 00140004
    ist, können sowohl ein Satz
    Figure 00150001
    Schweigen ist Gold)", der als historisches Idiom klassifiziert ist als auch ein Name
    Figure 00150002
    der als Prominentenname klassifiziert ist, als die Ausgabespracheinheit i-ter Ordnung erster Art y1i erkannt werden.
  • Wenn auf der anderen Seite der erste Verarbeitungsabschnitt 111 feststellt, dass die der Eingabespracheinheit i-ter Ordnung xi akustisch ähnliche Spracheinheit nicht in der ersten Wörterbuchdatenbank 121 eingetragen ist (2: S5 – NEIN), wird die nächste Verarbeitung gemäß einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung x1 für die Festlegung der Benutzerzielbezeichnung verwendet wird. Dabei gibt zum Beispiel der zweite Sprachabschnitt 102 eine Äußerung aus „Dann zeige ich Ihnen die Route zum Ziel x1" o. ä. Zusätzlich führt das Navi-System 10 das Einstellen der Verarbeitung für die Route zu dem durch die Eingabespracheinheit i-ter Ordnung xi angegeben Ziel durch.
  • Anschließend wählt der zweite Verarbeitungsabschnitt 112 eine aus der ersten bis fünften durch den ersten Verarbeitungsabschnitt 111 erkannten Ausgabespracheinheit i-ter Ordnung yki aus (2: S7).
  • Insbesondere berechnet der zweite Verarbeitungsabschnitt 112 eine Indexmaßzahl1 i-ter Ordnung (yki) in Übereinstimmung mit der folgenden Gleichung (2) in Bezug auf die verschiedenen Ausgabespracheinheiten i-ter Ordnung yki und wählt dann die Ausgabespracheinheit i-ter Ordnung yki mit der höchsten Indexmaßzahl1 j-ter Ordnung (yki) aus. Maßzahhl1 (yki) = W1·c1(yk1) + W2·c2(Yk1) + W3·pd(x1, yk1), Maßzahli+1 (yki+1) = W1·c1(yki+1) + W2·c2(yki+1) + W3·pd(xi, yki+1) + W4·pd(Yki, Yki+1) (2)
  • In der Gleichung (2) sind W1 bis W4 Gewichtungsfaktoren. c1(yki) ist ein erster Faktor, der den Schwierigkeitsgrad (Bekanntschaftsgrad) bei der begrifflichen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art yki darstellt. Als erster Faktor wird die Trefferzahl aus einer Internetsuchmaschine, wobei die Ausgabespracheinheit i-ter Ordnung yki als Stichwort verwendet wird, die Auftrittshäufigkeit in Massenmedien, wie zum Beispiel große Zeitungen und Rundfunk o. ä., verwendet. Zusätzlich ist c2(yki) ein zweiter Faktor, der den Schwierigkeitsgrad (eine Eindeutigkeit bei der Aussprache oder Hörbarkeit) bei der akustischen Erkennung der Ausgabespracheinheit i-ter Ordnung k-ter Art yki darstellt. Als zweiter Faktor wird zum Beispiel der Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl (zum Beispiel 10) anderer Spracheinheiten verwendet (Homonyme usw.). pd(x, y) ist ein durch die Gleichung (1) definierter akustischer Abstand zwischen der Spracheinheit x und y.
  • Anschließend generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi = Q(yi), um die Benutzerbedeutung basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung yki zu erfragen, und veranlasst den zweiten Sprachabschnitt 102, dieselbe auszugeben (2: S8).
  • Zum Beispiel generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δi, der in y1i enthalten ist?", in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung erster Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch den andersartigen Teil δi verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi (zum Beispiel eine in der Sprache enthaltene Ortsbezeichnung oder Gebäudebezeichnung) richtig oder falsch ist.
  • Zusätzlich generiert er die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben, der wie p2i gelesen (oder ausgesprochen) wird?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung zweiter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die von der ursprünglichen Lesung p1i verschiedene Lesung p2i des andersartigen Teils δi verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen Buchstaben δi, der p in einer fremden Sprache bedeutet (zum Beispiel Englisch für Japanischsprecher)?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung dritter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die Lesung p(f) der Spracheinheit f = f(δi), die den andersartigen Teil δi in einer anderen Spracheinheit bedeutet, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Noch überdies generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Enthält die Zielbezeichnung einen n-ten Buchstaben, der wie p(δi) ausgesprochen wird?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung vierter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch einen Buchstaben, der eine Mora oder einen die Mora erläuternden Satz in der Lesung p(δi) des andersartigen Teils δi darstellt, verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Ferner generiert der zweite Verarbeitungsabschnitt 112 die Frage i-ter Ordnung Qi, wie zum Beispiel „Ist das Ziel in g enthalten?" in Übereinstimmung mit der Auswahl der Ausgabespracheinheit i-ter Ordnung fünfter Art y1i. Diese Frage i-ter Ordnung Qi wird bei der indirekten Bestätigung mit dem Benutzer durch die begrifflich in Bezug zu der Eingabespracheinheit i-ter Ordnung xi stehenden Spracheinheit verwendet, ob die Erkennung der Eingabespracheinheit i-ter Ordnung xi richtig oder falsch ist.
  • Überdies erkennt der erste Sprachabschnitt 101 eine Antwort i-ter Ordnung Ai als Benutzeräußerung auf die Frage i-ter Ordnung Qi (2: S9). Zusätzlich ermittelt der zweite Verarbeitungsabschnitt 112, ob die Antwort i-ter Ordnung Ai positiv gleich „JA" oder negative gleich „NEIN" ist (2: S10).
  • Wenn dann der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung Ai positiv ist (2: S10 – JA), wird die nächste Verarbeitung in Übereinstimmung mit einer Einschätzung durchgeführt, dass die Eingabespracheinheit i-ter Ordnung xi für die Festlegung der Benutzerzielbezeichnung verwendet wird.
  • Wenn auf der anderen Seite der zweite Verarbeitungsabschnitt 112 feststellt, dass die Antwort i-ter Ordnung Ai negativ ist (2: S10 – NEIN), wird festgestellt, ob eine Bedingung erfüllt ist, dass der Index i kleiner als eine gegebene Zahl j (> 2) ist (2: S11). Wenn die Bedingung erfüllt ist (2: S11 – JA), wird der Index um 1 erhöht (2: S12) und die Verarbeitung von S4 bis S10 wiederholt. Bei dieser Verarbeitung ruft der erste Verarbeitungsabschnitt 111 eine der Eingabespracheinheit (i-1)-ter Ordnung xi-1 (i > 2) akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank 121 ab und erkennt dieselbe als die Eingabespracheinheit i-ter Ordnung xi. Die akustisch ähnliche Spracheinheit zi-1 der Eingabespracheinheit (i-1)-ter Ordnung xi-1 kann ebenso als die Eingabespracheinheit i-ter Ordnung xi erkannt werden. Sofern außerdem die Bedingung nicht erfüllt ist (2: S11 – NEIN), wird die Kommunikation mit dem Benutzer erneut von Beginn an auf eine solche Weise gestartet, dass der zweite Sprachabschnitt 102 eine Anfangsäußerung neu ausgibt (2: S1).
  • Gemäß dem Dialogsystem 100 (und der Dialogsoftware), das die obigen Funktionen verwirklicht, wird eine aus mehreren Arten der Ausgabespracheinheiten i-ter Ordnung yki basierend auf dem ersten Faktor c1, der den Schwierigkeitsgrad bei der begrifflichen Erkennung darstellt, und dem zweiten Faktor c2, der den Schwierigkeitsgrad bei der akustischen Erkennung darstellt, mit Bezug auf jede der Ausgabespracheinheiten i-ter Ordnung yki ausgewählt (2: S6, S7). Zusätzlich wird die Frage i-ter Ordnung Qi basierend auf der ausgewählten Ausgabespracheinheit i-ter Ordnung yki generiert (2: S8). Dadurch wird die am besten geeignete Frage i-ter Ordnung Qi hinsichtlich der Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung xi übereinstimmt, generiert. Wenn festgestellt wird, dass eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Systemerkennung besteht, wird eine neue Frage generiert (2: S10 – NEIN, S4 bis S10). Deshalb ist es möglich, einen Dialog zwischen dem Benutzer und dem System 100 bereitzustellen, während die Widersprüchlichkeit zwischen der Benutzeräußerung (Bedeutung) und der durch das System 100 erkannten Sprache zuverlässig vermieden wird.
  • Sofern ferner die Benutzerbedeutung nicht mit der Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, wird eine Anfangsfrage generiert, um den Benutzer aufzufordern, erneut zu sprechen (2: S11 – NEIN, S1). Dadurch kann in dem Fall, in dem die Benutzerbedeutung nicht durch die der Reihe nach ausgegebenen Fragen bestätigt werden kann, die Bedeutung erneut bestätigt werden.
  • Ein erstes Dialogbeispiel zwischen dem Benutzer und dem Dialogsystem 100 wird unten gemäß der obigen Verarbeitung beschrieben, wobei U die Äußerung des Benutzers und S die Äußerung des Dialogsystems 100 ist.
  • (Erstes Dialogbeispiel)
    • S0: Wo liegt Ihr Ziel?
    • U0: Kinkakuji
      Figure 00190001
      Goldener Pavillon).
    • S1: Enthält die Zielbezeichnung einen Buchstaben
      Figure 00190002
      der Silber in Englisch bedeutet?
    • U1: Nein.
    • S2: Nun, enthält die Zielbezeichnung einen Buchstaben
      Figure 00190003
      wie er in
      Figure 00190004
      (Schweigen ist Gold)" verwendet wird?
    • U2: Ja.
    • S3: Dann zeige ich Ihnen die Route nach Kinkakuji.
  • Die Äußerung S0 des Systems 100 entspricht einer Anfangsfrage (2: S1).
  • Die Äußerung S1 des Systems 100 entspricht der Frage erster Ordnung Q1 (2: S8). Die Frage erster Ordnung Q1 wird gemäß den folgenden Tatsachen generiert: „Ginkakuji (Silberner Pavillon)" wird erkannt (falsch erkannt) anstelle von „Kinkakuji" als Eingabespracheinheit erster Ordnung x1 (2: S4); „Kinkakuji" wird als akustisch ähnliche Spracheinheit z1 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y11 bis y51 werden als jene erkannt, die in Bezug zu dem Kanji
    Figure 00190005
    stehen, das ein andersartiger Teil δ1 zwischen den zwei Spracheinheiten x1 und z1 ist (2: S6); und die Lesung des japanischen Worts „sirubaa" wird als eines ausgewählt, das dem englischen Wort „Silber" entspricht, das den andersartigen Teil δ1 als Ausgabespracheinheit erster Ordnung dritter Art y31 darstellt (2: S7).
  • Die Äußerung S2 des Systems 100 entspricht der Frage zweiter Ordnung Q2 (2: S8). Die Frage zweiter Ordnung Q2 wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A1 erkannte Benutzeräußerung U1 ist negativ (2: S10 – NEIN); „Kinkakuji" wird als Eingabespracheinheit zweiter Ordnung x2 erkannt (2: S4); „Ginkakuji" wird als akustisch ähnliche Spracheinheit z2 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y12 bis y52 werden als jene erkannt, die in Bezug zu dem Kanji
    Figure 00190006
    stehen, das ein andersartiger Teil δ2 zwischen den zwei Spracheinheiten x2 und z2 ist (2: S6); und das historische Idiom
    Figure 00200001
    das den andersartigen Teil δ2 enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y12 ausgewählt (2: S7).
  • Gemäß der positiven Benutzeräußerung U2, die als Antwort zweiter Ordnung A2 erkannt wird (2: S10 – JA), gibt das System 100 die Äußerung U4 basierend auf der Feststellung aus, dass das Benutzerziel Kinkakuji ist.
  • Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Ginkakuji" ist, obwohl das Benutzerziel „Kinkakuji" ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Kinkakuji ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Kinkakuji, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.
  • Ferner wird unten ein zweites Dialogbeispiel zwischen dem Benutzer und dem System 100 gemäß der obigen Verarbeitung beschrieben.
  • (Zweites Dialogbeispiel)
    • S0: Können Sie mir die Abfahrtsstadt nennen?
    • U0: Von Austin.
    • S1: Ist der erste Buchstabe der Stadt „b" wie „bravo"?
    • U1: Nein.
    • S2: Ist dann der erste Buchstabe der Stadt „a" wie „alpha"?
    • U2: Ja.
  • Die Äußerung S0 des Systems 100 entspricht der Anfangsfrage (2: S8).
  • Die Äußerung S1 des Systems 100 entspricht der Frage erster Ordnung Q1 (2: S1). Die Frage erster Ordnung Q1 wird gemäß den folgenden Tatsachen generiert: „Boston" wird erkannt (falsch erkannt) anstelle von „Austin" als Eingabespracheinheit erster Ordnung x1 (2: S4); „Austin" wird als akustisch ähnliche Spracheinheit z1 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten erster Ordnung y11 bis y51 werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „b" stehen, der ein andersartiger Teil δ zwischen zwei Spracheinheiten x1 und z1 ist (2: S6); und das englische Wort „bravo" wird als eines ausgewählt, das den andersartigen Teil δ1 als die Ausgabespracheinheit erster Ordnung erster Art y11 darstellt (2: S7).
  • Die Äußerung S2 des Systems 100 entspricht der Frage zweiter Ordnung Q2 (2: S8). Die Frage zweiter Ordnung Q2 wird entsprechend der folgenden Tatsachen generiert: die als Antwort erster Ordnung A1 erkannte Benutzeräußerung U1 ist negativ (2: S10 – NEIN); „Austin" wird als Eingabespracheinheit zweiter Ordnung x2 erkannt (2: S4); „Boston" wird als akustisch ähnliche Spracheinheit z2 erkannt (2: S5); fünf Arten der Ausgabespracheinheiten zweiter Ordnung y12 bis y52 werden als jene erkannt, die in Bezug zu dem englischen Buchstaben „a" stehen, der ein andersartiger Teil δ2 zwischen zwei Spracheinheiten x2 und z2 ist (2: S6); und das englische Wort „alpha", das den andersartigen Teil δ2 enthält, wird als Ausgabespracheinheit zweiter Ordnung erster Art y12 ausgewählt (2: S7).
  • Gemäß der positiven Benutzeräußerung U2, die als Antwort zweiter Ordnung A2 erkannt wird (2: S10 – JA), gibt das System 100 die Äußerung basierend auf der Feststellung aus, dass das Benutzerziel Austin ist.
  • Dies vermeidet die Situation, in der der Dialog zwischen dem Benutzer und dem System 100 fortschreitet, obwohl eine solche Widersprüchlichkeit auftritt, dass das durch das System 100 erkannte Ziel „Boston" ist, obwohl das Benutzerziel „Austin" ist. Mit anderen Worten kann das System 100 richtigerweise erkennen, dass das Benutzerziel Austin ist. Folglich kann das Navi-System 10 eine geeignete Verarbeitung, wie zum Beispiel das Einstellen einer Fahrroute nach Austin, hinsichtlich der Benutzerbedeutung basierend auf der Erkennung des Systems 100 durchführen.
  • ZUSAMMENFASSUNG DER OFFENBARUNG
  • Ein System oder dergleichen wird bereitgestellt, das in der Lage ist, mit einem Benutzer zu kommunizieren, während auf geeignete Weise eine Widersprüchlichkeit zwischen einer Benutzeräußerung und einer erkannten Sprache beseitigt wird.
  • Gemäß dem Dialogsystem 100 der vorliegenden Erfindung wird eine Frage i-ter Ordnung Qi, um eine Benutzerbedeutung zu ertragen, basierend auf einer Ausgabespracheinheit i-ter Ordnung yki bezüglich einer Eingabespracheinheit i-ter Ordnung xi (i = 1, 2, --), die in der erkannten Äußerung enthalten ist, generiert. Dadurch wird festgestellt, ob es eine Widersprüchlichkeit zwischen der Benutzerbedeutung und der Eingabespracheinheit i-ter Ordnung xi basierend auf einer als eine Benutzerantwort erkannten Antwort i-ter Ordnung Ai auf die Frage i-ter Ordnung Qi gibt.

Claims (15)

  1. Dialogsystem mit einem ersten Sprachabschnitt zur Erkennung einer Benutzeräußerung und einem zweiten Sprachabschnitt zur Ausgabe einer Äußerung, wobei das Dialogsystem umfasst: einen ersten Verarbeitungsabschnitt zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch den ersten Sprachabschnitt erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einen zweiten Verarbeitungsabschnitt zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen und zur Veranlassung des zweiten Sprachabschnitts, die Frage basierend auf einer durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit erster Ordnung auszugeben, und zur Feststellung ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch den ersten Sprachabschnitt erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
  2. Dialogsystem gemäß Anspruch 1, worin: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten erster Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten erster Ordnung basierend auf Faktoren auswählt, die die Schwierigkeitsgrade bei der Erkennung der jeweils mehreren Ausgabespracheinheiten erster Ordnung darstellen, und die Frage erster Ordnung basierend auf der ausgewählten Ausgabespracheinheit erster Ordnung generiert.
  3. Dialogsystem gemäß Anspruch 2, worin der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten erster Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, hinsichtlich jeder der mehreren Ausgabespracheinheiten erster Ordnung auswählt.
  4. Dialogsystem gemäß Anspruch 2, worin der zweite Verarbeitungsabschnitt eine aus mehreren Ausgabespracheinheiten erster Ordnung basierend auf dem akustischen Abstand zwischen der Eingabespracheinheit erster Ordnung und jeder der mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten erster Ordnung auswählt.
  5. Dialogsystem gemäß Anspruch 2, worin der erste Verarbeitungsabschnitt als Ausgabespracheinheit erster Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit erster Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderen Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit erster Ordnung begrifflich ähnlich ist.
  6. Dialogsystem gemäß Anspruch 5, worin der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten erster Ordnung erkennt.
  7. Dialogsystem gemäß Anspruch 1, worin, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, dann: der erste Verarbeitungsabschnitt eine der Eingabespracheinheit i-ter Ordnung akustisch ähnliche Spracheinheit aus der ersten Wörterbuchdatenbank abruft und dieselbe als eine Eingabespracheinheit (i+1)-ter Ordnung erkennt und dann eine Spracheinheit bezogen auf die Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank abruft und dieselbe als eine Ausgabespracheinheit (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine Frage (i+1)-ter Ordnung generiert, um die Benutzerbedeutung zu erfragen, und den zweiten Sprachabschnitt veranlasst, dieselbe basierend auf der durch den ersten Verarbeitungsabschnitt erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben und dann feststellt, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch den ersten Sprachabschnitt als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.
  8. Dialogsystem gemäß Anspruch 7, worin: der erste Verarbeitungsabschnitt mehrere Ausgabespracheinheiten (i+1)-ter Ordnung erkennt; und der zweite Verarbeitungsabschnitt eine aus den mehreren Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf Faktoren auswählt, die den Schwierigkeitsgrad bei der Erkennung der jeweils durch den ersten Verarbeitungsabschnitt erkannten mehreren Ausgabespracheinheiten (i+1)-ter Ordnung darstellen, und eine Frage (i+1)-ter Ordnung basierend auf den ausgewählten Ausgabespracheinheiten (i+1)-ter Ordnung generiert.
  9. Dialogsystem gemäß Anspruch 8, worin der zweite Verarbeitungsabschnitt eine aus mehreren durch die erste Verarbeitungseinheit erkannte Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl auf einem ersten Faktor, der den Schwierigkeitsgrad bei der Begriffserkennung oder die Auftrittshäufigkeit innerhalb eines gegebenen Bereichs darstellt, als auch einem zweiten Faktor, der den Schwierigkeitsgrad bei der akustischen Erkennung oder einen Mindestdurchschnitt akustischer Abstände von einer gegebenen Zahl anderer Spracheinheiten darstellt, bezüglich jeder der mehreren Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
  10. Dialogsystem gemäß Anspruch 7, worin der zweite Verarbeitungsabschnitt eine aus mehreren durch den ersten Verarbeitungsabschnitt erkannte Ausgabespracheinheiten (i+1)-ter Ordnung basierend auf einem oder sowohl einem akustischen Abstand zwischen der Eingabespracheinheit i-ter Ordnung und jeder der mehreren Ausgabespracheinheiten (i+1)-ter als auch einem akustischen Abstand zwischen der Eingabespracheinheit (i+1)-ter Ordnung und mehreren Ausgabespracheinheiten (i+1)-ter Ordnung auswählt.
  11. Dialogsystem gemäß Anspruch 8, worin der erste Verarbeitungsabschnitt als eine Ausgabespracheinheit zweiter Ordnung einen Teil oder alle Arten erkennt: eine Spracheinheit erster Art, die einen andersartigen Teil zwischen der Eingabespracheinheit (i+1)-ter Ordnung und einer dazu akustisch ähnlichen Spracheinheit enthält; eine Spracheinheit zweiter Art, die eine von der ursprünglichen Lesung verschiedene Lesung in dem andersartigen Teil darstellt; eine Spracheinheit dritter Art, die eine Lesung einer Spracheinheit darstellt, die dem andersartigen Teil in einem anderem Sprachsystem entspricht; eine Spracheinheit vierter Art, die ein in dem andersartigen Teil enthaltenes Phonem darstellt; und eine Spracheinheit fünfter Art, die der Eingabespracheinheit (i+1)-ter Ordnung begrifflich ähnlich ist.
  12. Dialogsystem gemäß Anspruch 9, worin der erste Verarbeitungsabschnitt mehrere Spracheinheiten aus der Spracheinheitengruppe k-ter Art (k = 1 bis 5) als Ausgabespracheinheiten (i+1)-ter Ordnung erkennt.
  13. Dialogsystem gemäß Anspruch 7, worin, wenn der zweite Verarbeitungsabschnitt feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit j-ter Ordnung (j ≥ 2) übereinstimmt, der zweite Verarbeitungsabschnitt eine Frage generiert, die den Benutzer auffordert, erneut zu sprechen und den zweiten Sprachabschnitt veranlasst, die Frage auszugeben.
  14. Dialogsoftware, die in einer Computerspeichereinrichtung gespeichert wird, mit einer ersten Sprachfunktion zur Erkennung einer Benutzeräußerung und einer zweiten Sprachfunktion zur Ausgabe einer Äußerung, worin die Dialogsoftware den Computer ausstattet mit: einer ersten Verarbeitungsfunktion zum Abrufen einer Spracheinheit bezüglich einer Eingabespracheinheit erster Ordnung aus einer zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit erster Ordnung mit einer Forderung, dass es möglich ist, eine einer Eingabespracheinheit erster Ordnung akustisch ähnliche Spracheinheit, die in der durch die erste Sprachfunktion erkannten Äußerung enthalten ist, aus einer ersten Wörterbuchdatenbank abzurufen; und einer zweiten Verarbeitungsfunktion zur Generierung einer Frage erster Ordnung, um eine Benutzerbedeutung zu erfragen, und zur Ausgabe derselben unter Verwendung der zweiten Sprachfunktion basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit erster Ordnung, und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit erster Ordnung basierend auf einer durch die erste Sprachfunktion erkannten Antwort erster Ordnung als eine Benutzerantwort auf die Frage erster Ordnung übereinstimmt oder nicht.
  15. Dialogsystem gemäß Anspruch 14, worin, wenn die zweite Verarbeitungsfunktion feststellt, dass die Benutzerbedeutung nicht mit einer Eingabespracheinheit i-ter Ordnung (i = 1, 2, --) übereinstimmt, die Dialogsoftware den Computer ausstattet mit: einer Funktion als die erste Verarbeitungsfunktion zum Abrufen einer der Eingabespracheinheit i-ter Ordnung akustisch ähnlichen Spracheinheit aus der ersten Wörterbuchdatenbank und Erkennen derselben als eine Eingabespracheinheit (i+1)-ter Ordnung und zum Abrufen einer Spracheinheit bezüglich der Eingabespracheinheit (i+1)-ter Ordnung aus der zweiten Wörterbuchdatenbank und Erkennen derselben als eine Ausgabespracheinheit (i+1)-ter Ordnung; und einer Funktion als die zweite Verarbeitungsfunktion zur Generierung einer Frage (i+1)-ter Ordnung, um die Benutzerbedeutung zu erfragen, und die zweite Sprachfunktion zu veranlassen, dieselbe basierend auf der durch die erste Verarbeitungsfunktion erkannten Ausgabespracheinheit (i+1)-ter Ordnung auszugeben, und zur Feststellung, ob die Benutzerbedeutung mit der Eingabespracheinheit (i+1)-ter Ordnung basierend auf einer Antwort (i+1)-ter Ordnung, die durch die erste Sprachfunktion als eine Benutzerantwort auf die Frage (i+1)-ter Ordnung erkannt wurde, übereinstimmt oder nicht.
DE112006000225.2T 2005-02-28 2006-02-27 Dialogsystem und Dialogsoftware Expired - Fee Related DE112006000225B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US65721905P 2005-02-28 2005-02-28
US60/657,219 2005-02-28
PCT/JP2006/303613 WO2006093092A1 (ja) 2005-02-28 2006-02-27 会話システムおよび会話ソフトウェア

Publications (2)

Publication Number Publication Date
DE112006000225T5 true DE112006000225T5 (de) 2007-12-13
DE112006000225B4 DE112006000225B4 (de) 2020-03-26

Family

ID=36941121

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112006000225.2T Expired - Fee Related DE112006000225B4 (de) 2005-02-28 2006-02-27 Dialogsystem und Dialogsoftware

Country Status (4)

Country Link
US (1) US20080065371A1 (de)
JP (1) JP4950024B2 (de)
DE (1) DE112006000225B4 (de)
WO (1) WO2006093092A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751240B2 (en) * 2005-05-13 2014-06-10 At&T Intellectual Property Ii, L.P. Apparatus and method for forming search engine queries based on spoken utterances
JP2010282083A (ja) * 2009-06-05 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> 誤認識訂正装置、方法及びプログラム
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
JP6621613B2 (ja) * 2015-08-10 2019-12-18 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
CN107203265B (zh) * 2017-05-17 2021-01-22 广东美的制冷设备有限公司 信息交互方法和装置
WO2020202315A1 (ja) * 2019-03-29 2020-10-08 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
WO2020202314A1 (ja) * 2019-03-29 2020-10-08 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
KR102479379B1 (ko) * 2022-09-19 2022-12-20 헬로칠드런 주식회사 현실세계의 다양한 소리, 이미지를 위치 정보 및 시간 정보와 연계한 홍보 이벤트 시스템

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5454063A (en) * 1993-11-29 1995-09-26 Rossides; Michael T. Voice input system for data retrieval
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
JPH10269226A (ja) * 1997-03-25 1998-10-09 Nippon Telegr & Teleph Corp <Ntt> 情報検索後処理方法及び装置
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
JPH11153998A (ja) * 1997-11-19 1999-06-08 Canon Inc 音声応答装置及びその方法、コンピュータ可読メモリ
JP3000999B1 (ja) * 1998-09-08 2000-01-17 セイコーエプソン株式会社 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US7013280B2 (en) * 2001-02-27 2006-03-14 International Business Machines Corporation Disambiguation method and system for a voice activated directory assistance system
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
JP3678360B2 (ja) * 2002-01-31 2005-08-03 日本電信電話株式会社 音声入力を利用する漢字文字列特定装置およびその方法
US20050049868A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system

Also Published As

Publication number Publication date
JPWO2006093092A1 (ja) 2008-08-07
WO2006093092A1 (ja) 2006-09-08
US20080065371A1 (en) 2008-03-13
DE112006000225B4 (de) 2020-03-26
JP4950024B2 (ja) 2012-06-13

Similar Documents

Publication Publication Date Title
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE10306022B3 (de) Dreistufige Einzelworterkennung
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE60026637T2 (de) Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
DE60124408T2 (de) System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69928181T2 (de) Verfahren und Vorrichtung zur Spracherkennung unter Verwendung einer Wissensbasis
DE112006000225B4 (de) Dialogsystem und Dialogsoftware
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
WO1998011534A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE102008017993A1 (de) Sprachsuchvorrichtung
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
EP1078355B1 (de) Verfahren und anordnung zur einführung zeitlicher abhängigkeit in hidden-markov-modellen für die spracherkennung

Legal Events

Date Code Title Description
8181 Inventor (new situation)

Inventor name: OKUNO, HIROSHI, KYOTO, JP

Inventor name: KOMATANI, KAZUNORI, KYOTO, JP

Inventor name: NAKANO, MIKIO, WAKO, SAITAMA, JP

R012 Request for examination validly filed

Effective date: 20121211

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee