DE69232407T2 - Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung - Google Patents

Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung

Info

Publication number
DE69232407T2
DE69232407T2 DE69232407T DE69232407T DE69232407T2 DE 69232407 T2 DE69232407 T2 DE 69232407T2 DE 69232407 T DE69232407 T DE 69232407T DE 69232407 T DE69232407 T DE 69232407T DE 69232407 T2 DE69232407 T2 DE 69232407T2
Authority
DE
Germany
Prior art keywords
response
speech
dialogue
semantic
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69232407T
Other languages
English (en)
Other versions
DE69232407D1 (de
Inventor
Hideki Hashimoto
Yoshifumi Nagata
Yoichi Sadamoto
Shigenobu Seto
Hideaki Shinchi
Yoichi Takebayashi
Hiroyuki Tsuboi
Yasuki Yamashita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Software Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Software Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Software Engineering Corp filed Critical Toshiba Corp
Publication of DE69232407D1 publication Critical patent/DE69232407D1/de
Application granted granted Critical
Publication of DE69232407T2 publication Critical patent/DE69232407T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Description

    HINTERGRUND DER ERFINDUNG Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft ein Sprachdialogsystem zum Realisieren einer Interaktion zwischen einem auf einem Computer basierenden System und einem menschlichen Sprecher durch Verwenden verschiedener Eingabe- und Ausgabetechniken, wie beispielsweise einer Spracherkennung und einer Sprachsynthese.
  • Beschreibung des Standes der Technik
  • In den letzten Jahren ist es möglich geworden, eine sogenannte Mensch-Computer-Interaktion in verschiedenen Formen durch Eingeben, Ausgeben und Verarbeiten von Mehrfachmedien, wie beispielsweise von Zeichen, Sprachen, Graphiken und Bildern, zu realisieren.
  • Insbesondere sind in Zusammenhang mit einer signifikanten Verbesserung der Kapazitäten eines Computers und einer Speichervorrichtung verschiedene Anwendungen einer Workstation und eines Personalcomputers, die die Mehrfachmedien behandeln können, entwickelt worden. Jedoch kann eine solche herkömmliche Workstation oder ein solcher herkömmlicher Personalcomputer nur verschiedene Medien separat behandeln und realisiert keinerlei organische Koordination der verwendeten verschiedenen Medien.
  • Zwischenzeitlich ist es populär geworden, die linguistischen Daten bzw. Sprachdaten unter Verwendung von Zeichen anstelle der numerischen Daten, die normalerweise bei einem herkömmlichen Computer verwendet werden, zu verwenden.
  • Wie für die visuellen Daten ist eine Kapazität zum Handhaben der bei einem herkömmlichen Computer normalerweise verwendeten monochromatischen Bilddaten erweitert, um Farbbilder, animierte Bilder, dreidimensionale graphische Bilder und dynamische Bilder zu behandeln.
  • Bezüglich Audiodaten ist zusätzlich zu einer herkömmlicherweise verwendeten Technik zum Handhaben von Sprachsignalpegeln ein Fortschritt zum Entwickeln verschiedener anderer Techniken gemacht worden, wie beispielsweise einer Spracherkennung und einer Sprachsynthese, aber diese Techniken sind noch zu instabil, um irgendwelche praktischen Anwendungen zu realisieren, mit Ausnahme auf einigen sehr eingeschränkten Gebieten.
  • Somit gibt es für verschiedene Typen von Daten, die in einem auf einem Computer basierenden System zu verwenden sind, wie beispielsweise Zeichendaten, Textdaten, Sprachdaten und Graphikdaten, einen Trend dahin, einen Fortschritt von herkömmlichen Eingabe- und Ausgabe-(Aufzeichnungs- und Reproduktions- bzw. Wiedergabe-)Funktionen zu den Funktionen zum Verstehen und Erzeugen zu machen. Anders ausgedrückt gibt es einen Fortschritt in Richtung zum Bilden eines Dialogsystems unter Verwendung der Funktionen zum Verstehen und zum Erzeugen für verschiedene Medien, wie beispielsweise von Sprachen und Graphiken, für den Zweck, eine natürlichere und angenehmere Mensch-Computer-Interaktion zu realisieren, indem der Inhalt, die Struktur und die Bedeutung, die in den Medien ausgedrückt werden, eher als die oberflächliche Manipulation der Medien behandelt werden.
  • Bezüglich der Spracherkennung ist die Entwicklung von einer isolierten Worterkennung in Richtung zu einer kontinuierlichen Worterkennung und einer kontinuierlichen Spracherkennung gemacht worden, und zwar primär in spezifischen Aufgaben orientierten Umgebungen, die die praktischen Implementierungen berücksichtigen. Bei einer solchen praktischen Anwendung ist es für das Sprachdialogsystem wichtiger, eher den Inhalt der Sprache zu erkennen, als die einzelnen Worte zu erkennen, und es hat einen Fortschritt bei einem System zum Verstehen von Sprache unter Verwendung des spezialisierten Wissens des Anwendungsgebiets auf einer Basis einer Schlüsselwortentdeckungstechnik gegeben.
  • Andererseits ist bezüglich der Sprachsynthese die Entwicklung von einem einfachen Text-zu-Sprache-System in Richtung zu einem Sprachsynthesesystem gemacht worden, das für ein Sprachdialogsystem geeignet ist, in welchem der Intonation ein größeres Gewicht zugeteilt wird.
  • Jedoch sind das Verstehen und das Erzeugen der Medien, wie beispielsweise einer Sprache, nicht so einfach wie die normale Eingabe und Ausgabe von Daten, so daß die Fehler oder ein Verlust von Information zur Zeit einer Umwandlung zwischen den Medien unvermeidbar sind. Das bedeutet, daß das Verstehen der Sprache ein Typ einer Verarbeitung ist, der den Inhalt der Sprache und die Absicht des menschlichen Sprechers aus den Sprachmusterdaten extrahiert, die in einer sehr großen bzw. enormen Datengröße ausgedrückt werden, so daß es unvermeidbar ist, den Spracherkennungsfehler oder eine Vieldeutigkeit bei einer Verarbeitung zum Komprimieren der Daten zu erzeugen.
  • Folglich ist es für das Sprachdiaglogsystem nötig, den Dialog mit dem menschlichen Sprecher aktiv zu steuern, um es sich so natürlich und effizient wie möglich weiterentwickeln zu lassen, indem geeignete Fragen und Bestätigungen von der Systemseite ausgegeben werden, um die Unvollständigkeit der Spracherkennung aufgrund des unvermeidbaren Erkennungsfehlers oder der unvermeidbaren Vieldeutigkeit zu verbessern.
  • Nun ist es zum Realisieren eines natürlichen und effizienten Dialogs mit einem menschlichen Sprecher für das Sprachdialogsystem wichtig, so viel Information über den Zustand des Computers wie möglich zum menschlichen Sprecher weitergeben zu können. Jedoch ist bei einem herkömmlichen Sprachdialogsystem die Sprachantwort normalerweise durch eine mechanische Stimme gegeben, die eine durch eine Textzusammensetzung erhaltene Antwort ohne irgendeine Modulation eines Sprachtons liest, so daß es für den Anwender oft schwierig gewesen ist, die Nachricht zu hören, und die Nachricht ist manchmal sehr redundant. Bei den anderen Typen eines herkömmlichen Sprachdialogsystems, das die Sprachantwort nicht verwendet, ist die Antwort von dem System normalerweise nur als visuelle Information in Ausdrücken von Text, Graphiken, Bildern, Icons oder numerischen Daten gegeben worden, die auf einem Anzeigeschirm angezeigt werden, so daß der Mensch-Computer-Dialog in großem Maß auf dem visuellen Sinn des Anwenders beruht.
  • Wie es beschrieben ist, ist bei einem herkömmlichen Sprachdialogsystem die Verwendung der verschiedenen Medien bei der Antwort vom System für den Zweck zum Verbessern der Unvollständigkeit der Spracherkennung nicht genügend berücksichtigt worden, und dies ist das kritische Problem bei der praktischen Implementierung der Spracherkennungstechnik gewesen.
  • Anders ausgedrückt gehört zur Spracherkennungstechnik eine Instabilität aufgrund des Einflusses des Rauschens und unnötiger Störungen durch den menschlichen Sprecher, so daß es oft schwierig ist, die wirkliche Absicht des menschlichen Sprechers in Ausdrücken von Sprachen weiterzugeben, und folglich ist die Anwendung der Spracherkennungstechnik auf das ernsthaft beschränkte Gebiet begrenzt gewesen, wie beispielsweise ein Telefon, bei welchem nur das Sprachmedium beteiligt ist.
  • Somit ist das herkömmliche Sprachdialogsystem eine einfache Kombination aus den separat entwickelten Techniken bezüglich der Spracherkennung, der Sprachsynthese und der Bildanzeige gewesen, und die ausreichende Berücksichtigung von einem Gesichtspunkt der Natürlichkeit und der Komfortabilität eines Sprachdiaglogs hat gefehlt.
  • Genauer gesagt hat zum herkömmlichen Sprachdiaglogsystem das wesentliche Problem bezüglich des Fehlens der Natürlichkeit aufgrund der Instabilität der Spracherkennung, verursacht durch den Erkennungsfehler oder eine Vieldeutigkeit, gehört, und die unzureichende Sprachsynthesefunktion zum Weitergeben des Gefühls und der Absicht resultierend aus der unzureichenden Intonationssteuerung und der unzureichenden Deutlichkeit der Sprachäußerung.
  • Darüber hinaus fehlte dem herkömmlichen Sprachdiaglogsystem auch die ausreichende Funktion zum Erzeugen der geeigneten Antwort auf einer Basis des Ergebnisses der Spracherkennung.
  • Weiterhin gibt es eine Erwartung für die Verbesserung der Informationsübertragungsfunktion durch Verwenden der Bildanzeige zusammen mit der Sprachantwort, aber die exakte Art zum Verwenden der zweidimensionalen oder dreidimensionalen Bildanzeigen in Bezug auf die momentan und kontinuierlich variierende Sprachantwort bleibt als das ungelöste Problem.
  • Ebenso ist es wichtig, zu bestimmen, was im Sprachdiaglogsystem angezeigt werde sollte, das verschiedene andere Medien verwendet.
  • Die Patentanmeldung WO 89/03083 offenbart ein Sprachdialogsystem mit den Merkmalen, die im Oberbegriff des Anspruchs 1 definiert sind.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Sprachdialogsystem zu schaffen, das einen natürlichen und ruhigen Dialog zwischen dem System und einem menschlichen Anwender realisieren kann, und eine einfache Handhabbarkeit des Systems.
  • Gemäß einem Aspekt der vorliegenden Erfindung ist ein Sprachdialogsystem nach Anspruch 1 geschaffen.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist ein Verfahren eines Sprachdialogs zwischen einem menschlichen Anwender und einem Sprachdialogsystem nach Anspruch 21 geschaffen.
  • Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung in Zusammenhang mit den beigefügten Zeichnungen klar werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein schematisches Blockdiagramm eines ersten Ausführungsbeispiels eines Sprachdialogsystems gemäß der vorliegenden Erfindung.
  • Fig. 2 ist ein detailliertes Blockdiagramm einer Einheit zum Verstehen von Sprache in dem Sprachdialogsystem der Fig. 1.
  • Fig. 3 ist eine Darstellung eines Beispiels eines Schlüsselwortgitters, das aus einer kontinuierlichen eingegebenen Sprache in der Einheit zum Verstehen von Sprache der Fig. 2 erhalten wird.
  • Fig. 4 ist eine Darstellung eines Beispiels einer semantischen Äußerungsdarstellung, die durch die Einheit zum Verstehen von Sprache der Fig. 2 zu erhalten ist.
  • Fig. 5 ist eine Darstellung einer beispielhaften Liste von Schlüsselwörtern, die in der Einheit zum Verstehen von Sprache der Fig. 2 zu verwenden sind.
  • Fig. 6 ist eine Darstellung eines Beispiels einer semantischen Antwortdarstellung, die durch eine Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 zu erhalten ist.
  • Fig. 7 ist eine Darstellung einer Ordnungstabelle, die in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 zu verwenden ist.
  • Fig. 8 ist eine Darstellung einer vergangenen Ordnungstabelle, die in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 zu verwenden ist.
  • Fig. 9 ist ein Zustandsübergangsdiagramm für einen Betrieb einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1.
  • Fig. 10 ist ein Ablaufdiagramm für einen Betrieb in einem Anwenderzustand im Zutandsübergangsdiagramm der Fig. 9.
  • Fig. 11 ist ein Ablaufdiagramm für einen Betrieb in einem Systemzustand im Zustandsübergangsdiagramm der Fig. 9.
  • Fig. 12A und 12B sind Darstellungen von Beispielen einer semantischen Antwortdarstellung und einer Ordnungstabelle für einen beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1
  • Fig. 12C ist eine Darstellung, die einen beispielhaften Dialog zwischen dem System und dem Anwender in einem beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 anzeigt:
  • Fig. 12D und 12E sind Darstellungen von Beispielen von zwei semantischen Äußerungsdarstellungskandidaten für einen beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1.
  • Fig. 13 ist ein Ablaufdiagramm für einen Betrieb in einem Anwenderzustand in einem beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 unter Verwendung der in den Fig. 12A bis 12E gezeigten Beispiele.
  • Fig. 14 ist ein Ablaufdiagramm für einen Betrieb in einem Systemzustand in einem beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1.
  • Fig. 15A, 15B und 15C sind Darstellungen von Beispielen einer semantischen Äußerungsdarstellung, einer Antwortaktionsliste und einer semantischen Antwortdarstellung für einen beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit beim im Ablaufdiagramm der Fig. 14 gezeigten Betrieb.
  • Fig. 16 ist eine Darstellung einer Tabelle, die Systemantworten für verschiedene Fälle im Sprachdialogsystem der Fig. 1 zusammenfaßt.
  • Fig. 17 ist eine Darstellung eines Eingabesprachsignals zum Erklären einer Bestimmung einer Eingabesprachgeschwindigkeit im Sprachdialogsystem der Fig. 1.
  • Fig. 18 ist eine Darstellung eines Beispiels einer von der Dialogmanagementeinheit zur Antworterzeugungseinheit im Sprachdialogsystem der Fig. 1 zugeführten semantischen Antwortdarstellung.
  • Fig. 19 ist ein detailliertes Blockdiagramm einer Antworterzeugungseinheit im Sprachdialogsystem der Fig. 1
  • Fig. 20 ist eine Darstellung eines Beispiels von menschlicher Zeichenbildinformation, die in der Antworterzeugungseinheit der Fig. 19 zu verwenden ist.
  • Fig. 21 ist eine Darstellung von Beispielen einer Antwortsatzstruktur, die in einer Antwortsatzerzeugungseinheit in der Antworterzeugungseinheit der Fig. 19 zu verwenden ist.
  • Fig. 22 ist ein Ablaufdiagramm für einen Betrieb der Antwortsatzerzeugungseinheit in der Antworterzeugungseinheit der Fig. 19.
  • Fig. 22B, 22C und 22D sind Darstellungen einer beispielhaften semantischen Antwortdarstellung, einer beispielhaften Antwortsatzstruktur und eines erzeugten Antwortsatzes, die in der Antwortsatzerzeugungseinheit beim im Ablaufdiagramm der Fig. 22A gezeigten Betrieb zu verwenden sind.
  • Fig. 23 ist eine Darstellung einer Tabelle, die in einer Menschenzeichenmerkmalsbestimmungseinheit in der Antworterzeugungseinheit der Fig. 19 verwendet wird.
  • Fig. 24 ist eine Darstellung einer Tabelle, die in einer Sprachcharakteristik- Bestimmungseinheit in der Antworterzeugungseinheit der Fig. 19 verwendet wird.
  • Fig. 25 ist ein detailliertes Blockdiagramm einer Sprachantwort-Erzeugungseinheit in der Antworterzeugungseinheit der Fig. 19.
  • Fig. 26 ist ein Diagramm für ein fundamentales Frequenzmustermodell, das in der Sprachantwort-Erzeugungseinheit der Fig. 25 verwendet wird.
  • Fig. 27A und 27B sind Diagramme eines fundamentalen Frequenzmusters, das in der Sprachantwort-Erzeugungseinheit der Fig. 25 verwendet wird, und zwar ohne und mit einer Modifikation zum Erzeugen einer Sprachantwort mit einem freudigen Ausdruck.
  • Fig. 28A und 28B sind Diagramme eines fundamentalen Frequenzmusters, das in der Sprachantwort-Erzeugungseinheit der Fig. 25 verwendet wird, und zwar ohne und mit einer Modifikation zum Erzeugen einer Sprachantwort mit einem bedauernden Ausdruck.
  • Fig. 29 ist ein detailliertes Blockdiagramm einer Sprachwellenform-Erzeugungseinheit in der Sprachantwort-Erzeugungseinheit der Fig. 25.
  • Fig. 30A ist ein Zeitdiagramm für ein Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
  • Fig. 30B ist ein Zeitdiagramm für ein weiteres Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
  • Fig. 31A ist ein Zeitdiagramm für ein weiteres Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
  • Fig. 31B ist ein Zeitdiagramm für ein weiteres Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
  • Fig. 32 bis 38 sind Darstellungen verschiedener Beispiele von Anzeigebildern, die im Sprachdialogsystem der Fig. 1 zu verwenden sind, und zwar erhalten durch die Antworterzeugungseinheit der Fig. 19.
  • Fig. 39 ist ein Diagramm, das einen Gesamtbetrieb im Sprachdialogsystem der Fig. 1 zusammenfaßt.
  • Fig. 40 ist ein schematisches Blockdiagramm eines zweiten Ausführungsbeispiels eines Sprachdialogsystems gemäß der vorliegenden Erfindung.
  • Fig. 41 ist ein Diagramm zum Erklären eines Betriebs einer Anwenderzustands- Erfassungseinheit im Sprachdialogsystem der Fig. 40.
  • Fig. 42 ist ein Zeitdiagramm für ein Beispiel eines Betriebs im Sprachdialogsystem der Fig. 40.
  • Fig. 43 ist ein Zeitdiagramm für ein weiteres Beispiel eines Betriebs im Sprachdialogsystem der Fig. 40.
  • Fig. 44 ist ein Ablaufdiagramm für einen Betrieb im Sprachdialogsystem der Fig. 40.
  • Fig. 45 ist ein schematisches Blockdiagramm eines dritten Ausführungsbeispiels eines Sprachdialogsystems gemäß der vorliegenden Erfindung.
  • Fig. 46A und 46B sind Blockdiagramm von zwei alternativen Konfigurationen für eine A/D- und eine D/A-Umwandlungseinheit im Sprachdialogsystem der Fig. 45.
  • Fig. 47 ist eine Darstellung eines Beispiels eines Anzeigebilds, das im Sprachdialogsystem der Fig. 45 zu verwenden ist.
  • Fig. 48 ist eine Darstellung eines weiteren Beispiels eines Anzeigebilds, das im Sprachdialogsystem der Fig. 45 zu verwenden ist.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE I. ERSTES AUSFÜHRUNGSBEISPIEL
  • Nimmt man nun Bezug auf Fig. 1, wird ein erstes Ausführungsbeispiel eines Sprachdialogsystems gemäß der vorliegenden Erfindung detailliert beschrieben werden.
  • 1. Gesamtsystemkonfiguration
  • Bei diesem ersten Ausführungsbeispiel weist das Sprachdialogsystem folgendes auf: eine Einheit zum Verstehen von Sprache 11 zum Verstehen eines semantischen Inhalts einer eingegebenen Sprache, die durch einen Anwender geäußert wird; eine Dialogmanagementeinheit 12 zum Durchführen einer semantischen Bestimmung eines Antwortausgabeinhalts gemäß dem semantischen Inhalt der Eingabesprache, die durch die Einheit zum Verstehen von Sprache verstanden wird; eine Antworterzeugungseinheit zum Erzeugen einer Sprachantwort und einer visuellen Antwort gemäß dem durch die Dialogmanagementeinheit bestimmten Antwortausgabeinhalt; eine Anzeigeeinheit 14 zum Ausgeben der durch die Antworterzeugungseinheit erzeugten visuellen Antwort zum Anwender; und eine Lautsprechereinheit 15 zum Ausgeben der durch die Antworterzeugungseinheit erzeugten Sprachantwort zum Anwender.
  • Die Einheit zum Verstehen von Sprache 11 ist keine einfache Spracherkennungsvorrichtung, um nur Worte oder Sätze in der eingegebenen Sprache zu erkennen, sondern kann einen semantischen Inhalt extrahieren, der in der eingegebenen Sprache ausgedrückt werden soll, indem die eingegebene Sprache analysiert wird, und zwar in einer Form einer semantischen Äußerungsdarstellung, wie es nachfolgend detailliert beschrieben wird.
  • Die Dialogmanagementeinheit 12 führt die semantische Bestimmung des Antwortausgabeinhalts durch Verwenden einer Dialog-Vorgeschichte, eines aktuellen Diaglogzustands, eines Dialogmanagementverfahrens und einer Kenntnis über ein spezielles Anwendungsgebiet durch und führt die Antwortausgabe-Inhaltsinformation, die die geeignete Antwortausgabe anzeigt, die zu erzeugen ist, zur Antworterzeugunseinheit 13 zu.
  • Zusätzlich erreicht die Dialogmanagementeinheit 12 die Verbesserung des Verstehens von Sprache und der Reduzierung der Verarbeitungsmenge durch richtiges Behandeln der gesprochenen Eingabesprache, die eine Auslassung und Demonstrativpronomen enthält, um den natürlichen Dialog zwischen dem System und dem Anwender zu ermöglichen.
  • Darüber hinaus führt die Dialogmanagementeinheit 12 die erzeugte Antwortausgabe-Inhaltsinformation zurück zur Einheit zum Verstehen von Sprache 11 zu, um die Effizienz des Verstehens von Sprache bei der Einheit zum Verstehen von Sprache 11 für die nachfolgende eingegebene Sprache zu verbessern, indem die Kandidaten der Schlüsselwörter vorläufig begrenzt wird, sowie durch syntaktische und semantische Regeln, die beim Verstehen von Sprache zu verwenden sind, und zwar gemäß der in Antwort auf die aktuelle eingegebene Sprache erzeugte Antwortausgabe- Inhaltsinformation, bevor die nachfolgende eingegebene Sprache in die Einheit zum Verstehen von Sprache eingegeben wird. Dieses vorläufige Begrenzen der Schlüsselwörter und der syntaktischen und semantischen Regeln ist effektiv beim Reduzieren einer Menge an Berechnungen, die bei einem Betrieb zum Entdecken eines Schlüsselworts erforderlich sind, der beim Verstehen von Sprache zu verwenden ist.
  • Weiterhin führt die Dialogmanagementeinheit 12 der Antworterzeugungseinheit 13 auch menschliche Zeichenbildinformation zu, die ein menschliches Zeichenbild bzw. Charakterbild eines menschlichen Zeichens bzw. Charakters anzeigt, um die Sprachantwort auszugeben, die auf der Anzeigeeinheit 14 anzuzeigen ist, während die Sprachantwort von der Lautsprechereinheit 15 ausgegeben wird, und eine Inhaltsvisualisierungsbildinformation, die ein Inhaltsvisualisierungsbild zum Visualisieren des Inhalts der Sprachantwort für den Zweck zum Helfen, daß der Anwender die Antwort vom System versteht, anzeigt, was auch auf der Anzeigeeinheit 14 anzuzeigen ist, während die Sprachantwort von der Lautsprechereinheit 15 ausgegeben wird.
  • Die Antworterzeugungseinheit 13 erzeugt die Sprachantwort in einer synthetisierten Stimme, die von der Lautsprechereinheit 15 auszugeben ist, gemäß der von der Dialogmanagementeinheit 12 zugeführten Antwortausgabe-Inhaltsinformation, und die visuelle Antwort einschließlich der Textdaten der Sprachantwort, und das menschliche Charakterbild und das Inhaltsvisualisierungsbild, die auf der Anzeigeeinheit 14 anzuzeigen sind, gemäß der menschlichen Charakterbildinformation und der Inhaltsvisualisierungsbildinformation, die von der Dialogmanagementeinheit 12 zugeführt werden. Hier enthält das auf der Anzeigeeinheit 14 anzuzeigende menschliche Charakterbild die Bewegung und den Gesichtsausdruck des menschlichen Charakters, welche gemäß der Antwortausgabe- Inhaltsinformation und der menschlichen Charakterbildinformation bestimmt werden, die von der Dialogmanagementeinheit 12 zugeführt werden. Anders ausgedrückt erzeugt die Antworterzeugungseinheit 13 die multimodale Systemantwort, die sowohl die Audioinformation als auch die visuelle Information enthält, zum Unterstützen des ruhigen Verstehens der Systemantwort durch den Anwender; um den natürlichen Dialog zwischen dem Anwender und dem System zu bilden.
  • Während die erzeugten Sprachantworten und visuellen Antworten von der Antworterzeugungseinheit 13 ausgegeben werden, benachrichtigt die Antworterzeugungseinheit 13 das Dialogmanagementsystem 12 zusätzlich darüber, daß die Ausgabe der Antworten gerade erfolgt. In Antwort darauf steuert die Dialogmanagementeinheit 12 die Zeitgaben des Betriebs zum Verstehen von Sprache, wie beispielsweise die Anfangs- und die Endstellenerfassung und die Schlüsselwortentdeckung für die darauffolgende eingegebene Sprache, was durch die Einheit zum Verstehen von Sprache 11 auszuführen ist, gemäß dieser Benachrichtigung von der Antworterzeugungseinheit 13, um die Effizienz des Verstehens von Sprache bei der Einheit zum Verstehen von Sprache 11 zu verbessern.
  • 2. Individuelle Systemelemente
  • Nun werden die weiteren Details jedes Elements bei diesem ersten Ausführungsbeispiel des in Fig. 1 gezeigten Sprachdialogsystems beschrieben werden. In der folgenden Beschreibung wird der Definiertheit der Beschreibung halber ein Fall eines Verwendens dieses Sprachdialogsystems für eine Aufgabe verwendet werden, das eine Bestellung in einem Schnellimbiß angenommen wird.
  • 2.1 Einheit zum Verstehen von Sprache 11
  • Die Einheit zum Verstehen von Sprache 11 ist erforderlich, um das Verstehen der durch den Anwender geäußerten eingegebenen Sprache zu erreichen, indem ein semantischer Inhalt extrahiert wird, der in der eingegebenen Sprache ausgedrückt werden soll.
  • Allgemein ist die Verwendung der Spracherkennung der durch den nicht speziellen Anwender geäußerten Sprache für die speziellen Anwendungen erdacht worden, wie beispielsweise ein Kartenverkaufsservicesystem, ein Platzreservierungsservicesystem und ein Banktransaktionsservicesystem, aber eine solche Spracherkennung für den nicht speziellen Anwender ist auf eine bemerkenswerte Schwierigkeit beim Erreichen der genauen Erkennung der tatsächlich gesprochenen Sätze gestoßen, und zwar aufgrund der unterschiedlichen Arten der durch unterschiedliche Anwender verwendeten Sprachäußerung, der durch den Anwender in Zusammenhang mit der tatsächlichen Nachricht geäußerten unnötigen Wörter, der persönlichen Variation bezüglich der gesprochenen Sprache und des Einflusses des Hintergrundrauschens.
  • Als Lösung für eine solche Schwierigkeit, der die Spracherkennung für einen nicht speziellen Anwender begegnet, hat es einen Vorschlag für das Verfahren eines kontinuierlichen Verstehens von Sprache basierend auf der Schlüsselwortgitterzerlegung gegeben, wobei das Verstehen des semantischen Inhalts der kontinuierlich geäußerten Sprache durch Analysieren der in der Sprache erfaßten Schlüsselwörter erreicht wird, wie es in H. Tsuboi und Y. Takebayashi: "A Real-Time Task-Oriented Speech Understanding System using Keyword Spotting", Proceedings of 1992 International Conference on Acoustics, Speed, and Signal Processing (ICASSP 92), I-197 bis I-200, San Francisco, U.S.A. (März 1992) offenbart ist. Unter den richtig gesteuerten Umständen kann dieses Verfahren das Verstehen mit hoher Geschwindigkeit von der nahezu frei geäußerten Sprache durch Verwenden äußerst weniger Beschränkungen bezüglich der Art einer Sprachäußerung, die dem Anwender auferlegt werden, erreichen. Somit wird bei diesem ersten Ausführungsbeispiel dieses Verfahren eines kontinuierlichen Verstehens von Sprache basierend auf der Schlüsselwortgitterzerlegung in der Einheit zum Verstehen von Sprache 11 der Fig. 1 verwendet. Eine detaillierte Implementierung der Einheit zum Verstehen von Sprache 11 zum Realisieren dieses Verfahrens wird nun beschrieben werden.
  • Wie es in Fig. 2 gezeigt ist, weist die Einheit zum Verstehen von Sprache 11 dieses ersten Ausführungsbeispiels allgemein eine Schlüsselwort-Erfassungseinheit 21 und eine syntaktische und semantische Analyseeinheit 22 auf, wobei die Schlüsselwort-Erfassungseinheit 21 weiterhin den Sprachanalysierer 21a und einen Schlüsselwortentdecker 21b aufweist, während die syntaktische und semantische Analyseeinheit 22 weiterhin einen Satzanfangsstellendetektor 22a, einen Satzkandidatenanalysierer 22b, einen Satzendstellendetektor 22c und eine Satzkandidatentabelle 22d, auf die von allen des Satzanfangsstellendetektors 22a, des Satzkandidatenanalysierers 22b und des Satzendstellendetektors 22c zugreifbar ist, aufweist.
  • Die Schlüsselwort-Erfassungseinheit 21 führt den Schlüsselwortentdeckungsbetrieb wie folgt aus. Zuerst wird beim Sprachanalysierer 21a die eingegebene Sprache durch ein Tiefpaßfilter (nicht gezeigt) geführt und unter Verwendung der Abtastfrequenz von 12 KHz und der Quantisierung von 12 Bits A/D-gewandelt. Dann werden beim Sprachanalysierer 21a die Spektralanalyse und das Glätten im Frequenzbereich nach der schnellen Fouriertransformation an den erhaltenen digitalen Signalen ausgeführt, und dann wird das Sprachanalyseergebnis für jede Art ms unter Verwendung des 16-Kanal-Bandpaßfilters (nicht gezeigt) nach der logarithmischen Transformation erhalten. Dann wird beim Schlüsselwortentdecker 21b das bekannte Schlüsselwortentdeckungsverfahren auf das durch den Sprachanalyiserer 21a erhaltene Sprachanalyseergebnis angewendet. Hier kann beispielsweise das bekannte Schlüsselwortentdeckungsverfahren verwendet werden, wie beispielsweise dasjenige, das in Y. Takebayashi, H. Tsuboi und H. Kanazawa: "A Robust Speech Recognition System using Word-Spotting with Noise Immunity Learning", Proceedings of 1991 International Conference an Acoustics, Speed, and Signal Processing (ICASSP 91), S. 905-908, Toronto, Kanada (Mai 1991) offenbart ist.
  • Als Ergebnis dieses Schlüsselwortentdeckungsverfahrens beim Schlüsselwortentdecker 21b erhält die Schlüsselworterfassungseinheit 21 das Schlüsselwortgitter, das alle Schlüsselwortkandidaten von der kontinuierlichen eingegebenen Sprache aufreiht. Fig. 3 zeigt ein Beispiel des durch die Schlüsselworterfassungseinheit 21 erhaltenen Schlüsselwortgitters von der kontinuierlichen eingegebenen Sprache in japanisch äquivalent dem deutschen Satz "Drei Hamburger, Kaffees und Kartoffeln bitte", der in japanisch geäußert ist, wobei die schattierten Worte die in dieser kontinuierlichen eingegebenen Sprache erfaßten Schlüsselwörter sind. Hier ist zu beachten, daß es in dieser Fig. 3 eine Korrespondenz zwischen der in japanisch geäußerten kontinuierlichen eingegebenen Sprache, wie sie in Fig. 3 gezeigt ist, und den Schlüsselwörtern des Schlüsselwortgitters in japanischen Äquivalenten zu denjenigen, die in Fig. 3 gezeigt sind, gibt, und es folglich keine Korrespondenz zwischen der kontinuierlichen eingegebenen Sprache, wie sie in Fig. 3 gezeigt ist, und den Schlüsselwörtern des Schlüsselwortgitters, wie es in Fig. 3 gezeigt ist, gibt. Anders ausgedrückt wird das in Fig. 3 gezeigte Schlüsselwortgitter die japanischen Schlüsselwörter in der in japanisch geäußerten kontinuierlichen eingegebenen Sprache erhalten, und die deutschen Wörter, die im Schlüsselwortgitter der Fig. 3 erscheinen, sind direkte Übersetzungen der japanischen Schlüsselwörter. Folglich wird für die kontinuierliche eingegebene Sprache von "Drei Hamburger, Kaffees und Kartoffeln bitte", die in Deutsch geäußert ist, das in Deutsch ausgedrückte Schlüsselwortgitter das Aussehen annehmen, das sich wesentlich von demjenigen unterscheidet, das in Fig. 3 gezeigt ist.
  • Hier ist zu beachten, daß der oben beschriebene Betrieb der Schlüsselworterfassungseinheit 21 in einer Echtzeitverarbeitung realisiert werden kann, indem die durch die gegenwärtigen Erfinder vorgeschlagenen DSP-Karten verwendet werden.
  • Das durch die Schlüsselworterfassungseinheit 21 erhaltene Schlüsselwortgitter, wie es oben beschrieben ist, wird dann zur syntaktischen und semantischen Analyseeinheit 22 zugeführt, wobei jedes Schlüsselwort im Schlüsselwortgitter von links nach rechts analysiert wird, wie es folgt.
  • Zuerst bestimmt der Satzkandidatenanfangsstellendetektor 22a, ob jedes Schlüsselwort die Anfangssstelle eines Satzes sein kann, oder nicht, gemäß den vorgeschriebenen syntaktischen und semantischen Regeln. Wenn das Schlüsselwort derart bestimmt wird, daß es die Anfangsstelle eines Satzes sein kann, wird dieses Schlüsselwort in die Satzkandidatentabelle 22d als neuer Satzteilkandidat registriert.
  • Als nächstes bestimmt der Satzkandidatenanalysierer 22b, ob jedes durch den Satzanfangsstellendetektor 22a als neuer Satzteilkandidat registriertes Schlüsselwort mit irgendwelchen anderen Satzteilkandidaten verbunden werden kann, die bereits in der Satzkandidatentabelle 22d registriert sind, und zwar gemäß den vorgeschriebenen syntaktischen und semantischen Regeln, sowie gemäß Zeitgabebedingungen. Wenn der neue Satzteilkandidat derart bestimmt wird, daß er mit einem der anderen Satzteilkandidaten verbunden werden kann, wird der neue Satzteilkandidat mit demjenigen der anderen Satzteilkandidaten verbunden, und der verbundene Satzteilkandidat ersetzt den neuen Satzteilkandidaten und denjenigen der anderen Satzteilkandidaten in der Satzkandidatentabelle 22d.
  • Dann bestimmt der Satzkandidaten-Endstellendetektor 22c, ob jeder durch den Satzkandidatenanalysierer verarbeitete verbundene Satzteilkandidat als vollständiger Satz angesehen werden kann, gemäß den vorgeschriebenen syntaktischen und semantischen Regeln. Wenn der verbundene Satzteilkandidat derart bestimmt wird, daß er als vollständiger Satz angesehen werden kann, wird dieser verbundene Satzteilkandidat, der bereits syntaktisch und semantisch analysiert worden ist, als die semantische Äußerungsdarstellung für die bei der Schlüsselworterfassungseinheit 21 eingegebene Eingangssprache ausgegeben.
  • Diese Operationen in der syntaktischen und semantischen Analyseeinheit 22 sind in einem Pipeline-Verarbeitungsmode auszuführen, so daß die syntaktische und semantische Analyseeinheit 22 eine Vielzahl von semantischen Äußerungsdarstellungen für eine einzige eingegebene Sprache erhalten kann (siehe die vorgenannte Referenz von H. Tsuboi und Y. Takebayashi: "A Real-Time Task-Oriented Speech Understanding System Using Keyword Spotting", Proceedings'of 1992 International Conference on Acoustics, Speech, and Signal Processing (ICASSP 92), I-197 bis I-200, San Francisco, U.S.A. (März 1992 für weitere Details bezüglich der oben beschriebenen Operationen der Einheit zum Verstehen von Sprache 11.)
  • Bei diesem ersten Ausführungsbeispiel wird die durch die syntaktische und semantische Analyseeinheit 22 zu erhaltene semantische Äußerungsdarstellung in einem Frameformat A ausgedrückt, das in Fig. 4 gezeigt ist, und wenn dieses Sprachdialogsystem für eine Aufgabe zum Annehmen einer Bestellung in einem Schnellimbiß verwendet wird, weist die typische semantische Äußerungsdarstellung, die durch die syntaktische und semantische Analyseeinheit 22 zu erhalten ist, eine ACT-Frame-Registrierung einer Sprachaktion zum Anzeigen eines Typs zum Bestellen auf, die durch die eingegebene Sprache durchgeführt wird, und einen BESTELLUNGSTABELLEN-Frame, der eine Bestellungstabelle zum Anzeigen des Inhalts der durch die eingegebene Sprache durchgeführten Bestellung registriert.
  • Hier zeigt die im ACT-Frame registrierte Sprachaktion irgendeinen der vorbestimmten Typen von Bestellung an, wie beispielsweise "Bestellung", "Zusatz", "Löschung" und "Satz". Anderseits zeigt die im BESTELLUNGSTABELLEN-Frame registrierte Bestellungstabelle den Inhalt der Bestellung in einer Form einer Bestellungsliste mit Schlitzen fürbestellte Elemente, bestellte Größen und bestellte Mengen an.
  • Ebenso sind bei diesem Ausführungsbeispiel wenn dieses Sprachdialogsystem für eine Aufgabe zum Annehmen einer Bestellung in einem Schnellimbiß verwendet wird, die bei der Schlüsselworterfassungseinheit 21 zu erfassenden und beim Erhalten der semantischen Äußerungsdarstellung bei der syntaktischen und semantischen Analayseeinheit 22 verwendeten Schlüsselwörter so, wie sie in Fig. 5 aufgezählt sind. Es ist hier zu beachten, daß die in Fig. 5 aufgelisteten Schlüsselwörter unterschiedliche Ausdrücke für die identische Bedeutung enthalten, wie beispielsweise "JA" und "YEAH", und daß diese semantisch äquivalenten Ausdrücke als dasselbe Konzept in der semantischen Äußerungsdarstellung in dieser Einheit zum Verstehen von Sprache 11 behandelt werden. Daher kommt es, daß das durch die Einheit zum Verstehen von Sprache 11 dieses ersten Ausführungsbeispiels durchzuführende Verstehen von Sprache wesentlich unterschiedlich von der normalen Spracherkennung ist, und aus diesem Grund ist es für die Einheit zum Verstehen von Sprache 11 dieses ersten Ausführungsbeispiels erforderlich, daß sie das Verstehen von aufgabenorientierter Sprache basierend auf der speziellen Kenntnis des spezifischen Anwendungsgebiets realisieren kann.
  • Zusätzlich wird bei dem Schlüsselwortentdecker 21b die Sprachgeschwindigkeit eines Anwenders gemäß den entdeckten Schlüsselwörtern und ihrer Anfangs- und Endstellen gemessen. Die gemessene Sprachgeschwindigkeit eines Anwenders wird darauffolgend zur Antworterzeugungseinheit 13 übertragen, um die Antwort-Sprachgeschwindigkeit zu steuern, wie es nachfolgend detailliert beschrieben wird.
  • Weiterhin ordnet die Einheit zum Verstehen von Sprache 11 jedem Schlüsselwort die Wahrscheinlichkeit zu, das durch die Schlüsselwortentdeckungsoperation erhalten wird, welche darauffolgend zur Antworterzeugungseinheit 13 übertragen wird, um das Sprachantwortmuster zu bestimmen, wie es nachfolgend detailliert beschrieben wird.
  • 2.2 Dialogmanagementeinheit 12
  • Die semantische Äußerungsdarstellung, wie beispielsweise diejenige, die in Fig. 4 gezeigt ist, und die oben beschrieben ist, wird zur Dialogmanagementeinheit 12 zugeführt, und die Dialogmanagementeinheit 12 für die semantische Bestimmung des Antwortausgabeinhalts gemäß der zugeführten semantischen Äußerungsdarstellung durch Verwenden einer Dialogvorgeschichte, eines aktuellen Dialogzustands, eines Dialogmanagementverfahrens und einer Kenntnis über ein spezielles Anwendungsgebiet durch.
  • Die Dialogmanagementeinheit 12 führt dann die bestimmte Antwortausgabe-Inhaltsinformation zur Anworterzeugungseinheit 13 in einer Form einer semantischen Antwortdarstellung zu, die in einem Frameformat ausgedrückt wird, das gleich der semantischen Äußerungsdarstellung ist, die von der Einheit zum Verstehen von Sprache 11 zugeführt wird. Das bedeutet, daß, wie es in Fig. 6 gezeigt ist, die durch die Dialogmanagementeinheit 12 zu erhaltende semantische Antwortdarstellung einen ACT-Frame aufweist, der eine Antwortaktion zum Anzeigen eines Typs einer Systemantwort registriert, die durchzuführen ist, und einen BESTELLUNGSTABELLEN-Frame, der eine Bestellungstabelle zum Anzeigen des Inhalts der Antwortausgabe, die auszugeben ist, registriert. Diese semantische Antwortdarstellung der Fig. 6 dient zur Bestätigung der durch den Anwender durchgeführten Bestellung, so daß der ACT-Frame diese "Bestätigungs"- Operation anzeigt, während der BESTELLUNGSTABELLEN-Frame den Inhalt der durch die eingegebene Sprache durchgeführten Bestellung anzeigt.
  • Bei diesem ersten Ausführungsbeispiel speichert die Dialogmanagementeinheit 12 eine Bestellungstabelle, wie sie in Fig. 7 gezeigt ist, und eine vergangene Bestellungstabelle, wie sie in Fig. 8 gezeigt ist, getrennt. Hier zeigt die in Fig. 7 gezeigte Bestellungstabelle den Inhalt der durch die eingegebene Sprache durchgeführten Bestellung an, wie sie vom System bei einem jeweiligen Moment während der Operation zum Annehmen einer Bestellung verstanden wird, und zwar in einer Form einer Bestellungsliste, die gleich dem BESTELLUNGSTABELLEN-Frame der semantischen Antwortdarstellung ist, und diese Bestellungstabelle ist gemäß den ACT-Frame und dem BESTELLUNGSTABELLEN-Frame der semantischen Äußerungsdarstellung zu aktualisieren, die von der Einheit zum Verstehen von Sprache 11 zugeführt wird. Andererseits zeigt die in Fig. 8 gezeigte vergangene Bestellungstabelle die Bestellungstabelle zu einer Zeit einer Ausgabe der vorherigen Systemantwort an, d. h. den Inhalt der Bestellung, die bis zu einer Ausgabe der vorherigen Systemantwort angenommen ist. Diese vergangene Bestellungstabelle der Fig. 8 wird als die Dialogvorgeschichte verwendet, die die Änderung der Bestellungstabelle im Verlauf der Operation zum Annehmen einer Bestellung anzeigt.
  • Zusätzlich bestimmt die Dialogmanagementeinheit 12 auch eine Dialogzustandsinformation, die einen aktuellen Zustand des Dialogs zwischen dem Anwender und dem System anzeigt, und zwar gemäß der Dialogvorgeschichte und dem aktuellen Systemzustand, welcher durch die Antworterzeugungseinheit 13 als Teil der menschlichen Charakterbildinformation darauffolgend zu verwenden ist.
  • Somit führt die Dialogmanagementeinheit 12 die semantische Bestimmung des Antwortausgabeinhalts gemäß der zugeführten semantischen Äußerungsdarstellung, der durch die vergangene Bestellungstabelle angezeigten Dialogvorgeschichte und des durch die Dialogzustandsinformation angezeigten aktuellen Dialogzustands durch, um den Antwortausgabeinhalt in einer Form der semantischen Antwortdarstellung zu erhalten, die einen Typ einer Systemantwort anzeigt, die durchzuführen ist, und den Inhalt der Antwortausgabe, die auszugeben ist.
  • Die Dialogmanagementeinheit 12 managt auch das Fortschreiten des Dialogs zwischen dem System und dem Anwender gemäß dem in Fig. 9 gezeigten Zustandsübergangsdiagramm.
  • Das bedeutet, daß der interne Zustand der Dialogmanagementeinheit 12 in zwei Kategorien des Systemzustands 71 und des Anwenderzustands 72 klassifiziert wird, so daß das Fortschreiten des Dialogs als die Übergänge zwischen dem Systemzustand 71 und dem Anwenderzustand 72 gemanagt werden kann. Im Anwenderzustand 72 wird der Übergang zum Systemzustand 71 gemäß der von der durch den Anwender geäußerten eingegebenen Sprache erhaltenen semantischen Äußerungsdarstellung durchgeführt. Andererseits wird im Systemzustand 71 die Bestellungstabelle gemäß der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung aktualisiert, und die geeignete semantische Antwortdarstellung wird ausgegeben, um ein weiteres Fortschreiten im Dialog durchzuführen, und dann wird der Übergang zum Anwenderzustand 72 durchgeführt. Auf diese Weise eines Managens des Fortschreitens des Dialogs als die Übergänge zwischen zwei Zuständen wird es für die Dialogmanagementeinheit 12 möglich, das flexible Management des Dialogs zwischen dem System und dem Anwender zu realisieren.
  • Hier ist die oben beschriebene Dialogzustands- Pufferinformation in Ausdrücken eines Labels bzw. Zeichens eines gerade arbeitenden aktuellen Zustands, eines Labels eines nächsten Zustands zum Durchführen eines Übergangs vom aktuellen Zustand und einer Anzahl an Wiederholungen für einen wiederholten Teil des Dialogs gegeben. Diese Dialogzustandsinformation wird darauffolgend durch die Antworterzeugungseinheit 13 als Teil der menschlichen Charakterbildinformation zum Bestimmen der Bewegung und des Gesichtsausdrucks des menschlichen Charakterbildes, das anzuzeigen ist, und des emotionalen Ausdrucks und der Intonation der Sprachantwort, die auszugeben ist, verwendet.
  • Im Zustandsübergangsdiagramm der Fig. 9 beginnt der Dialog zuerst, wenn das Vorhandensein des Anwenders durch Verwenden einer Anwendererfassungsvorrichtung (nicht gezeigt), wie beispielsweise einer mit einem Drucksensor oder einer Überwachungskamera ausgestatteten Bodenmatte, erkannt wird, vom anfänglichen Systemzustand S0, in welchem die Dialogmanagementeinheit 12 die semantische Antwortdarstellung bezüglich des anfänglichen Grüßens und der Anfrage zum Durchführen einer Bestellung zur Antworterzeugungseinheit 13 ausgibt, und der Übergang zum anfänglichen Anwenderzustand U0 wird durchgeführt. Wenn dieser Übergang vom anfänglichen Systemzustand S0 zum anfänglichen Anwenderzustand U0 durchgeführt wird, werden die Bestellungstabelle und die vergangene Bestellungstabelle initialisiert, und die Dialogzustandsinformation wird in der Dialogmanagementeinheit 12 bestimmt. In Antwort auf diese Ausgabe der semantischen Antwortdarstellung von der Dialogmanagementeinheit 12 erzeugt die Antworterzeugungseinheit 13 die geeignete Antwortausgabe gemäß der von der Dialogmanagementeinheit 12 zugeführten semantischen Antwortdarstellung, dem Dialogzustand, dem aktuellen Systemzustand, der Dialogvorgeschichte und der Bestellungstabelle.
  • Beim anfänglichen Anwenderzustand U0 erfolgt dann, wenn die im ACT-Frame der von der Einheit zum Verstehen von Sprache 11 zugeführte semantische Äußerungsdarstellung registrierte Sprachaktion "Bestellung" anzeigt, der Übergang zum Dialog im Systemzustand SP, der gerade arbeitet, gemäß einem normalen Verfahren zum Annehmen einer Bestellung. In diesem Fall werden für die durch die erwartete Anwenderäußerung durchgeführte nachfolgende eingegebene Sprache die Übergänge zwischen dem Dialog im Systemzustand SP, das gerade in Arbeit ist, und dem Dialog im Anwenderzustand UP, der gerade in Arbeit ist, so viele Male durchgeführt, wie es nötig ist, und zwar in einer Form von Austauschen der erwarteten Anwenderäußerungen vom Anwender und der entsprechenden Bestätigungsantworten vom System.
  • Andererseits wird dann, wenn die im ACT-Frame der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung registrierte Sprachaktion etwas anderes als "Bestellung" anzeigt, die eingegebene Sprache in diesem Fall als eine unerwartete Anwenderäußerung angesehen, und der Übergang zum Dialogkorrektursystemzustand S10 wird durchgeführt.
  • In diesem Fall gibt die Dialogmanagementeinheit 12 die semantische Antwortdarstellung aus, die die geeignete Antwort anzeigt, um den Empfang der unerwarteten Anwenderäußerung oder den Fehler des geeigneten Empfangs der Anwenderäußerung mitzuteilen, oder die Detailbestätigung der bestellten Elemente eines nach dem anderen, und zwar gemäß der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung, der Bestellungstabelle und der Dialogvorgeschichte. IN Antwort auf diese Ausgabe der semantischen Antwortdarstellung von der Dialogmanagementeinheit 12 erzeugt die Antworterzeugungseinheit 13 die geeignete Antwortausgabe gemäß der von der Dialogmanagementeinheit 12 zugeführten semantischen Antwortdarstellung, dem Dialogzustand, dem aktuellen Systemzustand, der Dialogvorgeschichte und der Bestellungstabelle.
  • Möglicherweise wird dann, wenn das Verfahren zum Annehmen einer Bestellung beendet ist, wenn die Äußerung eines Anwenders für die Bestätigung der gesamten Bestellungen empfangen wird, der Übergang vom Anwenderzustand UP eines Dialogs, der gerade in Arbeit ist, zum Endsystemzustand S9 durchgeführt und wird der Dialog beendet.
  • Detaillierter wird der Betrieb im Anwenderzustand 72 gemäß dem Ablaufdiagramm der Fig. 10 ausgeführt, wie es folgt.
  • Das bedeutet, daß zuerst bei einem Schritt S81 eine Vielzahl der semantischen Äußerungsdarstellungskandidaten von der Einheit zum Verstehen von Sprache 11 eingegeben wird. Dann wird beim Schritt S82 die Interferenz der nichtspezifizierten Teile in den beim Schritt S81 eingegebenen semantischen Äußerungsdarstellungskandidaten unter Verwendung der zuvor erhaltenen semantischen Antwortdarstellung ausgeführt.
  • Dann wird beim Schritt S83 das Zählen bzw. Markieren zum Bewerten der Wahrscheinlichkeit jedes der semantischen Äußerungsdarstellungskandidaten durchgeführt, und beim Schritt S84 wird einer der semantischen Äußerungsdarstellungskandidaten mit der höchsten Zahl als die semantische Äußerungsdarstellung ausgewählt.
  • Dann wird beim Schritt S85 die geeignete Sprachaktion, die im ACT-Frame der beim Schritt S84 ausgewählten semantischen Äußerungsdarstellung zu registrieren ist, bestimmt, und beim Schritt S86 wird gemäß der beim Schritt S85 bestimmten geeigneten Sprachaktion der Übergang zum Systemzustand durchgeführt.
  • Andererseits wird der Betrieb im Systemzustand 71 gemäß dem Ablaufdiagramm der Fig. 11 ausgeführt, wie es folgt.
  • Das bedeutet, daß zuerst beim Schritt S91 die Bestellungstabelle gemäß der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung aktualisiert wird, und beim Schritt S92 die semantische Antwortdarstellung gemäß dem aktuellen Systemzustand erzeugt wird.
  • Dann wird beim Schritt S93 die geeignete Antwortausgabe von der Antworterzeugungseinheit 13 ausgegeben, und beim Schritt S94 wird der Übergang zum Anwenderzustand 72 durchgeführt.
  • Somit kann bei dieser Dialogmanagementeinheit 12 das flexible Management des Dialogs zwischen dem System und dem Anwender durch Verwenden der verschiedenen Informationen, wie beispielsweise des Dialogzustands, des aktuellen Systemzustands und der Dialogvorgeschichte, zur Zeit eines Übergangs zwischen dem Systemzustand 71 und dem Anwenderzustand 72 realisiert werden.
  • Nun wird der oben beschriebene Betrieb der Dialogmanagementeinheit 12 unter Verwendung eines konkreten Beispiels dargestellt werden.
  • Hier ist ein zu verwendendes Beispiel ein Fall, bei welchem die Dialogmanagementeinheit 12 die semantische Antwortdarstellung erhielt, wie sie in Fig. 12A gezeigt ist, und die Bestellungstabelle, wie sie in Fig. 12B gezeigt ist, und zwar in Antwort auf die eingegebene Sprache vom Anwender.
  • In diesem Fall wird die multimodale Antwortausgabe so erzeugt, daß die Sprachantwort für die Bestätigungsnachricht von "Ihre Bestellungen sind ein Hamburger, zwei Kaffee und vier große Colas, richtig?", wie es in Fig. 12C gezeigt ist, von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Bestätigungsnachricht, das menschliche Charakterbild zum Ausgeben dieser Bestätigungsnachricht und das Inhaltsvisualisierungsbild einschließlich der Bilder der bestellten Elemente, begleitet von den Zahlen, die die bestellten Mengen anzeigen, auf der Anzeigeeinheit 14 angezeigt werden.
  • Dann erhält, wenn der Anwender die eingegebene Sprache von "Füge ein Cola mehr hinzu, bitte.", wie es in Fig. 12C gezeigt ist, in Antwort auf diese Bestätigungsnachricht eingibt, die Einheit zum Verstehen von Sprache 11 zwei semantische Äußerungsdarstellungskandidaten Nr. 1 und Nr. 2, die in Fig. 12D und in Fig. 12E gezeigt sind, indem die Schlüsselworterfassung und die Schlüsselwortgitterzerlegung ausgeführt wird, wie es oben beschrieben ist.
  • Hier sind den semantischen Äußerungsdarstellungskandidaten Nr. 1 und Nr. 2 jeweils die Zahlen bzw. Markierungen D1 und D2 zugeordnet, um ihre Wahrscheinlichkeit anzuzeigen, und diese semantischen Äußerungsdarstellungskandidaten sind in einer Reihenfolge der zugeordneten Markierungen angeordnet. Bei diesem Beispiel hat der semantische Äußerungsdarstellungskandidat Nr. 1 den ACT-Frame, der die Sprachaktion von "Hinzufügen" registriert, und den BESTELLUNGSTABELLEN-Frame, der die Bestellungstabelle von einem Cola einer nicht spezifizierten Größe registriert, während der semantische Äußerungsdarstellungskandidat Nr. 2 den ACT-Frame hat, der die Sprachaktion von "Löschen" registriert, und den BESTELLUNGSTABELLEN-Frame, der die Bestellungstabelle von zwei großen Kartoffeln registriert.
  • Dann wird im Anwenderzustand der Prozeß gemäß dem Ablaufdiagramm der Fig. 13 ausgeführt, wie es folgt.
  • Das bedeutet, daß für den semantischen Äußerungsdarstellungskandidaten Nr. 1 zuerst beim Schritt 5111 die Interferenz der nicht spezifizierten Teile für die nicht spezifizierte Größe der bestellten einen Cola durch Schauen auf die Größe der Cola, die in der semantischen Antwortdarstellung der Fig. 12A spezifiziert ist, unter der Annahme durchgeführt wird, daß die Größe bei dieser Zusatzbestellung dieselbe wie diejenige bei der ursprünglichen Bestellung ist.
  • Dann wird beim Schritt S112 die Konsistenz der Zusatzbestellung, die durch den semantischen Äußerungsdarstellungskandidaten Nr. 1 durchgeführt wird, durch Heraussuchen der Inkonsistenz zwischen der Bestellungstabelle, die in Fig. 12B gezeigt ist, und dem semantischen Äußerungsdarstellungskandidaten Nr. 1, der in Fig. 12D gezeigt ist, geprüft. In diesem Fall gibt es keine Inkonsistenz zwischen der in Fig. 12B gezeigten Bestellungstabelle und dem in Fig. 12D gezeigten semantischen Äußerungsdarstellungskandidaten Nr. 1, so daß die Markierung D1 des semantischen Äußerungsdarstellungskandidaten Nr. 1 dadurch unverändert gelassen wird, daß er zu einer neuen Markierung D1' = D1 aktualisiert wird.
  • Gleichermaßen wird für den semantischen Äußerungsdarstellungskandidaten Nr. 2 zuerst beim Schritt 5113 die Interferenz der nicht spezifizierten Teile durchgeführt. Bei diesem Beispiel gibt es jedoch keine nicht spezifizierten Teile im semantischen Äußerungsdarstellungskandidaten Nr. 2, so daß die Interferenz tatsächlich nicht durchgeführt wird und der Prozeß zum nächsten Schritt S114 weitergeht.
  • Dann wird, genau wie beim Schritt S112, als nächstes beim Schritt S114 die Konsistenz der Löschbestellung, die durch den semantischen Äußerungsdarstellungskandidaten Nr. 2 durchgeführt ist, durch Heraussuchen der Inkonsistenz zwischen der in Fig. 2B gezeigten Bestellungstabelle und dem in Fig. 12E gezeigten semantischen Äußerungsdarstellungskandidaten Nr. 2 geprüft. IN diesem Fall gibt es eine Inkonsistenz zwischen der in Fig. 12B gezeigten Bestellungstabelle und dem in Fig. 12E gezeigten semantischen Äußerungsdarstellungskandidaten Nr. 2 diesbezüglich, daß die Löschung von zwei großen Kartoffeln durch den semantischen Äußerungsdarstellungskandidaten Nr. 2 angezeigt wird, während es keine Kartoffel in der ursprünglichen Bestellungstabelle gibt. Folglich wird die Markierung D2 des semantischen Äußerungsdarstellungskandidaten Nr. 2 zu einer neuen Markierung D2' = D2 · &alpha; (&alpha; < 1.0) aktualisiert ist, welche kleiner als die ursprüngliche Markierung D2 ist.
  • Als nächstes werden beim Schritt S115 die aktualisierten Markierungen D1' und D2' der semantischen Äußerungsdarstellungskandidaten Nr. 1 und Nr. 2 die jeweils bei den Schritten 5112 und 5114 erhalten werden, verglichen, um den semantischen Äußerungsdarstellungskandidaten mit der höchsten Markierung bzw. Zahl auszuwählen, welches in diesem Fall, wenn D1' > D2' gilt, der semantische Äußerungsdarstellungskandidat Nr. 1 ist.
  • Dann wird beim Schritt S116 die im ACT-Frame der semantischen Äußerungsdarstellung zu registrierende Sprachaktion als "Hinzufügung" bestimmt, und zwar gemäß der Auswahl des semantischen Äußerungsdarstellungskandidaten Nr. 1 als die semantische Äußerungsdarstellung beim Schritt S115.
  • Schließlich wird beim Schritt S117 der Übergang zum Zusatzbestätigungssystemzustand SA durchgeführt.
  • Im Zusatzbestätigungssystemzustand SA wird der Prozeß gemäß dem Ablaufdiagramm der Fig. 14 ausgeführt, wie es folgt.
  • Das bedeutet, daß zuerst beim Schritt S121 die Addition bzw. das Hinzufügen einer großen Cola zur Bestellungstabelle gemäß der semantischen Äußerungsdarstellung für diesen in Fig. 15A gezeigten Zusatz durchgeführt wird.
  • Dann wird beim Schritt S122 die semantische Antwortdarstellung zum Ausgeben einer Bestätigungsnachricht für diesen Zustand durch Auswählen einer geeigneten Antwortaktion, die im ACT-Frame von der in Fig. 15B gezeigten Antwortaktionsliste zu registrieren ist, erhalten. In diesem Fall wird die "Zusatzbestätigung" als die geeignete Antwortaktion entsprechend der Sprachaktion von "Zusatz" in der in Fig. 15A gezeigten semantischen Äußerungsdarstellung ausgewählt, um die in Fig. 15C gezeigte semantische Antwortdarstellung zu erhalten.
  • Dann wird beim Schritt S123 die geeignete Antwortausgabe von der Antworterzeugungseinheit 13 ausgegeben. In diesem Fall wird die Sprachantwort von "Lassen Sie mich bestätigen. Sie wünschen, eine große Cola hinzuzufügen, richtig?" ausgegeben.
  • Schließlich wird beim Schritt S124 der Übergang zum Zusatzbestätigungs-Anwenderzustand UA durchgeführt.
  • Die Beispiele anderer Systemsprachantworten für einen Bestätigungsbetrieb in Fällen der anderen Antwortaktionen sind in Fig. 16 aufgelistet.
  • Die Dialogmanagementeinheit 12 gibt die semantische Antwortdarstellung, die auf eine Weise erhalten wird, die oben beschrieben ist, zur Antworterzeugungseinheit 13 zusammen mit der Sprachgeschwindigkeit eines Anwenders und der Wahrscheinlichkeit jedes in der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Antwortdarstellung verwendeten Schlüsselwort aus.
  • Hier wird die Sprachgeschwindigkeit des Anwenders als Durchschnittszahl von mehreren pro Sekunden erhalten, wie es folgt. Das bedeutet, daß dann, wenn die eingegebene Sprache drei Schlüsselwörter von "Hamburger", "Kartoffel" und "bitte" enthält, wie es in Fig. 17 gezeigt ist, die mehreren Zahlen dieser Schlüsselwörter jeweils als 6, 3 und 4 bestimmt werden können, wie es in Fig. 17 gezeigt ist, wenn diese Schlüsselwörter jeweils mit den Anfangs- und Endstellen von t1 und t2, t3 und t4 und t5 und t6 beim Schlüsselwortentdecker 21b in der Schlüsselworterfassungseinheit 21 der Einheit zum Verstehen von Sprache 11 entdeckt werden. Dann kann aus diesen mehreren Zahlen die Sprachgeschwindigkeit eines Anwenders als Durchschnittszahl von mehreren pro Sekunde für diese drei Schlüsselwörter bestimmt werden, die gegeben sind durch:
  • {6((t2-t1) + 3/(t4-t3) + 4/(t6-t5)}/3
  • Somit wird die in der Dialogmanagementeinheit 12 erhaltene semantische Antwortdarstellung zusammen mit der Sprachgeschwindigkeit des Anwenders und der Wahrscheinlichkeit jedes in der semantischen Antwortdarstellung verwendeten Schlüsselworts in einer Form, wie sie in Fig. 18 gezeigt ist, zur Antworterzeugungseinheit 13 ausgegeben.
  • 2.3 Antworterzeugungseinheit 13
  • Die Antworterzeugungseinheit 13 erzeugt die Sprachantwort und die visuelle Antwort einschließlich der Textdaten, des menschlichen Charakterbildes und des Inhaltsvisualisierungsbildes gemäß der Antwortausgabe- Inhaltsinformation, die von der Dialogmanagementeinheit 12 zugeführt wird, einschließlich der semantischen Antwortdarstellung, der durch die Dialogzustandsinformation und die Dialogvorgeschichteninformation gebildeten menschlichen Charakterbildinformation und der von der Dialogmanagementeinheit 12 zugeführten Inhaltsvisualisierungsbildinformation.
  • Hier werden die Sprachantwort und das menschliche Charakterbild mit der Sprachcharakteristik und dem menschlichen Charakterbildmerkmal erzeugt, die gemäß der semantischen Antwortdarstellung und der menschlichen Charakterbildinformation bestimmt werden, die von der Dialogmanagementeinheit 12 zugeführt werden, um den aktuellen Zustand des Dialogs zu berücksichtigen. Zusätzlich wird das Inhaltsvisualisierungsbild, das den wesentlichen Inhalt der Sprachantwort visualisiert, zum Unterstützen des richtigen Verstehens der Systemantwort durch den Anwender geliefert.
  • Detaillierter hat diese Antworterzeugungseinheit 13 eine Konfiguration, wie sie in Fig. 19 gezeigt ist.
  • Bei dieser Konfiguration der Fig. 19 weist die Antworterzeugungseinheit 13 folgendes auf: eine Antwortsatz- Erzeugungseinheit 131; eine Einheit zur Bestimmung menschlicher Charaktermerkmale 132; eine Einheit zur Erzeugung eines menschlichen Charakterbildes 133; eine Einheit zur Bestimmung von Sprachcharakteristiken 134; eine Einheit zur Erzeugung einer Sprachantwort 135; eine Einheit zur Erzeugung eines Inhaltsvisualisierungsbildes 136; und eine Antwortausgabe-Steuereinheit 137.
  • Die Antwortsatz-Erzeugungseinheit 131 erzeugt die Antwortsatz-Textdaten und die Antwortsatz-Strukturdaten für die Sprachantwort gemäß der semantischen Antwortdarstellung und der menschlichen Charakterbildinformation, die von der Dialogmanagementeinheit 12 zugeführt werden. Die erzeugten Antwortsatz-Textdaten und Antwortsatz-Strukturdaten werden zur Einheit zur Bestimmung von Sprachcharakteristiken 134 zugeführt, während die erzeugten Antwortsatz-Textdaten zur Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 und zur Antwortausgabe-Steuereinheit 137 zugeführt werden.
  • Die Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 bestimmt die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes, um die Sprachantwort gemäß den bei der Antwortsatz-Erzeugungseinheit 131 erzeugten Antwortsatz-Textdaten und der von der Dialogmanagementeinheit 12 zugeführten menschlichen Charakterbildinformation auszugeben. Die bestimmte Bewegung und der bestimmte Gesichtsausdruck des menschlichen Charakterbildes werden zur Einheit zur Erzeugung eines menschlichen Charakterbildes 133 zugeführt.
  • Die Einheit zur Erzeugung eines menschlichen Charakterbildes 133 erzeugt das auf der Anzeigeeinheit 14 anzuzeigende menschliche Charakterbild gemäß der Bewegung und dem Gesichtsausdruck des bei der Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 bestimmten menschlichen Charakterbildes. Das erzeugte menschliche Charakterbild wird zur Antwortausgabe-Steuereinheit 137 zugeführt.
  • Die Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmt den emotionalen Ausdruck und die Intonation der Sprachantwort gemäß den Antwortsatz-Textdaten und den Antwortsatz-Strukturdaten, die bei der Antwortsatz- Erzeugungseinheit 131 erzeugt werden, und der menschlichen Charakterbildinformation, die von der Dialogmanagementeinheit 12 zugeführt wird. Der bestimmte emotionale Ausdruck und die bestimmte Intonation der Antwortsprache werden zur Sprachantwort-Erzeugungseinheit 135 zugeführt.
  • Die Sprachantwort-Erzeugungseinheit 135 erzeugt die Sprachantwort, die von der Lautsprechereinheit 15 auszugeben ist, gemäß den bei der Antwortsatz-Erzeugungseinheit 131 erzeugten Antwortsatz-Textdaten und dem emotionalen Ausdruck und der Intonation der bei der Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmten Sprachantwort. Die erzeugte Sprachantwort wird zur Antwortausgabe-Steuereinheit 137 zugeführt.
  • Die Einheit zur Erzeugung eines Inhaltsvisualisierungsbildes 136 erzeugt das Inhaltsvisualisierungsbild gemäß der Inhaltsvisualisierungsbildinformation, die von der Dialogmanagementeinheit 12 zugeführt wird. Das erzeugte Inhaltsvisualisierungsbild wird zur Antwortausgabe- Steuereinheit 137 zugeführt.
  • Die Antwortausgabe-Steuereinheit 137 gibt die empfangene Sprachantwort zur Lautsprechereinheit 15 aus, und die empfangenen Antwortsatz-Textdaten, das menschliche Charakterbild und das Inhaltsvisualisierungsbild zur Anzeigeeinheit 14, während die Ausgabezeitgaben für diese Audioinformation und diese visuelle Information gesteuert werden.
  • Hier enthält die von der Dialogmanagementeinheit 12 zugeführte semantische Antwortdarstellung den "Act"-Frame, der den Typ der bei der Antworterzeugungseinheit 13 zu erzeugenden Antwort anzeigt, wie es oben beschrieben ist.
  • Die von der Dialogmanagementeinheit 12 zugeführte menschliche Charakterbildinformation zeigt die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes an, das auf der Anzeigeeinheit 14 anzuzeigen ist, und den emotionalen Ausdruck und die Intonation der Sprachantwort, die von der Lautsprechereinheit 15 auszugeben ist. Bei diesem ersten Ausführungsbeispiel ist die menschliche Charakterbildinformation in einer Form gegeben, die in Fig. 20 gezeigt ist, welche die Label des Systemzustands und des Anwenderzustands zu einer Zeit enthält, zu welcher die zur Antworterzeugungseinheit 13 zugeführte semantische Antwortdarstellung in der Dialogmanagementeinheit 12 erzeugt wird, die Anzahl von Wiederholungen N für einen wiederholten Teil des Dialogs, wie beispielsweise einen Teil, der das wiederholte Fragen oder die wiederholte Bestätigung erfordert, den betonenden Ausdruck in der semantischen Antwortdarstellung, die durch die Dialogmanagementeinheit 12 bestimmt wird, um betont zu werden, um die feste Bestätigung zum Anwender zu erzwingen, und die Wahrscheinlichkeit D, die der semantischen Antwortdarstellung bei einem Prozeß zum Erhalten der semantischen Antwortdarstellung bei der Dialogmanagementeinheit 12 von den semantischen Äußerungsdarstellungskandidaten gemäß ihrer Zahlen zugeordnet ist, wie es oben beschrieben ist, was dasselbe wie die Zahl ist, die der ausgewählten semantischen Äußerungsdarstellung zugeordnet ist, und was die Wahrscheinlichkeit der zu korrigierenden semantischen Antwortdarstellung anzeigt. In Fig. 20 stellen die Label für den Systemzustand und den Anwenderzustand, wie beispielsweise SP1 und UP3, einen Zustand im Ensemble eines Zustands- und eines Anwenderdialogs bei jeweiligen Fortschreitungszuständen SP und UP dar, die in der Fig. 9 verwendet sind, die oben beschrieben ist.
  • Nun arbeitet in weiterem Detail jedes der Elemente der in Fig. 19 gezeigten Antworterzeugungseinheit 13 wie folgt.
  • Die Antwortsatz-Erzeugungseinheit 131 erzeugt die Antwortsatz-Textdaten und die Antwortsatz-Strukturdaten für die Sprachantwort unter Verwendung irgendeines des Verfahrens zur Satzerzeugung unter Verwendung vorbestimmter Überschreibregeln, des Verfahrens zur Satzerzeugung durch ein Auffüllen von Leerzeichen, des Verfahrens einer Satzsynthese unter Verwendung von Baumstrukturen und des Verfahrens einer Satzsynthese unter Verwendung der semantischen Strukturen. Im folgenden wird ein Fall eines Verwendens des Verfahrens zur Satzerzeugung durch Auffüllen von Leerzeichen detailliert als Beispiel beschrieben werden.
  • In diesem Fall wird die Erzeugung des Antwortsatzes durch Liefern eines vorgeschriebenen Antwortsatzmusters mit aufzufüllenden Leerzeichen für die Menge, die Größe und das Element, die in der semantischen Antwortdarstellung erscheinen, für jeden "Act"-Frame-Eintrag erreicht, wie es in Fig. 21 gezeigt ist. Dann kann das Auffüllen der Leerzeichen gemäß der semantischen Antwortdarstellung gemäß dem Ablaufdiagramm der Fig. 22A ausgeführt werden, wie es folgt.
  • Zuerst wird beim Schritt S141 eine Variable n zum Anzeigen einer Anzahl von Ausführungen des Prozesses anfangs auf Null eingestellt, und beim Schritt S142 wird eine Anzahl von Elementen, die bei der semantischen Antwortdarstellung beteiligt sind, auf eine Variable M eingestellt. Wenn die in Fig. 22B gezeigte semantische Antwortdarstellung verwendet wird, ist die auf die Variable M eingestellte Zahl zwei.
  • Dann werden beim Schritt S143 das Element, die Größe und die Menge für eines der Elemente, die bei der semantischen Antwortdarstellung beteiligt sind, in das vorgeschriebenen Antwortsatzmuster für den "Act"-Frameeintrag eingefüllt, der in der semantischen Antwortdarstellung angezeigt ist, wie beispielsweise derjenigen, die in Fig. 22C gezeigt, und zwar für die semantische Antwortdarstellung der Fig. 22B.
  • Dann wird beim Schritt S144 die Variable n um eins erhöht, und die Schritte 5143 und 5144 werden wiederholt, bis die beim Schritt S144 erhaltene Variable n beim Schritt S145 die Variable M übersteigt.
  • Als Ergebnis kann für die semantische Antwortdarstellung der Fig. 22B und das Antwortsatzmuster der Fig. 22C der Antwortsatz von "Lassen Sie mich bestätigen. Ihre Bestellungen sind eine große Cola und drei kleine Kartoffeln, richtig?" erhalten werden, wie es in Fig. 22D gezeigt ist.
  • Die Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 bestimmt die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes zum Ausgeben der Sprachantwort. Hier hat die Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 eine Tabelle, wie sie in Fig. 23 gezeigt ist, welche die Label des Systemzustands und des Anwenderzustands enthält, die Anzahl von Wiederholungen N und die Wahrscheinlichkeit D, welche von der menschlichen Charakterbildinformation erhalten werden, die von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit dem vorbestimmten Typ des menschlichen Charakterbildes, der die erwünschte Bewegung des menschlichen Charakterbildes und den vorbestimmten Gesichtsausdruck des menschlichen Charakterbildes für jede Gruppe der menschlichen Charakterbildinformation anzeigt. Beispielsweise wird das menschliche Charakterbild zum Ausgeben der Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die kleiner als zwei ist, und der Wahrscheinlichkeit D, die nicht kleiner als 0,7 ist, den normalen Gesichtsausdruck haben, und das menschliche Charakterbild zum Ausgeben der Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die weniger als zwei sind, und der Wahrscheinlichkeit D, die kleiner als 0,7 ist, wird den verlegenen Gesichtsausdruck haben, während das menschliche Charakterbild zum Ausgeben der Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die mehr als zwei sind, den bedauernden Gesichtsausdruck haben wird, usw.
  • Die Einheit zur Erzeugung des menschlichen Charakterbildes 133 erzeugt das menschliche Charakterbild, das die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes enthält, das bei der Einheit zur Bestimmung des menschlichen Charaktermerkmals 132 bestimmt ist, sowie die geeignete Steuerung der Anzeigezeit sowie die temporale Änderung des menschlichen Charakterbildes. Hier enthält das menschliche Charakterbild die Lippenbewegungen entsprechend der von der Lautsprechereinheit 15 ausgegebenen Sprachantwort und die Verbeugungsbewegung im Fall eines Grüßens. Aus diesem Grund ist in einem Fall eines Verwendens von stehenden Bildern eines Vielzahl von menschlichen Charakterbildern, die aufeinanderfolgend anzuzeigen sind, im Voraus vorbereitet, während in einem Fall eines Verwendens des animierten Bildes das animierte Bild, das die geeignete Bewegung und den Gesichtsausdruck enthält, im Voraus vorbereitet ist. Ebenso kann durch Verwenden der Computergraphiktechniken das menschliche Charakterbild bei einer irgendeiner vorbestimmten Bewegung und irgendeinem vorbestimmten Gesichtsausdruck durch Spezifizieren der erwünschten Bewegung und des erwünschten Gesichtsausdruck erhalten werden.
  • Die Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmt den emotionalen Ausdruck und die Intonation der Sprachantwort entsprechend der Bewegung und des Gesichtsausdrucks des menschlichen Charakterbildes. Hier hat die Einheit zur Bestimmung von Sprachcharakteristiken 134 eine Tabelle, wie sie in Fig. 24 gezeigt ist, welche die Label des Systemzustands und des Anwenderzustands enthält, die Anzahl von Wiederholungen N und die Wahrscheinlichkeit D, die von der menschlichen Charakterbildinformation erhalten werden, die von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit dem vorbestimmten Typ des menschlichen Charakterbildes, der die erwünschte Bewegung des menschlichen Charakterbildes anzeigt, um die Sprachantwort und den vorbestimmten emotionalen Ausdruck der Sprachantwort für jede Gruppe der menschlichen Charakterbildinformation auszugeben.
  • Beispielsweise wird die Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die weniger als zwei sind, und der Wahrscheinlichkeit D, die nicht kleiner als 0,7 ist, den normalen emotionalen Ausdruck haben, und die Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die weniger als zwei sind, und der Wahrscheinlichkeit D, die kleiner als 0,7 ist, wird den verlegenen emotionalen Ausdruck haben, während die Sprachwiederholung N, die größer als zwei ist, den bedauernden emotionalen Ausdruck haben wird, usw. Zusätzlich wird auch der Betonungsausdruck in der in Fig. 20 gezeigten menschlichen Charakterbildinformation, die von der Einheit zur Bestimmung von Sprachcharakteristiken 134 empfangen wird, zur Sprachantwort-Erzeugungseinheit 135 übertragen, um die Sprachantwort mit dem betonten Betonungsausdruck zu erzeugen.
  • Die Sprachantwort-Erzeugungseinheit 135 erzeugt die erwünschte Sprachantwort in einer synthetisierten Stimme, um von der Lautsprechereinheit 15 ausgegeben zu werden. Hier ist es für diese Sprachantwort-Erzeugungseinheit 135 vorzuziehen, die systematische Sprachsynthese zu verwenden, selbst wenn es auch möglich ist, das Editieren einer aufgezeichneten Sprache zu verwenden.
  • In weiterem Detail hat die die Sprachsynthese verwendende Sprachantwort-Erzeugungseinheit 135 die Konfiguration, wie sie in Fig. 25 gezeigt ist, welche eine phonologische Verarbeitungseinheit 151, eine prosodische Verarbeitungseinheit 152, eine Steuerparameter- Erzeugungseinheit 153 und eine Sprachwellenform- Erzeugungseinheit 154 aufweist.
  • Die phonologische Verarbeitungseinheit 151 bestimmt das aurale Lesen des Antwortsatzes durch Verwenden der bekannten phonologischen Regeln und erzeugt eine Reihe von phonetischen Symbolen, die das bestimmte aurale Lesen des Antwortsatzes darstellen, gemäß den Antwortsatz-Textdaten und den Antwortsatz-Strukturdaten, die durch die Antwortsatz- Erzeugungseinheit 131 erzeugt sind.
  • Die prosodische Verarbeitungseinheit 152 bestimmt die prosodischen Merkmale der Sprachantwort, wie beispielsweise das Grundfrequenzmuster, die Leistung, die Dauer und die Pausen, und erzeugt eine Reihe von prosodischen Symbolen, die die bestimmten prosodischen Merkmale darstellen, gemäß den Antwortsatz-Textdaten und den Antwortsatz-Strukturdaten, die durch die Antwortsatz-Erzeugungseinheit 131 erzeugt sind, und die im Antwortsatz zu betonenden Wörter und den Typ des durch die Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmten emotionalen Ausdrucks.
  • Hier kann das Grundfreguenzmuster der Sprachantwort durch Merken der vorbestimmten Größen der Phrasierungskomponente und der Akzentkomponente für Modelle mit und ohne Betonung bestimmt werden, wie es in Fig. 26 gezeigt ist, so daß die gemerkten Modelle zu einer Zeit der Sprachsynthese verwendet werden können. Fig. 26 zeigt das Grundfrequenzmuster für einen japanischen Satz von "Tsuikawa potetodesu", der "Ein Zusatz ist eine Kartoffel" bedeutet, und eine gestrichelte Linie zeigt das Modell ohne die Betonung an, während die durchgezogene Linie das Modell mit der Betonung anzeigt. Zusätzlich können die Regeln, die das Phrasieren und den Akzent beherrschen, für unterschiedliche Typen von Sätzen vorbestimmt sein, wie beispielsweise als deklarierender Satz, als fragender Satz und als imparativer Satz.
  • Es ist zu beachten, daß das Grundfrequenzmuster unterschiedlich von demjenigen gesteuert werden kann, das in Fig. 26 gezeigt ist, indem andere bekannte Verfahren verwendet werden, wie beispielsweise ein Verfahren, das eine lineare Approximation verwendet, oder ein Verfahren, das einen Tonhöhenpegel zum Ausdrücken des Grundfrequenzmusters verwendet.
  • Das prosodische Merkmal, das den emotionalen Ausdruck enthält, kann hauptsächlich durch die Änderungsrate der Grundfrequenz, des dynamischen Bereichs, der Äußerungsdauer und der Energie gesteuert werden.
  • Folglich kann die Sprachantwort mit dem freudigen emotionalen Ausdruck aus einem normalen Muster erhalten werden, das in Fig. 27A gezeigt ist, in dem die Akzentkomponente veranlaßt wird, daß 1,2-fache von derjenigen eines normalen Falls zu sein, die Äußerungsdauer veranlaßt wird, das 0,9-fache von derjenigen eines normalen Falls zu sein, und die Energie veranlaßt wird, 2 dB größer als diejenige eines normalen Falls zu sein, wie es in Fig. 27B gezeigt ist, um die allgemein schnellere Sprachantwort zu erzeugen, bei welcher jedes Wort unterschiedlicher betont ist. Hier zeigen die Fig. 27A und die Fig. 27B die beispielhaften Grundfrequenzmuster für einen japanischen Satz von "Gochumonwa hanbagawo hitotsudesune", der "Ihre Bestellung ist ein Hamburger, richtig?" bedeutet, für den normalen Fall und einen Fall mit dem freudigen emotionalen Ausdruck.
  • Gleichermaßen kann die Sprachantwort mit dem bedauernden emotionalen Ausdruck aus einem normalen Muster erhalten werden, das in Fig. 28A gezeigt ist, indem die Akzentkomponente veranlaßt wird, das 0,9-fache von derjenigen eines normalen Falls zu sein, die Äußerungsdauer veranlaßt wird, das 1,1-fach von derjenigen eines normalen Falls zu sein und die Energie veranlaßt wird, 2 dE kleiner als diejenige eines normalen Falls zu sein, wie es in Fig. 28B gezeigt ist, um die allgemein langsamere Sprachantwort zu erzeugen, bei welcher Worte eher abfallend betont sind. Hier zeigen die Fig. 28A und die Fig. 28B die beispielhaften Grundfrequenzmuster für einen japanischen Satz von "Sumimasen Mouichido Onegaishimasu", was "Entschuldigung, bitte sagen Sie es noch einmal" bedeutet, für den normalen Fall und einen Fall mit dem bedauernden emotionalen Ausdruck.
  • Die Steuerparameter-Erzeugungseinheit 153 bestimmt die bei der Sprachwellenform-Erzeugungseinheit 154 zu verwendenden Steuerparameter gemäß den phonetischen Symbolen und den prosodischen Symbolen, die jeweils von der phonologischen Verarbeitungseinheit 151 und der prosodischen Verarbeitungseinheit 152 zu geführt werden.
  • Zusätzlich führt die Steuerparameter-Erzeugungseinheit 153 auch die Äußerungsdauer zur Antwortausgabe-Steuereinheit 137 zu, so daß die Sprachgeschwindigkeit der Sprachantwort sowie eine Lippenbewegung des menschlichen Charakterbildes gemäß der Sprachgeschwindigkeit der eingegebenen Sprache gesteuert werden kann, die durch den Anwender geäußert wird, und die von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit der semantischen Antwortdarstellung. Es ist vorzuziehen, diese Sprachgeschwindigkeitssteuerung so auszuführen, daß die Äußerungsdauer kürzer gemacht wird, wenn der Dialog ruhig fortschreitet, während die Äußerungsdauer länger gemacht wird, wenn der Dialog nicht ruhig fortschreitet. Hier kann die Änderung der Äußerungsdauer geeignet durch Auswählen der geeigneten Länge des Antwortsatzmusters gesteuert werden. Beispielsweise kann ein kürzeres Antwortsatzmuster verwendet werden, wenn die Sprachgeschwindigkeit des Anwenders schneller 9 Mora/sek. ist, während das längere und höflichere Antwortsatzmuster sonst verwendet werden kann.
  • Darüber hinaus kann die Wahrscheinlichkeit jedes Schlüsselworts, das von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit der semantischen Antwortdarstellung bei der Bestimmung des Antwortsprachmusters wie folgt berücksichtigt werden. Das bedeutet, daß in einem Fall, daß beispielsweise eine Bestätigung durchgeführt wird, das Antwortsatzmuster in einer Form einer positiven Bestätigung, wie beispielsweise "Ihre Bestellungen sind zwei Hamburger, richtig?" und das Antwortsatzmuster in einer Form einer Frage, wie beispielsweise "Sind ihre Bestellungen zwei Hamburger?" selektiv verwendet werden können. Beispielsweise dann, wenn die durchschnittlichen Wahrscheinlichkeiten der Schlüsselwörter, die beim Antwortsatz zu beteiligen sind, unter dem vorbestimmten Schwellenpegel, wie beispielsweise 0,5, sind und wenn eines der im Antwortsatz zu enthaltenden Schlüsselwörter eine sehr geringe Wahrscheinlichkeit hat, kann das Antwortsatzmuster in einer Form einer Frage selektiv verwendet werden, während sonst das Antwortsatzmuster in einer Form einer positiven Bestätigung selektiv verwendet werden kann. Auf diese Weise kann der Anwender auch die Information in Bezug auf das Ausmaß eines Verstehens, das durch das System erreicht wird, aus dem verwendeten Antwortsatzmuster erhalten. Es ist zu beachten, daß die selektive Verwendung der unterschiedlichen Antwortsatzmuster für die anderen Aspekte der Sprachantwort erfolgen kann, wie beispielsweise die selektive Verwendung des höflichen Antwortsatzmusters und des vertrauten Antwortsatzmusters.
  • Die Sprachwellenform-Erzeugungseinheit 154 hat eine Konfiguration des in Fig. 29 gezeigten Formantentyp- Sprachsynthesizers der einen Impulsgenerator 161, einen Rauschgenerator 162, ein mit dem Impulsgenerator 161 verbundenes Tiefpaßfilter 163A als Klangquelle, ein mit dem Rauschgenerator 162 verbundenes Tiefpaßfilter, einen mit dem Tiefpaßfilter 163A verbundenen Schalter, einen Addierer 165A zum Addieren der Ausgaben der Tiefpaßfilter 163A und 163B, eine Reihe von Resonatoren 166A, die mit dem Addierer 165A verbunden sind, eine Vielzahl von Amplitudensteuerungen 167, die parallel zum Schalter 164 geschaltet sind, eine Vielzahl von Resonatoren 166B, die mit den Amplitudensteuerungen 167 verbunden sind, einen Addierer 165B zum Addieren der Ausgaben der Resonatoren 165A und 165B und eine der Amplitudensteuerungen 167 ohne einen Resonator 166B, ein mit dem Addierer 165B verbundenes Hochpaßfilter 168 und einen Steuerparameter-Verteiler 169, der die von der Steuerparameter-Erzeugungseinheit 153 zugeführten Steuerparameter zu allen Elementen dieses oben angegebenen Formantentyp-Sprachsynthesizers verteilt, aufweist. Als Beispiel können bei dieser Sprachwellenform-Erzeugungseinheit 154 die Sprachsyntheseparameter alle 8 msek unter Verwendung der Abtastfrequenz von 12 kHz aktualisiert werden. Es ist zu beachten, daß die anderen bekannten Typen des Sprachwellenformgenerators anstelle desjenigen verwendet werden können, der in Fig. 29 gezeigt ist.
  • Die Inhaltsvisualisierungsbild-Erzeugungseinheit 136 erzeugt das Inhaltsvisualisierungsbild, das den wesentlichen Inhalt der Sprachantwort visualisiert, und ist zum Unterstützen des richtigen Verstehens bzw. Begreifens der Systemantwort durch den Anwender vorgesehen.
  • Bei diesem ersten Ausführungsbeispiel ist die von der Dialogmanagementeinheit 12 zugeführte Inhaltsvisualisierungsbildinformation die in der oben beschriebenen Dialogmanagementeinheit 12 verwendete Bestellungstabelle. Hier enthält die Bestellungstabelle die Information über die Elemente, die Größen und die Mengen für alle Bestellungen, die durch das System bis zu einem jeweiligen Moment beim Dialog zwischen dem Anwender und dem System angenommen werden, so daß diese Information zum Visualisieren des Inhalts der Bestellung verwendet werden kann, die durch Anzeigen eines Bildes jedes Elements angenommen wird, das einer bestellten Größe bestellt ist, begleitet durch eine numerische Zahl, die eine bestellte Menge anzeigt. Mit diesem Inhaltsvisualisierungsbild kann der Anwender den Inhalt der durch das System angenommenen Bestellung visuell prüfen, und zwar zusätzlich zu der Audioinformation, die durch die Sprachantwort geliefert wird, so daß es für den Anwender leichter wird, den Inhalt der durch das System angenommenen Bestellung zu begreifen.
  • Diese Inhaltsvisualisierungsbild-Erzeugungseinheit 136 kann das erwünschte Inhaltsvisualisierungsbild auf gleiche Weise wie die Einheit zur Erzeugung eines menschlichen Charakterbildes 132 durch Enthalten der geeigneten Steuerung der Anzeigezeit und der temporalen Änderung des visuellen Bildes erzeugen. Somit wird in einem Fall eines Verwendens von Standbildern eine Vielzahl von Inhaltsvisualisierungsbildern, die aufeinanderfolgend anzuzeigen sind, im Voraus vorbereitet, während in einem Fall eines Verwendens des animierten Bildes das animierte Bild, das das geeignete Inhaltsvisualisierungsbild realisiert, im Voraus vorbereitet wird. Ebenso kann durch Verwenden der Computergraphiktechnik irgendein erwünschtes Inhaltsvisualisierungsbild durch Spezifizieren der erwünschten Elemente, Größen und Mengen, die zu visualisieren sind, erhalten werden.
  • Die Anwortausgabe-Steuereinheit 137 gibt die empfangene Sprachantwort zur Lautsprechereinheit 15 aus, und die empfangenen Antwortsatz-Textdaten, das menschliche Charakterbild und das Inhaltsvisualisierungsbild zur Anzeigeeinheit 14, während die Ausgabezeitgaben für diese Audioinformation und diese visuelle Information gesteuert werden, um die multimodale Antwortausgabe zu realisieren.
  • Hier ist es wichtig, die Beziehungen zwischen der Audioinformation und der visuellen Information durch eine geeignete Ausgabezeitgabesteuerung zu steuern. Das bedeutet, daß in einem Fall, in welchem das menschliche Charakterbild die Lippenbewegung entsprechend der Sprachantwort enthält, die Lippenbewegung und die Sprachantwort sorgfältig synchronisiert werden sollten, und in einem Fall, in welchem das menschliche Charakterbild die Verbeugungsbewegung entsprechend den Begrüßungsworten in der Sprachantwort enthält, die Verbeugungsbewegung und die Begrüßungsworte, die gezeigt werden, sorgfältig synchronisiert sein sollten.
  • Es ist auch wichtig, die Ausgabezeitgaben dieser Audioinformation und dieser visuellen Information zu steuern, um die Reihenfolge einer Präsentation der Information zu manipulieren, die dem Anwender zuzuteilen ist. Beispiele für eine solche Ausgabezeitgabesteuerung sind in den in den Fig. 30A, 30B, 31A und 31B gezeigten Zeitgabediagrammen gezeigt.
  • Fig. 30A ist ein Zeitgabediagramm für eine Anfangsbegrüßungssituation. In diesem Fall gibt es deshalb, weil es noch keine angenommene Bestellung gibt, keine Inhaltsvisualisierungsbildanzeige. Zu einer Zeit t0 werden die Textdaten für die Anfangsbegrüßungsworte angezeigt. Zwischenzeitlich erscheint das menschliche Charakterbild zur selben Zeit t0, und die Lippen des menschlichen Charakterbildes werden zusammen mit der Ausgabe der Sprachantwort von "Willkommen bei Tos Burger. Bitte machen Sie Ihre Bestellung." zwischen den Zeiten t0 und t2 bewegt, um den Anwender dazu zu bringen, die Bestellung zu machen. Hier enthalten die zur Zeit t0 angezeigten Begrüßungsworte die Textdaten für alle Sprachantworten zwischen den Zeiten t0 und t2, um dabei zu helfen, daß der Anwender die Sprachantworten begreift, und diese Textdaten werden fortgeführt auch nach der Zeit t2 angezeigt werden, bis zur nächsten Systemantwort-Ausgabestufe.
  • Fig. 30B ist ein Zeitgabediagramm für eine Situation, in welcher ein Hamburger und eine Cola bereits bestellt worden sind, und zwei Hamburger und zwei Kaffees zusätzlich bestellt werden. In diesem Fall werden bis zur Zeit t0 die Textdaten "Ihre Bestellungen sind ein Hamburger und eine Cola, richtig?" zum Bestätigen der vorherigen Bestellung angezeigt, während das Inhaltsvisualisierungsbild den bereits bestellen einen Hamburger und die bereits bestellte eine Cola zeigt. Dann werden zu einer Zeit t0 die Textdaten zu neuen Textdaten von "Sie möchten zwei Hamburger und zwei Kaffee hinzufügen, richtig?" geändert, um die zusätzliche Bestellung zu bestätigen. Ebenso wird zur gleichen Zeit t0 das Inhaltsvisualisierungsbild zu einem neuen Inhaltsvisualisierungsbild geändert, das drei Hamburger, zwei Kaffees und eine Cola zeigt, in dem die zusätzliche Bestellung mit der vorherigen Bestellung kombiniert wird. Zwischenzeitlich beginnt das menschliche Charakterbild die Lippenbewegung zusammen mit der Ausgabe der Sprachantwort von "Sie möchten zwei Hamburger und zwei Kaffees hinzufügen, richtig?" zwischen den Zeiten t0 und t3. Hier werden die neuen Textdaten und das Inhaltsvisualisierungsbild selbst nach der Zeit t3 kontinuierlich angezeigt, bis zur nächsten Systemantwort-Ausgabestufe.
  • Fig. 31A ist ein Zeitgabediagramm für die Situation zum Bestätigen aller Bestellungen, nachdem die Bestellungen für zwei Hamburger, einen Cheesburger und drei Kaffees empfangen sind. In diesem Fall werden, nachdem die Bestellungen empfangen sind, zur Zeit t0 die Textdaten zu neuen Textdaten von "Ihre Bestellungen sind zwei Hamburger, ein Cheesburger und drei Kaffees, richtig?" geändert, um alle Bestellungen zu bestätigen. Zwischenzeitlich beginnt das menschliche Charakterbild die Lippenbewegung zusammen mit der Ausgabe der Sprachantwort von "Ihre Bestellungen sind zwei Hamburger, ein Cheesburger und drei Kaffees, richtig?" zwischen den Zeiten t0 und t4. Bezüglich des Inhaltsvisualisierungsbildes wird das Inhaltsvisualisierungsbild bis zu einer Zeit t1 nicht gezeigt, zu welcher Zeit der Anfangsteil von "Ihre Bestellungen sind" in der Sprachantwort ausgegeben worden ist. Dann wird zur Zeit t1 das Inhaltsvisualisierungsbild angezeigt, das zwei Hamburger, einen Cheesburger und drei Kaffees zeigt. Hier werden die neuen Textdaten sowie das Inhaltsvisualisierungsbild selbst nach der Zeit t4 kontinuierlich angezeigt, bis zur nächsten Systemantwort- Ausgabestufe.
  • Nun können in einer Situation, wie beispielsweise derjenigen, die in Fig. 31A gezeigt ist, wenn die Anzahl von bestellten Elementen zahlreich wird, die Textdaten sehr länglich werden und kann die Ausgabe der gesamten Sprachantwort eine bemerkenswerte an Zeit dauern. Jedoch deshalb, weil das Inhaltsvisualisierungsbild, das den Inhalt der Bestellungen zeigt, zur Zeit t1 angezeigt wird, ist es sehr wahrscheinlich für den Anwender, daß er den Inhalt der Systemantwort gut verstehen kann, bevor die Ausgabe der gesamten Sprachantwort beendet ist, ohne die länglichen Textdaten zu lesen. In einem solchen Fall ist die Anzeige der Textdaten nutzlos und kann die Sprachantwort den Anwender eher irritieren. Aus diesem Grund können dann, wenn die Anzahl von Elementen die vorbestimmte Schwellenzahl übersteigt, wie beispielsweise drei, der Systemantwort-Ausgabeinhalt und seine Ausgabebestellung modifiziert werden, wie es in Fig. 31B gezeigt ist, um den Dialog zum Bestätigen der Bestellungen zu vereinfachen.
  • Das bedeutet, daß in Fig. 31B, nachdem die Bestellungen empfangen sind, zur Zeit t0 die Textdaten einmal gelöscht werden, während das Inhaltsvisualisierungsbild, das zwei Hamburger, einen Cheesburger und drei Kaffees zeigt, sofort zur Zeit t0 angezeigt wird. Dann werden zur Zeit t1 neue Textdaten von "Dieses sind Ihre Bestellungen, richtig?" zum Verkürzen einer Bestätigung angezeigt, während das menschliche Charakterbild die Lippenbewegung zusammen mit der Ausgabe der Sprachantwort von "Dieses sind Ihre Bestellungen, richtig?" zwischen den Zeiten t1 und t2 durchführt. Hier werden die neuen Textdaten sowie das Inhaltsvisualisierungsbild selbst nach der Zeit t2 kontinuierlich angezeigt, bis zur nächsten Systemantwort- Ausgabestufe.
  • In diesem Fall wird die Änderung des Systemantwort- Ausgabeinhalts und seine Ausgabereihenfolge- bzw. Bestellung bei der Anworterzeugungseinheit 13 gemäß der Antwortaktion und der Anzahl von bestellten Elementen bestimmt, die durch die semantische Antwortdarstellung angezeigt werden, die von der Dialogmanagementeinheit 12 zugeführt wird. Hier kann die Änderung des Systemantwort-Ausgabeinhalts und seine Ausgabebestellung bzw. -reihenfolge durch Verwenden eines Faktors bestimmt werden, der eine Länge der Sprachantwort anzeigt, die anders als die Anzahl von bestellten Elementen ist, wie beispielsweise eine Anzahl von Wörtern, die in der Sprachantwort verwendet werden, oder eine Anzahl von Moras der Sprachantwort.
  • Es ist zu beachten, daß die gleiche Vereinfachung des Systemantwort-Ausgabeinhalts und seiner Ausgabebestellung mittels der Ausgabe der visuellen Antwort, die der Ausgabe der Sprachantwort vorangeht, und die kürzere Sprachantwort unter Verwendung des Demonstrativpronomens auch in anderen Situationen verwendet werden können, in welchen die Anzahl von Elementen, die zu bestätigen sind, zahlreich ist, oder der Systemantwort-Ausgabeinhalt so kompliziert ist, daß er verbal verstanden wird.
  • Es ist auch zu beachten, daß bei diesen Beispielen der Fig. 30A, 30B, 31A und 31B die Ausgabezeitgaben gemäß der Sprachdauer jedes Teils der Sprachantwort bestimmt werden. Somit wird in Fig. 30A die Periode zwischen den Zeitgaben t0 und t1 durch die zum Ausgeben der Sprachantwort von "Willkommen bei Tos Burger" erforderliche Sprachdauer, usw. bestimmt. Jedoch können die Ausgabezeitgaben alternativ gemäß der Anzeigedauer des menschlichen Charakterbildes oder des Inhaltsvisualisierungsbildes bestimmt werden, wenn es erwünscht ist.
  • Die Antwortausgabe-Steuereinheit 137j steuert auch die Anzeigepositionen der Textdaten, des menschlichen Charakterbildes und des Inhaltsvisualisierungsbildes auf der Anzeigeeinheit 14.
  • 3. Beispielhafte multimodale Antwortausgabe
  • Nimmt man nun Bezug auf die Fig. 32 bis 38 wird die beispielhafte multimodale Antwortausgabe bei diesem ersten Ausführungsbeispiel des Sprachdialogsystems bei der praktischen Aufgabe zum Annehmen einer Bestellung in einem Schnellimbiß detailliert beschrieben werden.
  • Zuerst zeigt Fig. 32 eine anfängliche Anzeige auf der Anzeigeeinheit 14 bei der Abwesenheit des Anwenders. In diesem Fall zeigt die Anzeigeeinheit 14 nur einen einfachen Text an, wie beispielsweise "Willkommen bei TOS BURGER", und die Lautsprechereinheit 15 bleibt still.
  • Wenn das Näherkommen des Anwenders (in diesem Fall eines Kunden) zu einer Stelle des Systems (wie beispielsweise einer Restaurantkasse oder einem Durchfahrfenster) durch eine Anwendererfassungsvorrichtung (nicht gezeigt), wie beispielsweise einer mit einem Drucksensor oder einer Überwachungskamera ausgestatteten Bodenmatte, erfaßt wird, zeigt die Anzeigeeinheit 14 die visuelle Antwort an, wie es in Fig. 33 gezeigt ist, welche das menschliche Charakterbild eines Restaurantangestellten mit einem freundlichen lächelnden Gesichtsausdruck zusammen mit den Textdaten der anfänglichen Begrüßungs-Sprachantwort, wie beispielsweise "Willkommen bei Tos Burger. Bitte machen Sie Ihre Bestellung." enthält, während dieselbe Sprachantwort von der Lautsprechereinheit 15 mit der synthetisierten Stimme ausgegeben wird. Dieser Zustand entspricht dem anfänglichen Systemzustand S0 im Zustandsübergangsdiagramm der Fig. 9, die oben beschrieben ist. Hier ist es wichtig, die Ausgabe der oben beschriebenen visuellen Antwort und die Sprachantwort zu einer Zeitgabe zu beginnen, bei welcher erfaßt wird, daß der Anwender vor dem System stillsteht, um den Dialog mit dem Anwender auf angenehme Weise zu beginnen. Diesbezüglich ist der freundlich lächelnde Gesichtsausdruck des menschlichen Charakterbildes sehr wichtig, um die Anspannung auf der Seite des Anwenders zu entspannen, und es ist weiterhin vorzuziehen, die synthetisierte Stimme mit der freundlichen Intonation für die anfängliche Begrüßungs-Sprachantwort zu verwenden. Diese anfängliche Begrüßungs-Sprachantwort kann durch die zuvor aufgezeichneten synthetisierten oder durch natürliche Klänge geliefert werden, wenn es erwünscht ist.
  • Nun soll ein Fall betrachtet werden, bei welchem der Anwender die eingegebene Sprache von "Eh, zwei Hamburger, und... ja zwei Kaffee, bitte." in Eile in Antwort auf die in Fig. 33 gezeigte Nachricht äußerte. Dann wird auf der Systemseite der oben beschriebene Betrieb im anfänglichen Anwenderzustand UO im Zustandsübergangsdiagramm der Fig. 9 ausgeführt. Hier soll jedoch angenommen sein, daß die eingegebene Sprache vom Anwender so schnell geäußert wurde, daß das System die eingegebene Sprache nicht verstanden hat, da es keine Ausgabe von der Einheit zum Verstehen von Sprache 11 gibt.
  • In einem solchen Fall steuert die Dialogmanagementeinheit 12 die Antworterzeugungseinheit 13 so, daß die Sprachantwort, die den Ausfall eines Verstehens der eingegebenen Sprache auf der Systemseite anzeigt, wie beispielsweise "Ich konnte Sie nicht deutlich hören. Bitte wiederholen Sie es noch einmal." von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort auf der Anzeigeeinheit 14 zusammen mit dem menschlichen Charakterbild mit dem bedauernden Gesichtsausdruck angezeigt wird, wie es in Fig. 34 gezeigt ist. Hier konnte das System die eingegebene Sprache vollständig nicht verstehen, so daß die Bestelltabelle leer bleibt, und folglich gibt es kein Inhaltsvisualisierungsbild, das die visuelle Antwort enthält. Dieser Fall entspricht einem Fall eines Durchführens eines Übergangs vom anfänglichen Anwenderzustand UO zum Dialogkorrektursystemzustand S10 im Zustandsübergangsdiagramm der Fig. 9, die oben beschrieben ist, und die Sprachantwort und die visuelle Antwort, die oben beschrieben sind, werden als Ergebnis des Betriebs im Dialogkorrektursystemzustand S10 erzeugt.
  • Als nächstes soll ein Fall betrachtet werden, bei welchem der Anwender die eingegebene Sprache von "Zwei Hamburger und zwei Kaffee bitte." deutlicher in Antwort auf die in Fig. 34 gezeigte Nachricht äußerte. In diesem Fall werden die oben beschriebenen Operationen in der Einheit zum Verstehen von Sprache 11 und der Dialogmanagementeinheit 12 zum Erzeugen der geeigneten semantischen Antwortdarstellung auf einer Basis dieser eingegebenen Sprache ausgeführt. Hier ist die im ACT-Frame der semantischen Antwortdarstellung registrierte Antwortaktion eine "Gesamtbestätigung", so daß die Sprachantwort für die Gesamtbestätigung, wie beispielsweise "Ihre Bestellungen sind zwei Hamburger und zwei Kaffee, richtig?" von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort zusammen mit dem menschlichen Charakterbild mit dem normalen Gesichtsausdruck auf der Anzeigeeinheit 14 angezeigt werden, wie es in Fig. 35 gezeigt ist.
  • In diesem Fall zeigt die Anzeigeeinheit 14 auch das Inhaltsvisualisierungsbild an, das die Bilder der bestellten Elemente enthält, begleitet durch die numerischen Zeichen, die die bestellten Mengen anzeigen, so daß der Anwender auf einfache Weise die durch das System angenommenen Bestellungen zusätzlich zur durch die Sprachantwort gelieferten Audioinformation visuell untersuchen kann. Hier kann die Information über die bestellten Mengen in die Bilder der bestellten Elemente eingebaut sein, so daß das Inhaltsvisualisierungsbild eine so große Anzahl von jedem bestellten Element enthält, wie es der bestellten Menge entspricht. Hier ist es jedoch vorzuziehen, die numerischen Zeichen zu verwenden, wie es in Fig. 35 gezeigt ist, da die Information bezüglich der bestellten Menge sehr wichtig ist und es schwierig sein könnte, die bildhafte Darstellung dieser Information genau und schnell zu verstehen, und zwar insbesondere dann, wenn die bestellte Menge groß ist. Ebenso wird aus diesem Grund jedes numerische Zeichen auf derselben Höhe wie die Bilder des entsprechenden bestellten Elements angezeigt. Hier ist es für das Inhaltsvisualisierungsbild auch möglich, daß es die Merkmale der unterschiedlichen Größen für die Bilder der bestellten Elemente enthält, der unterschiedlichen Größen für das numerische Zeichen, die parallele Verwendung des Wortes, das die bestellte Menge ausdrückt, die Verwendung von sehr realistischen Objektbildern und die Verwendung der Farben auf dem Inhaltsvisualisierungsbild, um die Schnelligkeit des Begreifens durch den Anwender zu verbessern. Bezüglich des menschlichen Charakterbildes ist zu beachten, daß das menschliche Charakterbild vorzugsweise eher auf eine einfache Weise gezeigt werden sollte, als auf eine sehr realistische Weise, um die dem Anwender zu übergebende Nachricht auf eine universell erkennbare Weise ausdrücken zu können. Es ist hier auch zu beachten, daß die Anzeige auf der Anzeigeeinheit 14 durch die dreidimensionalen Graphiken zur Verfügung gestellt werden kann.
  • Als nächstes soll ein Fall betrachtet werden, bei welchem der Anwender etwas zögernd die eingegebene Sprache von "Uhm... gut, ok." in Antwort auf die in Fig. 35 gezeigte Nachricht äußerte. In diesem Fall versteht das System die eingegebene Sprache nicht, da es keine Ausgabe von der Einheit zum Verstehen von Sprache 11 gibt, da diese eingegebene Sprache als die unerwartete Äußerung angesehen wird.
  • In einem solchen Fall steuert die Dialogmanagementeinheit 12 die Antworterzeugungseinheit 13 so, daß die Sprachantwort, die den Fehlschlag eines Verstehens der eingegebenen Sprache auf der Systemseite anzeigt, wie beispielsweise "Entschuldigung, bitte sagen Sie es noch einmal." von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort auf der Anzeigeeinheit 14 zusammen mit dem menschlichen Charakterbild mit dem bedauernden Gesichtsausdruck angezeigt wird, wie es in Fig. 36 gezeigt ist. Hier ist die Sprachantwort kürzer als die Sprachantwort der Fig. 34, die zuvor in der ähnlichen Situation verwendet ist, um die taktlose und möglicherweise irritierende Wiederholung derselben Nachricht zu vermeiden. Hier ist es wichtig, daß die Anzeigeeinheit 14 ein Anzeigen desselben Inhaltsvisualisierungsbildes fortführt, das die bestellten Elemente und die bestellten Mengen anzeigt, wie sie vom System bislang verstanden sind, so daß der Anwender damit fortfahren kann, die durch das System angenommenen Bestellungen visuell zu untersuchen. Die fortgeführte Anzeige des Inhaltsvisualisierungsbildes kann effektiv die flüchtige Art der in der Sprachantwort gelieferten Nachricht kompensieren. Somit ist es sehr wichtig, den sequentiell aktualisierten Inhalt der durch das System angenommenen Bestellung während des gesamten Dialogs mit dem Anwender kontinuierlich anzuzeigen.
  • Aus diesem Grund wird bei diesem Beispiel die Bestätigung für die teilweise Änderung der Bestellung, wie beispielsweise ein Hinzufügen, ein Ersetzen, ein Löschen, durch Verwenden von nur der Sprachantwort und der Textdaten der Sprachantwort ausgeführt. Jedoch kann auch die visuelle Information für die Bestätigung der teilweisen Änderung der Bestellung verwendet werden. In einem solchen Fall kann die Anzeige des Inhaltsvisualisierungsbildes, das die gesamte Bestellung anzeigt, temporär unterbrochen werden, wenn es erwünscht ist.
  • Als nächstes soll ein Fall betrachtet werden, bei welchem der Anwender die eingegebene Sprache von "Das ist richtig" deutlicher in Antwort auf die in Fig. 36 gezeigte Nachricht äußerte. In diesem Fall versteht das System diese eingegebene Sprache als die Bestätigung des Anwenders er gesamten Bestellung, so daß die Sprachantwort für den Endgruß, wie beispielsweise "Vielen Dank.", von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort auf der Anzeigeeinheit 14 zusammen mit dem menschlichen Charakterbild mit der Verbeugungsgeste angezeigt werden, wie es in Fig. 37 gezeigt ist, und der Dialog mit dem Anwender wird beendet. Dieser Fall entspricht einem Fall eines Durchführens eines Übergangs zu einem Endsystemzustand S9 im oben beschriebenen Zustandsübergangsdiagramm der Fig. 9.
  • An dieser Stelle können die anderen nötigen Antwortausgaben, wie beispielsweise diejenige zum Auffordern, daß der Anwender den Gesamtbetrag bezahlt, durchgeführt werden.
  • Es ist zu beachten, daß in einem Fall eines Aufforderns der Bestätigung durch den Anwender, wie in Fig. 35, es auch effektiv ist, den Antwortsatz zu verwenden, der die positive Identifizierung der erwarteten Antwortformen enthält, wie beispielsweise "Bitte antworten Sie mit Ja oder Nein". Es ist auch möglich, den gleichen Antwortsatz in einem Fall eines Fragens bezüglich einer ungewissen eingegebenen Sprache zu verwenden, wie beispielsweise "Entschuldigung, sind Ihre Bestellungen zwei Hamburger und zwei Kaffee? Bitte antworten Sie mit Ja oder Nein.", wie es in Fig. 38 gezeigt ist. Die Verwendung eines solchen Antwortsatzes kann auch gemäß der Information gesteuert werden, wie beispielsweise einer Anzahl von Fragen oder Korrekturen, die während desselben Dialogs durchgeführt werden.
  • 4. Zusammenfassung des Gesamtbetriebs
  • Fig. 39 faßt den Gesamtbetrieb dieses ersten Ausführungsbeispiels des Sprachdialogsystems zusammen. Kurz gesagt werden die Schlüsselwörter in der durch den Anwender geäußerten eingegebenen Sprache durch den Schlüsselwortentdeckungsbetrieb bei der Schlüsselworterfassungseinheit 21 erfaßt, um die Schlüsselwortkandidaten 222 zu erhalten. Dann werden die Schlüsselwortkandidaten 222 durch den Betrieb zum Verstehen von Sprache basierend auf den Schlüsselwörtern bei der syntaktischen und semantischen Analyseeinheit 22 analysiert, um die semantische Äußerungsdarstellung 224 der eingegebenen Sprache zu erhalten. Dann führt die Dialogmanagementeinheit 12 den Dialogmanagementbetrieb basierend auf einer Kenntnis des Dialogs und des Anwendungsgebiets aus, um die geeignete semantische Antwortdarstellung 226 zu erhalten, gemäß welcher die Antworterzeugungseinheit 13 die visuelle Antwort, die auf der Anzeigeeinheit 14 anzuzeigen ist, und die Sprachantwort erzeugt, welche durch Verwenden der Sprachsynthese durch eine Regel erhalten wird, welche von der Lautsprechereinheit 15 auszugeben ist.
  • Es ist zu beachten, daß dieses erste Ausführungsbeispiel des Sprachdialogsystems auf einen weiteren Bereich von praktischen Anwendungsgebieten anwendbar ist die andere als der Schnellimbißservice sind, der bei der obigen Beschreibung verwendet ist, wie beispielsweise einem Informations- Servicenetz, einem Kartenverkaufs-Servicesystem, einem Platzreservierungs-Servicesystem und einem Banktransaktions- Servicesystem.
  • II. ZWEITES AUSFÜHRUNGSBEISPIEL
  • Nimmt man nun Bezug auf Fig. 40, wird ein zweites Ausführungsbeispiel eines Sprachdialogsystems gemäß der vorliegenden Erfindung detailliert beschrieben werden.
  • Dieses zweite Ausführungsbeispiel unterscheidet sich vom oben beschriebenen ersten Ausführungsbeispiel darin, daß das Detail des Anwendererfassungsmechanismus enthalten ist.
  • Hier ist der Anwendererfassungsmechanismus zum automatischen Beginnen und Beenden des Dialogs zwischen dem System und dem Anwender nötig, und zum Durchführen eines ruhigen und natürlichen Fortschreitens des Dialogs zwischen dem System und dem Anwender, in dem der Zustand und die Reaktion des Anwenders berücksichtigt werden.
  • Für den Anwendererfassungsmechanismus sind verschiedene Sensormechanismen, wie beispielsweise diejenigen, die Licht, Ultraschallwellen, Infrarotstrahlungsdruck, eine Überwachungskamera, etc. verwenden, denkbar. Bei diesem zweiten Ausführungsbeispiel wird der Anwendererfassungsmechanismus unter Verwendung einer Bodenmatte als Beispiel beschrieben werden.
  • Wie es in Fig. 40 gezeigt ist, weist das Sprachdialogsystem bei diesem zweiten Ausführungsbeispiel folgendes auf: eine Spracheingabeeinheit 231, wie beispielsweise ein Mikrophon; eine Einheit zum Verstehen von Sprache 232, die gleich der Einheit zum Verstehen von Sprache 11 des ersten Ausführungsbeispiels ist; eine Anwenderzustands- Erfassungseinheit 233; eine Dialogmanagementeinheit 234, die gleich der Dialogmanagementeinheit 12 des ersten Ausführungsbeispiels ist; eine Antworterzeugungseinheit 235, die gleich der Antworterzeugungseinheit 13 des ersten Ausführungsbeispiels; eine Anzeigeeinheit 236, die gleich der Anzeigeeinheit 14 des ersten Ausführungsbeispiels ist; und eine Lautsprechereinheit 237, die gleich der Lautsprechereinheit 15 des ersten Ausführungsbeispiels ist.
  • Bei dieser Konfiguration der Fig. 40 ist die Anwenderzustands-Erfassungseinheit 233 durch eine Bodenmatte ausgebildet, die mit einem Drucksensor ausgestattet ist, der eine semantische Anwenderzustandsdarstellung Nr. 1 mit einer Anwenderzustandsaktion von "Anwender vorhanden" ausgibt, die in einem Fall registriert wird, in welchem der Anwender auf der Bodenmatte ist, und eine semantische Anwenderzustandsdarstellung Nr. 2 mit einer Anwenderzustandsaktion von "Anwender nicht vorhanden", die in einem Fall registriert wird, in welchem der Anwender nicht auf der Bodenmatte ist, wie es in Fig. 41 angezeigt ist. Diese semantischen Anwenderzustandsdarstellungen Nr. 1 und Nr. 2 werden der Dialogmanagementeinheit 234 zugeführt. Hier empfängt die Dialogmanagementeinheit 234 auch die semantische Äußerungsdarstellung von der Einheit zum Verstehen von Sprache 232 genau wie beim oben beschriebenen ersten Ausführungsbeispiel und erzeugt die geeignete semantische Anwortdarstellung gemäß sowohl der semantischen Äußerungsdarstellung als auch der semantischen Anwenderzustandsdarstellung durch Verwenden der Kenntnis über den Dialog und das Anwendungsgebiet.
  • In diesem Fall können die semantische Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird, und die semantische Anwenderzustandsdarstellung, die von der Anwenderzustands-Erfassungseinheit 233 zugeführt wird, bei der Dialogmanagementeinheit 233 in einer Reihenfolge ihres Empfangs oder in einer vorbestimmten Reihenfolge mit einer höheren Priorität, die an eine von ihnen angebracht ist, gemäß dem Zustand des Dialogs zwischen dem System und dem Anwender behandelt werden.
  • Nun geht der Betrieb dieses Sprachdialogsystems des zweiten Ausführungsbeispiels weiter, wie es folgt.
  • Das bedeutet, daß bei einem normalen Dialog zwischen dem System und dem Anwender, wie es in Fig. 42 gezeigt ist, wenn der Anwender auf die Bodenmatte kommt, die semantische Anwenderzustandsdarstellung Nr. 1 von der Anwenderzustands- Erfassungseinheit 233 zur Dialogmanagementeinheit 234 zugeführt wird. In Antwort darauf führt die Dialogmanagementeinheit 234 automatisch die semantische Antwortdarstellung Nr. 1 zur Antworterzeugungseinheit 235 zu, so daß die Antwort Nr. 1 von "Willkommen bei Tos Burger. Bitte geben Sie Ihre Bestellung auf." als visuelle Antwort von der Anzeigeeinheit 236 und als Sprachantwort von der Lautsprechereinheit 137 ausgegeben wird.
  • Als nächstes führt die Einheit zum Verstehen von Sprache 232 dann, wenn der Anwender die eingegebene Sprache von "Hamburger und Kaffee, jeweils zwei." äußert, die semantische Äußerungsdarstellung Nr. 1 basierend auf dieser eingegebenen Sprache zur Dialogmanagementeinheit 234 zu. In Antwort darauf führt die Dialogmanagementeinheit 234 die geeignete semantische Antwortdarstellung gemäß der zugeführten semantischen Äußerungsdarstellung zur Antworterzeugungseinheit 235 so zu, daß die Antwort Nr. 2 von "Ihre Bestellungen sind zwei Hamburger und zwei Kaffee, richtig?" zur Bestätigung als visuelle Antwort von der Anzeigeeinheit 236 und als Sprachantwort von der Lautsprechereinheit 237 ausgegeben wird. Dann wird die semantische Äußerungsdarstellung Nr. 2 für die nächste Anwenderäußerung von "Richtig.", was in Antwort geäußert wird, durchgeführt, und wird der Dialog mit dem Endgruß von "Vielen Dank" beendet und wird gemäß der semantischen Antwortdarstellung Nr. 3 ausgegeben.
  • Jedoch in einem Fall, in welchem der Anwender in der Mitte des Dialogs, wie beispielsweise demjenigen, der gerade beschrieben ist, von der Bodenmatte weggeht, wird der Betrieb des Sprachdialogsytems dieses zweiten Ausführungsbeispiels wie folgt modifiziert.
  • Das bedeutet, daß, wie es in Fig. 43 gezeigt ist, der Anwender nach der Antwort Nr. 2 von "Ihre Bestellungen sind zwei Hamburger und zwei Kaffe, richtig?" zur Bestätigung ausgegeben ist, von der Bodenmatte weggeht, und die semantische Anwenderzustandsdarstellung Nr. 2 wird von der Anwenderzustands-Erfassungseinheit 233 zur Dialogmanagementeinheit 234 zugeführt. In Antwort darauf unterbricht die Dialogmanagementeinheit 234 automatisch den Betrieb zum Annehmen einer Bestellung, der in diesem Dialog durchgeführt wird, und führt die semantische Antwortdarstellung Nr. 4 zur Antworterzeugungseinheit 235 zu, so daß die natürliche Antwort für den unterbrochenen Betrieb zum Annehmen einer Bestellung, wie beispielsweise "Danke, daß sie zu Tos Burger gekommen sind." als visuelle Antwort von der Anzeigeeinheit 236 und als Sprachantwort von der Lautsprechereinheit 237 ausgegeben wird.
  • Auf diese Weise verwendet die Dialogmanagementeinheit 234 die Information bezüglich des Zustands des Anwenders während des Dialogs, die durch die von der Anwenderzustands- Erfassungseinheit zugeführte semantische Anwenderzustandsdarstellung zur Verfügung gestellt wird, so daß der natürliche Anfang und das natürliche Ende des Dialogs zwischen dem Anwender und dem System automatisch durchgeführt werden können.
  • Allgemeiner geht der Betrieb dieses Sprachdialogsystems des zweiten Ausführungsbeispiels gemäß dem Ablaufdiagramm der Fig. 44 weiter, wie es folgt. Hier ist die Dialogmanagementeinheit 234 zu jedem Zeitpunkt des Betriebs in einem der folgenden vier Zustäbde =0, =1, =2 und =3. Die Dialogmanagementeinheit 234 ist anfangs im Zustand =0, und die Übergänge zu den anderen Zuständen =1, =2 und =3 werden gemäß dem Anwenderzustand durchgeführt.
  • Zuerst wird dann, wenn die Dialogmanagementeinheit 234 im Zustand =0 beim Schritt S281 ist, als nächstes beim Schritt S282 bestimmt, ob die Anwenderzustandsaktion in der semantischen Anwenderzustandsdarstellung, die von der Anwenderzustands-Erfassungseinheit 233 zugeführt wird, "Anwender vorhanden" ist oder nicht. Wenn die Anwenderzustandsaktion "Anwender vorhanden" beim Schritt S282 ist, wird als nächstes beim Schritt S283 die semantische Antwortdarstellung für das anfängliche Grüßen erzeugt, und der Übergang zum Zustand =1 wird durchgeführt. Wenn die Anwenderzustandsaktion beim Schritt S282 nicht "Anwender vorhanden" ist, bleibt die Dialogmanagementeinheit im Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe, um dieses Ablaufdiagram der Fig. 44 von Anfang an zu wiederholen.
  • Wenn die Dialogmanagementeinheit 234 beim Schritt S281 nicht im Zustand =0 ist, wird als nächstes beim Schritt S284 bestimmt, ob die Dialogmanagementeinheit 234 im Zustand =1 ist oder nicht. Wenn die Dialogmanagementeinheit 234 beim Schritt S284 im Zustand =1 ist, wird als nächstes beim Schritt S285 bestimmt, ob die Sprachaktion in der semantischen Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird "Bestellung" ist oder nicht. Wenn die Sprachaktion beim Schritt S285 "Bestellung" ist, wird als nächstes beim Schritt S286 die semantische Antwortdarstellung für die Bestätigung des bestellten Inhalts erzeugt. Dann behält die Dialogmanagementeinheit den Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • Wenn die Sprachaktion beim Schritt S285 nicht "Bestellung" ist, wird als nächstes beim Schritt S287 bestimmt, ob die Sprachaktion in der semantischen Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird, in Antwort auf die Bestätigungsantwort vom System "Ja" ist oder nicht. Wenn die Sprachaktion beim Schritt S287 "Ja" ist, wird als nächstes beim Schritt S288 der bestellte Inhalt in die Bestellungstabelle registriert, und der Übergang zum Zustand =2 wird durchgeführt und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • Wenn die Sprachaktion beim Schritt S287 nicht "Ja" ist, wird als nächstes beim Schritt S289 bestimmt, ob die Sprachaktion in der semantischen Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird, in Antwort auf die Bestätigungsantwort vom System "Nein" ist oder nicht. Wenn die Sprachaktion beim Schritt S289 "Nein" ist, wird als nächstes beim Schritt S290 die semantische Antwortdarstellung für die erneute Bestätigung des bestellten Inhalts erzeugt. Dann behält die Dialogmanagementeinheit den Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • Wenn die Sprachaktion beim Schritt S289 nicht "Nein" ist, wird als nächstes beim Schritt S291 bestimmt, ob die Anwenderzustandsaktion in der semantischen Anwenderzustandsdarstellung, die von der Anwenderzustands- Erfassungseinheit 233 zugeführt wird, "Anwender nicht vorhanden" ist oder nicht. Wenn die Anwenderzustandsaktion beim Schritt S291 "Anwender nicht vorhanden" ist, wird als nächstes beim Schritt S292 der Übergang zum Zustand =3 durchgeführt, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • Wenn die Anwenderzustandsaktion beim Schritt S291 nicht "Anwender nicht vorhanden" ist, bleibt die Dialogmanagementeinheit im Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • Wenn die Dialogmanagementeinheit 234 beim Schritt S284 nicht im Zustand =1 ist, wird als nächstes beim Schritt S293 bestimmt, ob die Dialogmanagementeinheit 234 im Zustand =2 ist oder nicht. Wenn die Dialogmanagementeinheit 234 beim Schritt S293 im Zustand =2 ist, wird als nächstes beim Schritt S294 die semantische Antwortdarstellung für den Endgruß Nr. 1 von "Vielen Dank" erzeugt, und der Übergang zum Zustand =0 wird durchgeführt, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • Wenn die Dialogmangementeinheit 234 beim Schritt S293 nicht im Zustand =2 ist, wird als nächstes beim Schritt S295 bestimmt, ob die Dialogmanagementeinheit 234 im Zustand =3 ist oder nicht. Wenn die Dialogmanagementeinheit 234 beim Schritt S295 im Zustand =3 ist, wird als nächstes beim Schritt S296 die semantische Antwortdarstellung für den Endgruß Nr. 2 von "Danke fürs Kommen." erzeugt, und der Übergang zum Zustand =0 wird durchgeführt, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • Schließlich bleibt dann, wenn die Dialogmanagementeinheit 234 beim Schritt S295 nicht im Zustand =3 ist, die Dialogmanagementeinheit im Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
  • III. DRITTES AUSFÜHRUNGSBEISPIEL
  • Nimmt man nun Bezug auf Fig. 45 wird ein drittes Ausführungsbeispiel eines Sprachdialogsystems gemäß der vorliegenden Erfindung detailliert beschrieben werden.
  • Dieses dritte Ausführungsbeispiel unterscheidet sich vom ersten und vom zweiten Ausführungsbeispiel, die oben beschrieben sind, darin, daß das weitere Detail der praktischen Implementierung der Sprachdialogsystemkonfiguration enthalten ist.
  • Wie es in Fig. 45 gezeigt ist, weist das Sprachdialogsystem bei diesem dritten Ausführungsbeispiel folgendes auf: eine Prozessoreinheit 291; eine Speichereinheit 292; eine Speichereinheit 293; eine Speichereinheitsschnittstelle 2931; eine Datenübertragungseinheit 294; eine Datenübertragungseinheitsschnittstelle 2941; eine A/D- Umwandlungseinheit 295; eine Matteneinheit 296; eine Hochgeschwindigkeits-Prozessoreinheit 297; eine D/A- Umwandlungseinheit 298; und eine Anzeigeeinheit 299; von welchen alle über einen gemeinsamen Systembus miteinander verbunden sind.
  • Hier weist die A/D-Umwandlungseinheit 295 weiterhin folgendes auf: ein Mikrophon 2951 zum Empfangen der eingegebenen Sprache vom Anwender; ein Filter und einen Verstärker 2952, die mit dem Mikrophon 2951 verbunden sind; einen A/D-Wandler 2953, der mit dem Filter und dem Verstärker 2952 verbunden ist; und eine A/D-Wandlerschnittstelle 2954, die zwischen dem A/S-Wandler 2953 und dem Systembus sowie mit Filter und dem Verstärker 2952 verbunden ist. Hier haben das Filter und der Verstärker 2952 Funktionen einer Verstärkung der eingegebenen Sprache, die durch das Mikrophon 2951 empfangen wird, und einer Tiefpaßfilterung zum Zwecke der A/D-Wandlung beim A/D- Wandler 2953. Die Grenzfrequenz dieser Tiefpaßfilterungsfunktion wird gemäß der Abtastfrequenz bestimmt, die bei der A/D-Umwandlung verwendet wird. Beispielsweise wird die Grenzfrequenz dann, wenn die Abtastfrequenz der A/D-Umwandlung 12 kHz ist, 5,4 kHz sein. Der A/D-Wandler 2953 wendet die A/S-Umwandlung bei den 16 kHz oder 12 kHz auf die verstärkte und tiefpaßgefilterte eingegebene Sprache an, und die durch die A/D-Wandler 2953 erhaltenen digitalen Daten der eingegebenen Sprache werden temporär in der A/D-Umwandlungsschnittstelle 2954 gespeichert und über den Systembus unter der Steuerung der Prozessoreinheit 291 zur Speichereinheit 292 übertragen.
  • Die Matteneinheit 296 weist weiterhin folgendes auf: eine Bodenmatte 2961, auf die durch den Anwender zu gehen ist; eine Bodenmatten-Steuerung 2962, die mit der Bodenmatte 2961 verbunden ist; und eine Bodenmatten-Steuerungsschnittstelle 2963, die mit der Bodenmatten-Steuerung 2962 verbunden ist. Hier wird das Vorhandensein oder Nichtvorhandensein des Anwenders des Systems durch die Bodenmatten-Steuerung 2962 gemäß dem Vorhandensein oder Nichtvorhandensein des Anwenders auf der Bodenmatte 2961 bestimmt, und das Anwendererfassungssignal wird temporär in der Bodenmatten- Steuerungsschnittstelle 2963 gespeichert und über den Systembus übertragen.
  • Die Hochgeschwindigkeits-Prozessoreinheit 297 weist weiterhin folgendes auf: einen Hochgeschwindigkeits-Prozessor 2971 und die mit dem Hochgeschwindigkeitsprozessor 2971 verbundene Hochgeschwindigkeits-Prozessorschnittstelle 2972. Dieser Hochgeschwindigkeitsprozessor 2971 wird beim Ausführen einer Verarbeitung großen Ausmaßes verwendet, die beim Betrieb zum Verstehen von Sprache und beim Betrieb zum Erzeugen einer Antwort erforderlich ist. In einem Fall eines Verwendens des Anwendererfassungsmechanismus unter Verwendung einer Überwachungskamera kann dieser Hochgeschwindigkeitsprozessor 2971 auch bei einer Verarbeitung großen Ausmaßes verwendet werden, die bei der Bildverarbeitung in Zusammenhang mit der Überwachungskamera erforderlich ist. Hier ist es nötig, daß diese Operationen parallel ausgeführt werden, so daß der Hochgeschwindigkeitsprozessor 2971 eine Vielzahl von parallelen Verarbeitungselementen enthält. Dieser Hochgeschwindigkeitsprozessor 2971 wird unter der Steuerung von der Prozessoreinheit 291 betrieben, wobei die Eingabe von der Speichereinheit 292 übertragen wird und die Ausgabe über die Hochgeschwindigkeits-Prozessorschnittstelle 2972 zur Speichereinheit 292 übertragen wird.
  • Die D/A-Umwandlungseinheit 298 weist weiterhin folgendes auf: einen Lautsprecher 2984 zum Ausgeben der Sprachantwort; ein Filter und einen Verstärker 2983, die mit dem Lautsprecher 2984 verbunden sind; einen D/A-Wandler 2982, der mit dem Filter und dem Verstärker 2983 verbunden ist; und eine D/A- Wandlerschnittstelle 2981, die mit dem D/A-Wandler 2982 verbunden ist. Hier werden die in der Speichereinheit 292 gespeicherten digitalen Daten für eine Sprachantwort über die D/A-Wandlerschnittstelle 2981 unter der Steuerung der Prozessoreinheit 291 zum D/A-Wandler 2982 übertragen, so daß der D/A-Wandler 2982 die D/A-Umwandlung bei 16 kHz oder 12 kHz auf die digitalen Daten für eine Sprachantwort anwendet, und die analoge Sprachantwort wird bei dem Filter und bei dem Verstärker 2983 gefiltert und verstärkt und vom Lautsprecher 2984 ausgegeben. Hier ist der D/A-Wandler 2982 mit einem internen Speicher zum Merken der digitalen Daten für eine Sprachantwort ausgestattet, und die Datenübertragung von Speichereinheit 292 zum D/A-Wandler 2982 wird mit hoher Geschwindigkeit realisiert, so daß die Prozessoreinheit 291 die andere Operation ausführen kann, während die Ausgabe der Sprachantwort in diesem D/A-Umwandlungseinheit 298 durchgeführt.
  • Die Anzeigeeinheit 299 weist weiterhin folgendes auf: eine Anzeige 2993 zum Anzeigen der visuellen Antwort; eine Anzeigesteuerung 2992, die mit der Anzeige 2993 verbunden ist; und eine Anzeigsteuerungsschnittstelle 2991, die mit der Anzeigesteuerung 2992 verbunden ist. Hier steuert die Anzeigesteuerung 2992 die Anzeige 2993 zum Anzeigen der visuellen Antwort, die in Bezug auf Bilder, Texte, Zeichen, animierte Bilder, Farben, Luminanzen und Konzentrationen gegeben ist, unter der Steuerung der Prozessoreinheit 291.
  • Die Datenübertragungseinheit 294 führt eine Datenübertragung bezüglich des Systems zu den externen Vorrichtungen, wie beispielsweise Computern, Datenprozessoren, etc., über die Datenübertragungseinheitsschnittstelle 2941 unter der Steuerung der Prozessoreinheit 291 durch.
  • Die Speichereinheit 293 speichert die Daten, Steuerparameter, Programme, etc., die beim Betrieb zum Verstehen von Sprache, beim Dialogmanagementbetrieb und beim Antworterzeugungsbetrieb erforderlich sind.
  • Die Prozessoreinheit 291 steuert die oben beschriebenen Operationen der Speichereinheit 293, der Datenübertragungseinheit 294, der A/D-Umwandlungseinheit 295, der Matteneinheit 296, der Hochgeschwindigkeits- Prozessoreinheit 297, der D/A-Umwandlungseinheit 298 und der Anzeigeeinheit 299 durch Verwenden von verschiedenen Daten und Programmen, die in der Speichereinheit 292 gespeichert sind. Hier führt die Prozessoreinheit 291 die Mehrfachaufaben-Ausführung der Programme zum Realisieren des Betriebs zum Verstehen, des Dialogmanagementbetriebs und des Antworterzeugungsbetriebs wie beim ersten und beim zweiten Ausführungsbeispiel aus, die oben beschrieben sind. Das Umschalten der Aufgabe wird sequentiell in einem regelmäßigen Intervall durchgeführt, aber die Unterbrechung durch die Verarbeitung, die zu einer höheren Priorität gehört, wird gemäß der Notwendigkeit zugelassen.
  • Bei dieser Konfiguration der Fig. 45 sind die A/D- Umwandlungseinheit 295 und die D/A-Umwandlungseinheit 298 separat vorgesehen, so daß sie unabhängig voneinander betrieben werden können. Mit dieser Konfiguration kann der Empfang der eingegebenen Sprache und die Ausgabe der Antwort parallel ausgeführt werden, und zwar unabhängig voneinander, so daß der Empfang der eingegebenen Sprache während der Ausgabe der synthetisierten Sprachantwort durch Auslöschen der synthetisierten Sprachantwort von den empfangenen Signalen durchgeführt werden kann.
  • Alterantiv dazu ist es, wie es in Fig. 46A gezeigt ist, möglich, diese A/D-Umwandlungseinheit 295 und diese D/A- Umwandlungseinheit 298 miteinander zu kombinieren, indem eine gemeinsame A/D- und D/A-Wandlerschnittstelle 301 verwendet wird, die zwischen dem Systembus und sowohl dem A/D-Wandler 2953 als auch dem D/A-Wandler 2982 angeschlossen ist.
  • Weiterhin ist es, wie es in Fig. 46B gezeigt ist, auch möglich, diese A/D-Umwandlungseinheit 295 und diese D/A- Umwandlungseinheit 298 miteinander zu kombinieren, indem ein gemeinsamer Verstärker 304 verwendet wird, der mit sowohl dem Mikrophon 2951 als auch dem Lautsprecher 2984 verbunden ist, einen gemeinsamen A/D- und D/A-Wandler und eine Filtereinheit 303, die mit dem gemeinsamen Verstärker 304 verbunden sind, und eine gemeinsame A/D- und D/A-Wandlerschnittstelle 301, die zwischen dem Systembus und dem gemeinsamen A/D- und D/A- Wandler und der Filtereinheit 303 angeschlossen ist.
  • Jedoch kann in einem Fall eines Verwendens von einer der Konfigurationen der Fig. 46A und der Fig. 46B der Empfang der eingegebenen Sprache und die Ausgabe der Antwort nicht parallel ausgeführt werden, da die kombinierte A/D- und D/A- Umwandlungseinheit nur in einem von dem A/D-Umwandlungsmode oder dem D/A-Umwandlungsmode gleichzeitig betrieben werden kann.
  • In einem solchen Fall ist es zum Verhindern, daß der Anwender eine Abbruchäußerung der eingegebenen Sprache während einer Zeitperiode durchführt, in welcher das System nicht zum Empfangen der eingegebenen Sprache bereit ist, ohne einen solchen Zustand des Systems zu realisieren, vorzuziehen, den Anwender diesbezüglich zu informieren, ob das System für den Empfang der eingegebenen Sprache bereit ist oder nicht, und zwar mittels einer geeigneten Anzeige auf der Anzeigeeinheit 2993. Zu diesem Zweck ist es vorzuziehen, die Anzeige zu verwenden, die den Mitteilungstext und das Mitteilungsvorzeichenbild kombiniert. Beispielsweise kann der Zustand, in welchem der Anwender die eingegebene Sprache äußern kann, durch die Anzeige angezeigt werden, die den Mitteilungstext von "SPRECHEN" und das Mitteilungsvorzeichenbild von sprechenden menschlichen Lippen kombiniert, wie es in Fig. 47 gezeigt ist, während der Zustand, in welchem der Anwender keine eingegebene Sprache äußern kann, durch die Anzeige angezeigt werden kann, die dem Mitteilungstext "HÖREN" und das Mitteilungszeichenbild von geschlossenen menschlichen Lippen kombiniert, wie es in Fig. 48 gezeigt ist.
  • Somit kann die visuelle Antwort beim Benachrichtigen des Anwenders über den Zustand des Systems bezüglich des Sprachdialogs verwendet werden.
  • Es ist zu beachten, daß die gleiche Anzeige, die den Mitteilungstext und das Mitteilungszeichenbild kombiniert, auch in einem Fall verwendet werden kann, in welchem die Äußerung der eingegebenen Sprache durch den Anwender angesichts des Dialogmanagements nicht vorzuziehen ist, oder in einem Fall eines Ausgebens der wichtigen Sprachantwortnachricht, für die es bevorzugt ist, durch den Anwender aufmerksam gehört zu werden.
  • Es ist auch zu beachten, daß eine solche Anzeige auch irgendwelche anderen visuellen Merkmale bezüglich der Aspekte von Farben, Luminanzen und Konzentrationen enthalten kann, die beim Einfangen der Aufmerksamkeit eines Anwenders verwendet werden können.
  • IV. EFFEKTE
  • Wie es beschrieben ist, wird es gemäß der vorliegenden Erfindung möglich, ein Sprachdialogsystem zu schaffen, das einen natürlichen und ruhigen Dialog zwischen dem System und einem menschlichen Anwender realisieren kann, und ein einfaches Handhaben des Systems durch den Anwender ermöglichen kann, und zwar mittels der effektiven Verwendung der multimodalen Antwort einschließlich der Sprachantwort und der visuellen Antwort, die die Sprachantwort-Textdaten, das menschliche Charakterbild und das Inhaltsvisualisierungsbild enthalten. Die Verwendung einer solchen multimodalen Antwort sorgt für eine freundliche Mensch-Computer- Interaktionsumgebung, in welcher das System die Antwortnachricht auf die multimodale Weise zur Verfügung stellt, um es für den Anwender einfacher zu machen, den Zustand des Dialogs zu begreifen, so daß der Dialog zwischen dem System und dem Anwender natürlich und ruhig weitergehen kann.
  • Als Folge kann das Problem der unvollständigen Spracherkennung aufgrund der Fehler und der Vieldeutigkeit, die zur Spracherkennung im Sprachdialogsystem gehören, effektiv durch den ruhigen Dialog zwischen dem System und dem Anwender kompensiert werden.
  • Zusätzlich kann der Einbau des Anwenderzustands- Erfassungsmechanismus und des Mechanismus zum Zulassen der Unterbrechung der Antwortausgabe durch die Äußerung der eingegebenen Sprache eines Anwenders die Handhabung des Systems durch den Anwender weiter verbessert werden.
  • Es ist zu beachten, daß neben diesen bereits oben angegebenen viele Modifikationen und Variationen der obigen Ausführungsbeispiele durchgeführt werden können, ohne von den neuen und vorteilhaften Merkmalen der vorliegenden Erfindung abzuweichen. Demgemäß sollen alle solchen Modifikationen und Variationen innerhalb des Schutzumfangs der beigefügten Ansprüche enthalten sein.

Claims (47)

1. Sprachdialogsystem zum Durchführen eines Dialogs zwischen dem System und einem menschlichen Anwender, welches System folgendes aufweist:
a) eine Sprach-Versteheinrichtung (11) zum Verstehen eines semantischen Inhalts einer eingegebenen Sprache von einem Anwender;
b) eine Dialog-Managementeinrichtung (12) zum Durchführen einer semantischen Bestimmung eines ausgegebenen Antwortinhalts gemäß dem semantischen Inhalt der von der Sprach-Versteheinrichtung (11) verstandenen eingegebenen Sprache;
c) eine Antworten-Erzeugungseinrichtung (13) zum Erzeugen einer Sprachantwort und einer visuellen Antwort gemäß dem ausgegebenen Antworteninhalt, der durch die Dialog-Managementeinrichtung (12) bestimmt ist; und
d) eine Ausgabeeinrichtung (14, 15) zum Ausgeben der Sprachantwort und der visuellen Antwort, die durch die Antworten-Erzeugungseinrichtung (13) erzeugt sind, zum Anwender;
dadurch gekennzeichnet, daß
e) die visuelle Antwort eine visuelle Anzeige zum Informieren des Anwenders diesbezüglich enthält, ob das System bereit zum Empfangen der eingegebenen Sprache ist.
2. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort mit einem Bild eines menschlichen Charakters bzw. Zeichen erzeugt, um die Sprachantwort, Textdaten der Sprachantwort und ein den Inhalt visualisierendes Bild eines Inhalts der Sprachantwort auszugeben.
3. Sprachdialogsystem nach Anspruch 1, wobei die Ausgabeeinrichtung (14, 15) die Sprachantwort und die visuelle Antwort durch Steuern wenigstens einer Ausgabereihenfolge, einer Ausgabezeitgabe und einer Ausgabeposition für eine visuelle Antwort ausgibt.
4. Sprachdialogsystem nach Anspruch 1, das weiterhin eine Anwenderzustands-Erfassungseinrichtung zum Erfassen eines physikalischen Zustands des Anwenders aufweist, wobei der physikalische Zustand des Anwenders, der durch die Anwenderzustands-Erfassungseinrichtung erfaßt ist, durch die Dialog-Managementeinrichtung beim Durchführen der semantischen Bestimmung des ausgegebenen Antworteninhalts berücksichtigt wird.
5. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort mit einem Bild eines menschlichen Charakters bzw. Zeichens erzeugt, um die Sprachantwort auszugeben, wobei das Bild eine Bewegung und einen Gesichtsausdruck des menschlichen Charakters enthält.
6. Sprachdialogsystem nach Anspruch 5, wobei die Antworten- Erzeugungseinrichtung (13) die Sprachantwort, die eine Sprachcharakteristik enthält, entsprechend der Bewegung und dem Gesichtsausdruck des menschlichen Charakters erzeugt.
7. Sprachdialogsystem nach Anspruch 6, wobei die Sprachcharakteristik der Sprachantwort wenigstens einen von einem emotionalen Ausdruck und einer Intonation enthält.
8. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Sprach-Versteheinrichtung (11) eine Vielzahl von Kandidaten für den semantischen Inhalt der eingegebenen Sprache zuführt, und die Dialog- Managementeinrichtung (12) die semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Vielzahl von Kandidaten gemäß einer Dialog-Vorgeschichte durchführt.
9. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Dialog-Mangementeinrichtung (12) den ausgegebenen Antworteninhalt zurück zur Sprach- Versteheinrichtung (11) zuführt, um, bevor eine nachfolgende eingegebene Sprache in die Sprach- Versteheinrichtung (11) eingegeben wird, eine Anzahl von Kandidaten für zu erfassende Schlüsselworte sowie beim Verstehen des semantischen Inhalts der nachfolgenden eingegebenen Sprache zu verwendende syntaktische und semantisch Regeln zu begrenzen.
10. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort einschließlich eines den Inhalt visualisierenden Bildes, das durch Bilder von Objekten gebildet ist, die in der Sprachantwort angegeben sind, und einer numerischen Zahl, die eine Quantität jedes der Objekte anzeigt, erzeugt.
11. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die Sprachantwort zum Durchführen einer Bestätigung des semantischen Inhalts der eingegebenen Sprache erzeugt, während sie die visuelle Antwort erzeugt, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigt.
12. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort einschließlich von Textdaten der Sprachantwort und graphischer Bilder, die andere als die Textdaten sind, erzeugt und die Antworten-Erzeugungseinrichtung die Sprachantwort und die Textdaten zum Durchführen einer Bestätigung des semantischen Inhalts der eingegebenen Sprache erzeugt, während sie die graphischen Bilder erzeugt, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigen.
13. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die Sprachantwort zum Durchführen einer Bestätigung des semantischen Inhalts der eingegebenen Sprache erzeugt, wobei die Sprachantwort zum Durchführen der Bestätigung gemäß einer Länge der Sprachantwort geändert wird.
14. Sprachdialogsystem nach Anspruch 13, wobei die Länge der Sprachantwort zum Durchführen der Bestätigung aus einer Anzahl von durch die Bestätigung zu bestätigenden Elementen bestimmt wird.
15. Sprachdialogsystem nach Anspruch 14, wobei die vollständige Sprachantwort alle zu bestätigenden Elemente erwähnt, während die vereinfachte Sprachantwort die direkt zu bestätigenden Elemente nicht erwähnt.
16. Sprachdialogsystem nach Anspruch 15, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Anwort enthält.
17. Sprachdialogsystem nach Anspruch 13, wobei die vollständige Sprachantwort den ausgegebenen Antworteninhalt explizit rezitiert, während die vereinfachte Sprachantwort den ausgegebenen Antworteninhalt nicht explizit rezitiert.
18. Sprachdialogsystem nach Anspruch 17, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Antwort enthält.
19. Sprachdialogsystem nach Anspruch 13, wobei die Ausgabeeinrichtung die visuelle Antwort zu einer früheren Zeitgabe als einer Zeitgabe zum Ausgeben der visuellen Antwort ausgibt, wenn die Sprachantwort die vollständige Sprachantwort ist.
20. Sprachdialogsystem nach Anspruch 13, wobei die Ausgabeeinrichtung die visuelle Antwort ausgibt, bevor die visuelle Antwort ausgegeben wird.
21. Verfahren für einen Sprachdialog zwischen einem menschlichen Anwender und einem Sprachdialogsystem, welches Verfahren die folgenden Schritte aufweist:
a) Verstehen eines semantischen Inhalts einer eingegebenen Sprache von einem Anwender;
b) Durchführen einer semantischen Bestimmung eines ausgegebenen Antworteninhalts gemäß dem semantischen Inhalt der bei dem Verstehschritt verstandenen eingegebenen Sprache;
c) Erzeugen einer Sprachantwort und einer visuellen Antwort gemäß dem beim Durchführschritt bestimmten ausgegebenen Antworteninhalt; und
d) Ausgeben der Sprachantwort und der visuellen Antwort, die beim Erzeugungsschritt erzeugt sind, zum Anwender;
dadurch gekennzeichnet, daß
e) die visuelle Antwort eine visuelle Anzeige zum Informieren des Anwenders diesbezüglich enthält, ob das System dazu bereit ist, die eingegebene Sprache zu empfangen.
22. Verfahren nach Anspruch 21, wobei der Erzeugungsschritt die visuelle Antwort einschließlich eines Bildes eines menschlichen Charakters erzeugt, um die Sprachantwort, Textdaten der Sprachantwort und ein den Inhalt visualisierendes Bild eines Inhalts der Sprachantwort auszugeben.
23. Verfahren nach Anspruch 21, wobei der Ausgabeschritt die Sprachantwort und die visuelle Antwort durch Steuern Von wenigstens einem einer Ausgabereihenfolge, einer Ausgabezeitgabe und einer Ausgabeposition für eine visuelle Antwort ausgibt.
24. Verfahren nach Anspruch 21, das weiterhin den Schritt zum Erfassen eines physikalischen Zustands des Anwenders aufweist, und wobei der Durchführschritt die semantische Bestimmung des ausgegebenen Antworteninhalts durch Berücksichtigen des physikalischen Zustands des Anwenders durchführt, welcher Zustand beim Erfassungsschritt erfaßt ist.
25. Verfahren nach Anspruch 21, wobei der Erzeugungsschritt die visuelle Antwort einschließlich eines Bildes eines menschlichen Körpers erzeugt, um die Sprachantwort auszugeben, wobei das Bild eine Bewegung und einen Gesichtsausdruck des menschlichen Charakters enthält.
26. Verfahren nach Anspruch 25, wobei der Erzeugungsschritt die Sprachantwort erzeugt, die eine Sprachcharakteristik enthält, entsprechend der Bewegung und dem Gesichtsausdruck des menschlichen Charakters.
27. Verfahren nach Anspruch 26, wobei die Sprachcharakteristik der Sprachantwort wenigstens eines von einem emotionalen Ausdruck und einer Intonation enthält.
28. Verfahren nach Anspruch 21, wobei der Verstehschritt eine Vielzahl von Kandidaten für den semantischen Inhalt der eingegebenen Sprach erhält und der Durchführschritt die semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Vielzahl von Kandidaten gemäß einer Dialog-Vorgeschichte durchführt.
29. Verfahren nach Anspruch 21, das weiterhin den Schritt zum Zuführen des durch den Durchführschritt erhaltenen ausgegebenen Antworteninhalts zurück zum Verstehschritt und zum Begrenzen, bevor eine nachfolgende eingegebene Sprache dem Verstehschritt zugeteilt wird, einer Anzahl von Kandidaten für zu erfassende Schlüsselworte sowie für beim Verstehen des semantischen Inhalts der nachfolgend eingegebenen Sprache zu verwendende syntaktische und semantische Regeln aufweist.
30. Verfahren nach Anspruch 21, wobei der Erzeugungsschritt die visuelle Antwort einschließlich eines den Inhalt visualisierenden Bildes, das durch Bilder von Objekten gebildet wird, die in der Sprachantwort angegeben sind, und einer numerischen Zahl, die eine Quantität jedes der Objekte anzeigt, erzeugt.
31. Verfahren nach Anspruch 21, wobei beim Erzeugungsschritt die Sprachantwort zum Durchführen einer Bestätigung in bezug auf den semantischen Inhalt der eingegebenen Sprache erzeugt wird, während die visuelle Antwort, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigt, erzeugt wird.
32. Verfahren nach Anspruch 21, wobei beim Erzeugungsschritt die visuelle Antwort Textdaten der Sprachantwort und graphische Bilder, die andere als die Textdaten sind, enthält und die Sprachantwort und die Textdaten zum Durchführen einer Bestätigung in bezug auf den semantischen Inhalt der eingegebenen Sprache erzeugt werden, während die graphischen Bilder, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigen, erzeugt werden.
33. Verfahren nach Anspruch 21, wobei beim Erzeugungsschritt die Sprachantwort zum Durchführen einer Bestätigung in bezug auf den semantischen Inhalt der eingegebenen Sprache erzeugt wird, wobei die Sprachantwort von einer vollständigen Sprachantwort zu einer vereinfachten Sprachantwort geändert wird, und zwar gemäß einer Länge der Sprachantwort zum Durchführen der Bestätigung.
34. Verfahren nach Anspruch 33, wobei die Länge der Sprachantwort zum Durchführen der Bestätigung aus einer Anzahl von durch die Bestätigung zu bestätigenden Elementen bestimmt wird.
35. Verfahren nach Anspruch 34, wobei die vollständige Sprachantwort alle zu bestätigenden Elemente erwähnt, während die vereinfachte Sprachantwort die direkt zu bestätigenden Elemente nicht erwähnt.
36. Sprachdialogsystem nach Anspruch 35, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Antwort enthält.
37. Verfahren nach Anspruch 33, wobei die vollständige Sprachantwort den ausgegebenen Antworteninhalt explizit rezitiert, während die vereinfachte Sprachantwort den ausgegebenen Antworteninhalt nicht explizit rezitiert.
38. Verfahren nach Anspruch 37, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Antwort enthält.
39. Verfahren nach Anspruch 33, wobei beim Ausgabeschritt die visuelle Antwort zu einer früheren Zeitgabe ausgegeben wird, als eine Zeitgabe zum Ausgeben der visuellen Antwort, wenn die Sprachantwort die vollständige Sprachantwort ist.
40. Verfahren nach Anspruch 33, wobei beim Ausgabeschritt die visuelle Antwort ausgegeben wird, bevor die visuelle Antwort ausgegeben wird.
41. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Dialog-Managementeinrichtung (12) zum Managen des Dialogs zwischen dem Anwender und dem System durch Steuern von Übergängen zwischen Anwenderzuständen, in welchen die eingegebene Sprache in das Sprach-Verstehsystem einzugeben ist, und Systemzuständen, in welchen die Systemantwort von der Antworten-Ausgabeeinrichtung auszugeben ist, vorgesehen ist.
42. Sprachdialogsystem nach Anspruch 41, wobei das Dialog- Managementsystem die Übergänge zwischen den Anwenderzuständen und den Systemzuständen gemäß dem semantischen Inhalt der durch die Sprach- Versteheinrichtung verstandenen eingegebenen Sprache steuert.
43. Sprachdialogsystem nach Anspruch 1, gekennzeichnet durch die Dialog-Managementeinrichtung, die die zu erfassenden Schlüsselworte in der eingegebenen Sprache durch die Sprach-Versteheinrichtung im voraus begrenzt, und zwar gemäß einem Zustand eines Dialogs zwischen dem Anwender und dem System.
44. Sprachdialogsystem nach Anspruch 43, wobei die Dialog- Managementeinrichtung eine semantische Bestimmung der Systemantwort, die durch die Antworten-Ausgabeeinrichtung auszugeben ist, gemäß dem semantischen Inhalt der durch die Sprach-Versteheinrichtung verstandenen eingegebenen Sprache durchführt und die zu erfassenden Schlüsselworte in der eingegebenen Sprache durch die Sprach- Versteheinrichtung im voraus begrenzt, indem sie die semantische Bestimmung der Systemantwort für eine vorherige eingegebene Sprache verwendet, welche einen aktuellen Zustand des Dialogs zwischen dem Anwender und dem System anzeigt.
45. Sprachdialogsystem nach Anspruch 43, wobei die Dialog- Managementeinrichtung auch syntaktische und semantische Regeln, die durch die Sprach-Versteheinrichtung zu verwenden sind, im voraus begrenzt, und zwar gemäß einem Zustand eines Dialogs zwischen dem Anwender und dem System.
46. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Sprach-Versteheinrichtung (11) folgendes aufweist:
a1) eine Schlüsselwort-Erfassungseinheit (21) zum Extrahieren vorbestimmter Schlüsselworte (Fig. 5) aus der eingegebenen Sprache;
a2) eine Einheit zur syntaktischen und semantischen Analyse (22) zum Bestimmen mehrerer semantischer Äußerungsdarstellungskandidaten (Fig. 12D, 12E) auf der Basis der Schlüsselworte gemäß vorgeschriebener syntaktischer und semantischer Regeln; und
b1) die Dialog-Managementeinrichtung (12) die semantischen Äußerungsdarstellungskandidaten empfängt und die semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Kandidaten gemäß einer Dialog-Vorgeschichte durchführt.
47. Verfahren nach Anspruch 21, dadurch gekennzeichnet, daß
f) der Schritt a) eine Extraktion vorbestimmter Schlüsselworte (Fig. 5) aus der eingegebenen Sprache aufweist; und
f2) die Bestimmung mehrerer semantischer Äußerungsdarstellungskandidaten gemäß vorgeschriebener syntaktischer und semantischer Regeln auf der Basis der Schlüsselworte; und
g) der Schritt a) das Empfangen der semantischen Äußerungsdarstellungskandidaten und eine semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Kandidaten gemäß einer Dialog- Vorgeschichte aufweist.
DE69232407T 1991-11-18 1992-11-17 Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung Expired - Lifetime DE69232407T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32947591 1991-11-18

Publications (2)

Publication Number Publication Date
DE69232407D1 DE69232407D1 (de) 2002-03-21
DE69232407T2 true DE69232407T2 (de) 2002-09-12

Family

ID=18221798

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69232407T Expired - Lifetime DE69232407T2 (de) 1991-11-18 1992-11-17 Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung

Country Status (3)

Country Link
US (2) US5357596A (de)
EP (1) EP0543329B1 (de)
DE (1) DE69232407T2 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004001801A1 (de) * 2004-01-05 2005-07-28 Deutsche Telekom Ag Dialogsystem insbesondere zur Unterstützung der Patientenbetreuung
DE102004056164A1 (de) * 2004-11-18 2006-05-24 Deutsche Telekom Ag Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem
DE102010012427B4 (de) * 2010-03-23 2014-04-24 Zoobe Gmbh Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern

Families Citing this family (306)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543329B1 (de) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5890122A (en) * 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
CA2091658A1 (en) * 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5802505A (en) * 1993-04-13 1998-09-01 Matsushita Electric Industrial Co., Ltd. Waveform signal equalizing method and apparatus and signal recording and reproducing apparatus
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5493608A (en) * 1994-03-17 1996-02-20 Alpha Logic, Incorporated Caller adaptive voice response system
CA2143980A1 (en) * 1994-04-06 1995-10-07 Raziel Haimi-Cohen User display in speech recognition system
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
US5799267A (en) * 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
CA2151073A1 (en) 1994-07-28 1996-01-29 Bishnu Saroop Atal Intelligent human interface system
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
JP3399674B2 (ja) * 1994-12-19 2003-04-21 エヌイーシーインフロンティア株式会社 画面制御装置とその方法
US5717828A (en) * 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
KR960038699A (ko) * 1995-04-28 1996-11-21 김광호 어학 학습기의 암송시간 제어방법
US6109923A (en) * 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
JP3968133B2 (ja) * 1995-06-22 2007-08-29 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
US5748191A (en) * 1995-07-31 1998-05-05 Microsoft Corporation Method and system for creating voice commands using an automatically maintained log interactions performed by a user
US5761641A (en) * 1995-07-31 1998-06-02 Microsoft Corporation Method and system for creating voice commands for inserting previously entered information
US5857172A (en) * 1995-07-31 1999-01-05 Microsoft Corporation Activation control of a speech recognizer through use of a pointing device
US5864815A (en) * 1995-07-31 1999-01-26 Microsoft Corporation Method and system for displaying speech recognition status information in a visual notification area
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
DE19532114C2 (de) * 1995-08-31 2001-07-26 Deutsche Telekom Ag Sprachdialog-System zur automatisierten Ausgabe von Informationen
EP1515530A3 (de) * 1995-09-04 2005-04-27 BRITISH TELECOMMUNICATIONS public limited company Telefonhandapparat für Transaktionsunterstützungsgerät
US7590224B1 (en) * 1995-09-15 2009-09-15 At&T Intellectual Property, Ii, L.P. Automated task classification system
US5832439A (en) * 1995-12-14 1998-11-03 U S West, Inc. Method and system for linguistic command processing in a video server network
GB9525719D0 (en) * 1995-12-15 1996-02-14 Hewlett Packard Co Speech system
US5794249A (en) * 1995-12-21 1998-08-11 Hewlett-Packard Company Audio/video retrieval system that uses keyword indexing of digital recordings to display a list of the recorded text files, keywords and time stamps associated with the system
US5839104A (en) * 1996-02-20 1998-11-17 Ncr Corporation Point-of-sale system having speech entry and item recognition support system
JPH09231224A (ja) * 1996-02-26 1997-09-05 Fuji Xerox Co Ltd 言語情報処理装置
US6003015A (en) * 1996-02-28 1999-12-14 Hm Electronics, Inc. Order confirmation system and method of using same
DE19615693C1 (de) * 1996-04-19 1997-12-11 Siemens Ag Vorrichtung und Verfahren zur Aktionsermittlung
US5943648A (en) * 1996-04-25 1999-08-24 Lernout & Hauspie Speech Products N.V. Speech signal distribution system providing supplemental parameter associated data
SE519273C2 (sv) * 1996-05-13 2003-02-11 Telia Ab Förbättringar av , eller med avseende på, tal-till-tal- omvandling
US5758319A (en) * 1996-06-05 1998-05-26 Knittle; Curtis D. Method and system for limiting the number of words searched by a voice recognition system
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US5905789A (en) * 1996-10-07 1999-05-18 Northern Telecom Limited Call-forwarding system using adaptive model of user behavior
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US6208713B1 (en) 1996-12-05 2001-03-27 Nortel Networks Limited Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
JP2000507021A (ja) * 1997-01-09 2000-06-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ モジュール式会話構造に基づくような両面音声の形態における人間―機械会話を実行する方法および装置
US6021181A (en) * 1997-02-24 2000-02-01 Wildfire Communications, Inc. Electronic voice mail message handling system
DE19709990C2 (de) * 1997-03-11 2000-03-02 Philips Corp Intellectual Pty System zur Erkennung gesprochener Ziffernfolgen
US5970449A (en) * 1997-04-03 1999-10-19 Microsoft Corporation Text normalization using a context-free grammar
US5966691A (en) * 1997-04-29 1999-10-12 Matsushita Electric Industrial Co., Ltd. Message assembler using pseudo randomly chosen words in finite state slots
CN1163869C (zh) * 1997-05-06 2004-08-25 语音工程国际公司 用于开发交互式语音应用程序的系统和方法
US6199043B1 (en) * 1997-06-24 2001-03-06 International Business Machines Corporation Conversation management in speech recognition interfaces
US5999904A (en) * 1997-07-02 1999-12-07 Lucent Technologies Inc. Tracking initiative in collaborative dialogue interactions
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
GB9800590D0 (en) 1998-01-13 1998-03-11 Bae Sema Ltd Intelligent human computer interface system
JPH11224179A (ja) * 1998-02-05 1999-08-17 Fujitsu Ltd 対話インタフェース・システム
US6134529A (en) * 1998-02-09 2000-10-17 Syracuse Language Systems, Inc. Speech recognition apparatus and method for learning
US5946657A (en) * 1998-02-18 1999-08-31 Svevad; Lynn N. Forever by my side ancestral computer program
US6137878A (en) * 1998-03-28 2000-10-24 Nortel Networks Limited Method for outputting user feedback audio messages and telecommunications equipment employing said method
US7203649B1 (en) * 1998-04-15 2007-04-10 Unisys Corporation Aphasia therapy system
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6236968B1 (en) * 1998-05-14 2001-05-22 International Business Machines Corporation Sleep prevention dialog based car system
IL125289A (en) 1998-07-09 2004-03-28 Ehud Ezroni Aircraft communication system
EP1101160B1 (de) * 1998-08-05 2003-04-02 BRITISH TELECOMMUNICATIONS public limited company Multimodale benutzerschnittstelle
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
EP1044416A1 (de) * 1998-10-09 2000-10-18 Scansoft, Inc. Automatisches auskunftsverfahren und -system
US6246981B1 (en) 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6253184B1 (en) 1998-12-14 2001-06-26 Jon Ruppert Interactive voice controlled copier apparatus
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
WO2000055843A1 (en) * 1999-03-12 2000-09-21 Entropic Limited Man-machine dialogue system and method
US6567796B1 (en) 1999-03-23 2003-05-20 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US7082422B1 (en) 1999-03-23 2006-07-25 Microstrategy, Incorporated System and method for automatic transmission of audible on-line analytical processing system report output
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
AU4141400A (en) * 1999-04-29 2000-11-17 Gil Israeli Information retrieval system
US7009523B2 (en) * 1999-05-04 2006-03-07 Intellimats, Llc Modular protective structure for floor display
US20080278408A1 (en) * 1999-05-04 2008-11-13 Intellimat, Inc. Floor display systems and additional display systems, and methods and computer program products for using floor display systems and additional display system
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US8607138B2 (en) 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
EP1224569A4 (de) 1999-05-28 2005-08-10 Sehda Inc Auf phrasen sich basierende dialog modellierung mit besonderer anwendung fur erzeugung von erkennungsgrammatik fur sprachgesteuerte anwender schnittstelle
JP3514372B2 (ja) * 1999-06-04 2004-03-31 日本電気株式会社 マルチモーダル対話装置
US8065155B1 (en) * 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
KR100326931B1 (ko) * 1999-08-02 2002-03-13 이계철 대화시스템을 이용한 정보검색시나리오 구현 검사 시스템 및그방법
US6964012B1 (en) 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
US6788768B1 (en) 1999-09-13 2004-09-07 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for book-related information
US7197461B1 (en) 1999-09-13 2007-03-27 Microstrategy, Incorporated System and method for voice-enabled input for use in the creation and automatic deployment of personalized, dynamic, and interactive voice services
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6836537B1 (en) 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US7340040B1 (en) 1999-09-13 2008-03-04 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for corporate-analysis related information
US7266181B1 (en) 1999-09-13 2007-09-04 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized dynamic and interactive voice services with integrated inbound and outbound voice services
US6940953B1 (en) 1999-09-13 2005-09-06 Microstrategy, Inc. System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services including module for generating and formatting voice services
US6885734B1 (en) 1999-09-13 2005-04-26 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive inbound and outbound voice services, with real-time interactive voice database queries
US6850603B1 (en) 1999-09-13 2005-02-01 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized dynamic and interactive voice services
US6829334B1 (en) 1999-09-13 2004-12-07 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
AU1601501A (en) * 1999-11-12 2001-06-06 William E Kirksey Method and apparatus for displaying writing and utterance of word symbols
AU1628801A (en) * 1999-11-22 2001-06-04 Talkie, Inc. An apparatus and method for determining emotional and conceptual context from a user input
GB9928420D0 (en) * 1999-12-02 2000-01-26 Ibm Interactive voice response system
GB9929284D0 (en) * 1999-12-11 2000-02-02 Ibm Voice processing apparatus
US6598018B1 (en) 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
US6434529B1 (en) * 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
JP2001325195A (ja) * 2000-03-06 2001-11-22 Sony Computer Entertainment Inc 通信システム、エンタテインメント装置、記録媒体及びプログラム
JP2001249945A (ja) * 2000-03-07 2001-09-14 Nec Corp 感情生成方法および感情生成装置
US20010053976A1 (en) * 2000-06-15 2001-12-20 Henry Olko On line conversation program and method
JP2002023783A (ja) * 2000-07-13 2002-01-25 Fujitsu Ltd 対話処理システム
DE60128372T2 (de) * 2000-07-31 2008-01-10 Eliza Corp., Beverly Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE10043531A1 (de) * 2000-09-05 2002-03-14 Philips Corp Intellectual Pty Sprachdialogsystem
US7110963B2 (en) * 2000-09-07 2006-09-19 Manuel Negreiro Point-of-sale customer order system utilizing an unobtrusive transmitter/receiver and voice recognition software
US6785651B1 (en) * 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
US6850882B1 (en) 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech
US20040085162A1 (en) * 2000-11-29 2004-05-06 Rajeev Agarwal Method and apparatus for providing a mixed-initiative dialog between a user and a machine
CA2437361A1 (en) * 2001-02-14 2002-08-22 Ronald D. Blum Floor mat with voice-responsive display
JPWO2002067244A1 (ja) * 2001-02-19 2004-06-24 カテナ株式会社 音声対話のための音声認識方法、音声認識システム及び音声認識プログラム
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7729918B2 (en) 2001-03-14 2010-06-01 At&T Intellectual Property Ii, Lp Trainable sentence planning system
US7574362B2 (en) * 2001-03-14 2009-08-11 At&T Intellectual Property Ii, L.P. Method for automated sentence planning in a task classification system
WO2002073600A1 (en) * 2001-03-14 2002-09-19 International Business Machines Corporation Method and processor system for processing of an audio signal
WO2002073598A1 (en) * 2001-03-14 2002-09-19 At & T Corp. Method for automated sentence planning in a task classification system
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US20020178010A1 (en) * 2001-05-22 2002-11-28 Jack Weaver Sound responsive service window
GB2376554B (en) * 2001-06-12 2005-01-05 Hewlett Packard Co Artificial language generation and evaluation
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
US6996528B2 (en) * 2001-08-03 2006-02-07 Matsushita Electric Industrial Co., Ltd. Method for efficient, safe and reliable data entry by voice under adverse conditions
US6963832B2 (en) * 2001-10-09 2005-11-08 Hewlett-Packard Development Company, L.P. Meaning token dictionary for automatic speech recognition
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
AU2003226309A1 (en) * 2002-04-03 2003-10-27 Jacent Technologies, Inc. System and method for conducting transactions without human intervention using speech recognition technology
US7136818B1 (en) * 2002-05-16 2006-11-14 At&T Corp. System and method of providing conversational visual prosody for talking heads
US20030214523A1 (en) * 2002-05-16 2003-11-20 Kuansan Wang Method and apparatus for decoding ambiguous input using anti-entities
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7502730B2 (en) * 2002-06-14 2009-03-10 Microsoft Corporation Method and apparatus for federated understanding
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
US20030115062A1 (en) * 2002-10-29 2003-06-19 Walker Marilyn A. Method for automated sentence planning
US7783486B2 (en) * 2002-11-22 2010-08-24 Roy Jonathan Rosser Response generator for mimicking human-computer natural language conversation
KR100580619B1 (ko) 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
EP1431958B1 (de) * 2002-12-16 2018-07-18 Sony Mobile Communications Inc. Gerät enthaltend oder anschliessbar zu einer Vorrichtung zur Erzeugung von Sprachsignalen, und Computerprogramm dafür
US7371175B2 (en) * 2003-01-13 2008-05-13 At&T Corp. Method and system for enhanced audio communications in an interactive environment
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
US7103553B2 (en) * 2003-06-04 2006-09-05 Matsushita Electric Industrial Co., Ltd. Assistive call center interface
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
EP1680780A1 (de) * 2003-08-12 2006-07-19 Philips Intellectual Property & Standards GmbH Sprachschnittstelle für dialogsysteme
JP4314242B2 (ja) * 2003-09-10 2009-08-12 富士通株式会社 データ通信システム,データ通信方法,移動体通信端末及びアプリケーションサーバ
JP4585759B2 (ja) * 2003-12-02 2010-11-24 キヤノン株式会社 音声合成装置、音声合成方法、プログラム、及び記録媒体
US8965771B2 (en) * 2003-12-08 2015-02-24 Kurzweil Ainetworks, Inc. Use of avatar with event processing
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US8583439B1 (en) * 2004-01-12 2013-11-12 Verizon Services Corp. Enhanced interface for use with speech recognition
US7860256B1 (en) * 2004-04-09 2010-12-28 Apple Inc. Artificial-reverberation generating device
JP4075067B2 (ja) * 2004-04-14 2008-04-16 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
US7788103B2 (en) * 2004-10-18 2010-08-31 Nuance Communications, Inc. Random confirmation in speech based systems
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
US7844465B2 (en) * 2004-11-30 2010-11-30 Scansoft, Inc. Random confirmation in speech based systems
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US7415413B2 (en) * 2005-03-29 2008-08-19 International Business Machines Corporation Methods for conveying synthetic speech style from a text-to-speech system
US7584099B2 (en) * 2005-04-06 2009-09-01 Motorola, Inc. Method and system for interpreting verbal inputs in multimodal dialog system
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
JP4702936B2 (ja) * 2005-06-28 2011-06-15 キヤノン株式会社 情報処理装置及び制御方法、プログラム
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (de) * 2005-08-31 2010-10-27 Voicebox Technologies Inc Dynamische sprachverschärfung
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US20070067172A1 (en) * 2005-09-22 2007-03-22 Minkyu Lee Method and apparatus for performing conversational opinion tests using an automated agent
US20070080930A1 (en) * 2005-10-11 2007-04-12 Logan James R Terminal device for voice-directed work and information exchange
US20070115920A1 (en) * 2005-10-18 2007-05-24 Microsoft Corporation Dialog authoring and execution framework
US7840451B2 (en) * 2005-11-07 2010-11-23 Sap Ag Identifying the most relevant computer system state information
US8805675B2 (en) * 2005-11-07 2014-08-12 Sap Ag Representing a computer system state to a user
US7979295B2 (en) * 2005-12-02 2011-07-12 Sap Ag Supporting user interaction with a computer system
US7676489B2 (en) * 2005-12-06 2010-03-09 Sap Ag Providing natural-language interface to repository
JP4197344B2 (ja) * 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US7848314B2 (en) 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
KR100807307B1 (ko) * 2006-07-10 2008-02-28 한국전자통신연구원 대화형 음성 인터페이스 시스템 및 그 응답 방법
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US8073697B2 (en) * 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8540517B2 (en) 2006-11-27 2013-09-24 Pharos Innovations, Llc Calculating a behavioral path based on a statistical profile
US8540515B2 (en) 2006-11-27 2013-09-24 Pharos Innovations, Llc Optimizing behavioral change based on a population statistical profile
US8540516B2 (en) 2006-11-27 2013-09-24 Pharos Innovations, Llc Optimizing behavioral change based on a patient statistical profile
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8069047B2 (en) 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US7809575B2 (en) 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8713542B2 (en) 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US9208783B2 (en) 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US7822608B2 (en) 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8670987B2 (en) 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8909532B2 (en) 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8725513B2 (en) 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8595642B1 (en) * 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US20090097634A1 (en) * 2007-10-16 2009-04-16 Ullas Balan Nambiar Method and System for Call Processing
US8566098B2 (en) * 2007-10-30 2013-10-22 At&T Intellectual Property I, L.P. System and method for improving synthesized speech interactions of a spoken dialog system
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090209341A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Gaming Apparatus Capable of Conversation with Player and Control Method Thereof
US8229081B2 (en) 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9349367B2 (en) 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8214242B2 (en) 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20090313020A1 (en) * 2008-06-12 2009-12-17 Nokia Corporation Text-to-speech user interface control
US8700008B2 (en) 2008-06-27 2014-04-15 Microsoft Corporation Providing data service options in push-to-talk using voice recognition
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8374859B2 (en) * 2008-08-20 2013-02-12 Universal Entertainment Corporation Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US20100100377A1 (en) * 2008-10-10 2010-04-22 Shreedhar Madhavapeddi Generating and processing forms for receiving speech data
US8386261B2 (en) * 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
US9558604B2 (en) * 2009-02-10 2017-01-31 Yikes Llc System for permitting secure access to a restricted area
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8798999B2 (en) 2009-05-01 2014-08-05 Alpine Electronics, Inc. Dialog design tool and method
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
ES2382747B1 (es) 2009-06-30 2013-05-08 Telefónica, S.A. Interaccion multimodal sobre aplicaciones de television digital
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
JP5617083B2 (ja) * 2009-09-03 2014-11-05 本田技研工業株式会社 コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
DK2572302T3 (da) * 2010-05-19 2021-04-26 Sanofi Aventis Deutschland Modificering af operationelle data om en proces til interaktions- og/eller interaktionsbestemmelse
US8464183B2 (en) 2010-06-03 2013-06-11 Hewlett-Packard Development Company, L.P. System and method for distinguishing multimodal commands directed at a machine from ambient human communications
US8990092B2 (en) * 2010-06-28 2015-03-24 Mitsubishi Electric Corporation Voice recognition device
US8352908B2 (en) 2010-06-28 2013-01-08 International Business Machines Corporation Multi-modal conversion tool for form-type applications
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US9076152B2 (en) 2010-10-20 2015-07-07 Microsoft Technology Licensing, Llc Semantic analysis of information
US10747963B2 (en) * 2010-10-31 2020-08-18 Speech Morphing Systems, Inc. Speech morphing communication system
US8762154B1 (en) * 2011-08-15 2014-06-24 West Corporation Method and apparatus of estimating optimum dialog state timeout settings in a spoken dialog system
KR20130055429A (ko) * 2011-11-18 2013-05-28 삼성전자주식회사 감정 세그먼트 기반의 감정 인식 장치 및 방법
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US8346563B1 (en) * 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US9899040B2 (en) * 2012-05-31 2018-02-20 Elwha, Llc Methods and systems for managing adaptation data
KR101709187B1 (ko) * 2012-11-14 2017-02-23 한국전자통신연구원 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템
US10354677B2 (en) * 2013-02-28 2019-07-16 Nuance Communications, Inc. System and method for identification of intent segment(s) in caller-agent conversations
JP2014191212A (ja) * 2013-03-27 2014-10-06 Seiko Epson Corp 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
DE102013007502A1 (de) * 2013-04-25 2014-10-30 Elektrobit Automotive Gmbh Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen
EP3007165B1 (de) * 2013-05-31 2018-08-01 Yamaha Corporation Technologie zum antworten auf bemerkungen unter verwendung von sprachsynthese
GB2517212B (en) 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
WO2015029304A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
WO2016002879A1 (ja) 2014-07-02 2016-01-07 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
JP6251450B2 (ja) * 2015-03-12 2017-12-20 株式会社東芝 対話支援装置、方法およびプログラム、および端末
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
JP6711044B2 (ja) * 2016-03-16 2020-06-17 カシオ計算機株式会社 画像処理装置、表示装置、アニメーション生成方法及びプログラム
JP6719739B2 (ja) * 2016-05-20 2020-07-08 日本電信電話株式会社 対話方法、対話システム、対話装置、及びプログラム
EP3403201A4 (de) * 2016-06-02 2019-01-09 Samsung Electronics Co., Ltd. Verfahren und elektronische vorrichtung zur vorhersage einer reaktion
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
CN107885756B (zh) 2016-09-30 2020-05-08 华为技术有限公司 基于深度学习的对话方法、装置及设备
US10360909B2 (en) * 2017-07-27 2019-07-23 Intel Corporation Natural machine conversing method and apparatus
US10460748B2 (en) 2017-10-04 2019-10-29 The Toronto-Dominion Bank Conversational interface determining lexical personality score for response generation with synonym replacement
US10339931B2 (en) 2017-10-04 2019-07-02 The Toronto-Dominion Bank Persona-based conversational interface personalization using social network preferences
KR102485253B1 (ko) * 2017-11-10 2023-01-06 현대자동차주식회사 대화 시스템 및 그 제어방법
CN107871500B (zh) * 2017-11-16 2021-07-20 百度在线网络技术(北京)有限公司 一种播放多媒体的方法和装置
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
CN110134305B (zh) * 2019-04-02 2022-12-09 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
US11501753B2 (en) * 2019-06-26 2022-11-15 Samsung Electronics Co., Ltd. System and method for automating natural language understanding (NLU) in skill development
JP2021026188A (ja) * 2019-08-08 2021-02-22 本田技研工業株式会社 通信制御システム、通知制御方法、及び通信制御プログラム
CN110782871B (zh) * 2019-10-30 2020-10-30 百度在线网络技术(北京)有限公司 一种韵律停顿预测方法、装置以及电子设备
US11244681B1 (en) * 2020-07-31 2022-02-08 Xenial, Inc. System and method for drive through order processing
CN111862980A (zh) * 2020-08-07 2020-10-30 斑马网络技术有限公司 一种增量语义处理方法
US11514894B2 (en) 2021-02-24 2022-11-29 Conversenowai Adaptively modifying dialog output by an artificial intelligence engine during a conversation with a customer based on changing the customer's negative emotional state to a positive one
US11354760B1 (en) 2021-02-24 2022-06-07 Conversenowai Order post to enable parallelized order taking using artificial intelligence engine(s)
US11355122B1 (en) 2021-02-24 2022-06-07 Conversenowai Using machine learning to correct the output of an automatic speech recognition system
US11862157B2 (en) * 2021-02-24 2024-01-02 Conversenow Ai Automated ordering system
US11348160B1 (en) 2021-02-24 2022-05-31 Conversenowai Determining order preferences and item suggestions
US11810550B2 (en) 2021-02-24 2023-11-07 Conversenowai Determining order preferences and item suggestions

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58195957A (ja) * 1982-05-11 1983-11-15 Casio Comput Co Ltd 音声によるプログラム実行方式
US4856066A (en) * 1986-11-06 1989-08-08 Lemelson Jerome H Speech communication system and method
DE3700796A1 (de) * 1987-01-14 1988-07-28 Roland Dr Schaepers Sprachtrainer - interaktive video-einheit mit digitaler sprachverarbeitung
US5068645A (en) * 1987-10-14 1991-11-26 Wang Laboratories, Inc. Computer input device using an orientation sensor
US5219291A (en) * 1987-10-28 1993-06-15 Video Technology Industries, Inc. Electronic educational video system apparatus
EP0543329B1 (de) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004001801A1 (de) * 2004-01-05 2005-07-28 Deutsche Telekom Ag Dialogsystem insbesondere zur Unterstützung der Patientenbetreuung
DE102004056164A1 (de) * 2004-11-18 2006-05-24 Deutsche Telekom Ag Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem
DE102010012427B4 (de) * 2010-03-23 2014-04-24 Zoobe Gmbh Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern

Also Published As

Publication number Publication date
EP0543329B1 (de) 2002-02-06
US5357596A (en) 1994-10-18
EP0543329A2 (de) 1993-05-26
DE69232407D1 (de) 2002-03-21
US5577165A (en) 1996-11-19
EP0543329A3 (en) 1994-09-07

Similar Documents

Publication Publication Date Title
DE69232407T2 (de) Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
Todd et al. Word frequency effects in sound change as a consequence of perceptual asymmetries: An exemplar-based model
DE60012655T2 (de) Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen
DE60119496T2 (de) Verfahren und Vorrichtung um eine mittels eines Klangs übermittelte Emotion zu synthetisieren
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE60201262T2 (de) Hierarchische sprachmodelle
DE69521244T2 (de) System zur Text-Sprache-Umsetzung
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69130052T2 (de) Vorherbestimmbares eingangsabtastsystem zur schnellen auswahl visueller indikatoren
DE602005001142T2 (de) Nachrichtenübertragungsgerät
DE60030920T2 (de) Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs
DE602004000873T2 (de) Vorrichtung zur Synthese einer singenden Stimme unter Berücksichtigung unterschiedlicher Modelle je nach Ansatzkontext der gesungenen Töne
DE69736552T2 (de) Intelligente anwenderunterstützungsfunktion
DE102020112347A1 (de) Verfahren und einrichtungen zum automatischen erzeugen von code für grafische benutzeroberflächen
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE69618488T2 (de) Interaktive Spracherkennungsvorrichtung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69506037T2 (de) Audioausgabeeinheit und Methode
WO2018194456A1 (en) Optical music recognition omr : converting sheet music to a digital format
DE112018002601T5 (de) Verarbeitung natürlicher sprache unter verwendung von kontextspezifischen wortvektoren
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
DE69523944T2 (de) System zur informationsverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)