DE69232407T2

DE69232407T2 - Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung

Info

Publication number: DE69232407T2
Application number: DE69232407T
Authority: DE
Inventors: Hideki Hashimoto; Yoshifumi Nagata; Yoichi Sadamoto; Shigenobu Seto; Hideaki Shinchi; Yoichi Takebayashi; Hiroyuki Tsuboi; Yasuki Yamashita
Original assignee: Toshiba Corp; Toshiba Software Engineering Corp
Current assignee: Toshiba Corp; Toshiba Software Engineering Corp
Priority date: 1991-11-18
Filing date: 1992-11-17
Publication date: 2002-09-12
Anticipated expiration: 2012-11-18
Also published as: EP0543329A3; DE69232407D1; US5357596A; US5577165A; EP0543329A2; EP0543329B1

Description

HINTERGRUND DER ERFINDUNG

Gebiet der Erfindung

Die vorliegende Erfindung betrifft ein Sprachdialogsystem zum Realisieren einer Interaktion zwischen einem auf einem Computer basierenden System und einem menschlichen Sprecher durch Verwenden verschiedener Eingabe- und Ausgabetechniken, wie beispielsweise einer Spracherkennung und einer Sprachsynthese.

Beschreibung des Standes der Technik

In den letzten Jahren ist es möglich geworden, eine sogenannte Mensch-Computer-Interaktion in verschiedenen Formen durch Eingeben, Ausgeben und Verarbeiten von Mehrfachmedien, wie beispielsweise von Zeichen, Sprachen, Graphiken und Bildern, zu realisieren.
Insbesondere sind in Zusammenhang mit einer signifikanten Verbesserung der Kapazitäten eines Computers und einer Speichervorrichtung verschiedene Anwendungen einer Workstation und eines Personalcomputers, die die Mehrfachmedien behandeln können, entwickelt worden. Jedoch kann eine solche herkömmliche Workstation oder ein solcher herkömmlicher Personalcomputer nur verschiedene Medien separat behandeln und realisiert keinerlei organische Koordination der verwendeten verschiedenen Medien.
Zwischenzeitlich ist es populär geworden, die linguistischen Daten bzw. Sprachdaten unter Verwendung von Zeichen anstelle der numerischen Daten, die normalerweise bei einem herkömmlichen Computer verwendet werden, zu verwenden.
Wie für die visuellen Daten ist eine Kapazität zum Handhaben der bei einem herkömmlichen Computer normalerweise verwendeten monochromatischen Bilddaten erweitert, um Farbbilder, animierte Bilder, dreidimensionale graphische Bilder und dynamische Bilder zu behandeln.
Bezüglich Audiodaten ist zusätzlich zu einer herkömmlicherweise verwendeten Technik zum Handhaben von Sprachsignalpegeln ein Fortschritt zum Entwickeln verschiedener anderer Techniken gemacht worden, wie beispielsweise einer Spracherkennung und einer Sprachsynthese, aber diese Techniken sind noch zu instabil, um irgendwelche praktischen Anwendungen zu realisieren, mit Ausnahme auf einigen sehr eingeschränkten Gebieten.
Somit gibt es für verschiedene Typen von Daten, die in einem auf einem Computer basierenden System zu verwenden sind, wie beispielsweise Zeichendaten, Textdaten, Sprachdaten und Graphikdaten, einen Trend dahin, einen Fortschritt von herkömmlichen Eingabe- und Ausgabe-(Aufzeichnungs- und Reproduktions- bzw. Wiedergabe-)Funktionen zu den Funktionen zum Verstehen und Erzeugen zu machen. Anders ausgedrückt gibt es einen Fortschritt in Richtung zum Bilden eines Dialogsystems unter Verwendung der Funktionen zum Verstehen und zum Erzeugen für verschiedene Medien, wie beispielsweise von Sprachen und Graphiken, für den Zweck, eine natürlichere und angenehmere Mensch-Computer-Interaktion zu realisieren, indem der Inhalt, die Struktur und die Bedeutung, die in den Medien ausgedrückt werden, eher als die oberflächliche Manipulation der Medien behandelt werden.
Bezüglich der Spracherkennung ist die Entwicklung von einer isolierten Worterkennung in Richtung zu einer kontinuierlichen Worterkennung und einer kontinuierlichen Spracherkennung gemacht worden, und zwar primär in spezifischen Aufgaben orientierten Umgebungen, die die praktischen Implementierungen berücksichtigen. Bei einer solchen praktischen Anwendung ist es für das Sprachdialogsystem wichtiger, eher den Inhalt der Sprache zu erkennen, als die einzelnen Worte zu erkennen, und es hat einen Fortschritt bei einem System zum Verstehen von Sprache unter Verwendung des spezialisierten Wissens des Anwendungsgebiets auf einer Basis einer Schlüsselwortentdeckungstechnik gegeben.
Andererseits ist bezüglich der Sprachsynthese die Entwicklung von einem einfachen Text-zu-Sprache-System in Richtung zu einem Sprachsynthesesystem gemacht worden, das für ein Sprachdialogsystem geeignet ist, in welchem der Intonation ein größeres Gewicht zugeteilt wird.
Jedoch sind das Verstehen und das Erzeugen der Medien, wie beispielsweise einer Sprache, nicht so einfach wie die normale Eingabe und Ausgabe von Daten, so daß die Fehler oder ein Verlust von Information zur Zeit einer Umwandlung zwischen den Medien unvermeidbar sind. Das bedeutet, daß das Verstehen der Sprache ein Typ einer Verarbeitung ist, der den Inhalt der Sprache und die Absicht des menschlichen Sprechers aus den Sprachmusterdaten extrahiert, die in einer sehr großen bzw. enormen Datengröße ausgedrückt werden, so daß es unvermeidbar ist, den Spracherkennungsfehler oder eine Vieldeutigkeit bei einer Verarbeitung zum Komprimieren der Daten zu erzeugen.
Folglich ist es für das Sprachdiaglogsystem nötig, den Dialog mit dem menschlichen Sprecher aktiv zu steuern, um es sich so natürlich und effizient wie möglich weiterentwickeln zu lassen, indem geeignete Fragen und Bestätigungen von der Systemseite ausgegeben werden, um die Unvollständigkeit der Spracherkennung aufgrund des unvermeidbaren Erkennungsfehlers oder der unvermeidbaren Vieldeutigkeit zu verbessern.
Nun ist es zum Realisieren eines natürlichen und effizienten Dialogs mit einem menschlichen Sprecher für das Sprachdialogsystem wichtig, so viel Information über den Zustand des Computers wie möglich zum menschlichen Sprecher weitergeben zu können. Jedoch ist bei einem herkömmlichen Sprachdialogsystem die Sprachantwort normalerweise durch eine mechanische Stimme gegeben, die eine durch eine Textzusammensetzung erhaltene Antwort ohne irgendeine Modulation eines Sprachtons liest, so daß es für den Anwender oft schwierig gewesen ist, die Nachricht zu hören, und die Nachricht ist manchmal sehr redundant. Bei den anderen Typen eines herkömmlichen Sprachdialogsystems, das die Sprachantwort nicht verwendet, ist die Antwort von dem System normalerweise nur als visuelle Information in Ausdrücken von Text, Graphiken, Bildern, Icons oder numerischen Daten gegeben worden, die auf einem Anzeigeschirm angezeigt werden, so daß der Mensch-Computer-Dialog in großem Maß auf dem visuellen Sinn des Anwenders beruht.
Wie es beschrieben ist, ist bei einem herkömmlichen Sprachdialogsystem die Verwendung der verschiedenen Medien bei der Antwort vom System für den Zweck zum Verbessern der Unvollständigkeit der Spracherkennung nicht genügend berücksichtigt worden, und dies ist das kritische Problem bei der praktischen Implementierung der Spracherkennungstechnik gewesen.
Anders ausgedrückt gehört zur Spracherkennungstechnik eine Instabilität aufgrund des Einflusses des Rauschens und unnötiger Störungen durch den menschlichen Sprecher, so daß es oft schwierig ist, die wirkliche Absicht des menschlichen Sprechers in Ausdrücken von Sprachen weiterzugeben, und folglich ist die Anwendung der Spracherkennungstechnik auf das ernsthaft beschränkte Gebiet begrenzt gewesen, wie beispielsweise ein Telefon, bei welchem nur das Sprachmedium beteiligt ist.
Somit ist das herkömmliche Sprachdialogsystem eine einfache Kombination aus den separat entwickelten Techniken bezüglich der Spracherkennung, der Sprachsynthese und der Bildanzeige gewesen, und die ausreichende Berücksichtigung von einem Gesichtspunkt der Natürlichkeit und der Komfortabilität eines Sprachdiaglogs hat gefehlt.
Genauer gesagt hat zum herkömmlichen Sprachdiaglogsystem das wesentliche Problem bezüglich des Fehlens der Natürlichkeit aufgrund der Instabilität der Spracherkennung, verursacht durch den Erkennungsfehler oder eine Vieldeutigkeit, gehört, und die unzureichende Sprachsynthesefunktion zum Weitergeben des Gefühls und der Absicht resultierend aus der unzureichenden Intonationssteuerung und der unzureichenden Deutlichkeit der Sprachäußerung.
Darüber hinaus fehlte dem herkömmlichen Sprachdiaglogsystem auch die ausreichende Funktion zum Erzeugen der geeigneten Antwort auf einer Basis des Ergebnisses der Spracherkennung.
Weiterhin gibt es eine Erwartung für die Verbesserung der Informationsübertragungsfunktion durch Verwenden der Bildanzeige zusammen mit der Sprachantwort, aber die exakte Art zum Verwenden der zweidimensionalen oder dreidimensionalen Bildanzeigen in Bezug auf die momentan und kontinuierlich variierende Sprachantwort bleibt als das ungelöste Problem.
Ebenso ist es wichtig, zu bestimmen, was im Sprachdiaglogsystem angezeigt werde sollte, das verschiedene andere Medien verwendet.
Die Patentanmeldung WO 89/03083 offenbart ein Sprachdialogsystem mit den Merkmalen, die im Oberbegriff des Anspruchs 1 definiert sind.

ZUSAMMENFASSUNG DER ERFINDUNG

Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Sprachdialogsystem zu schaffen, das einen natürlichen und ruhigen Dialog zwischen dem System und einem menschlichen Anwender realisieren kann, und eine einfache Handhabbarkeit des Systems.
Gemäß einem Aspekt der vorliegenden Erfindung ist ein Sprachdialogsystem nach Anspruch 1 geschaffen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist ein Verfahren eines Sprachdialogs zwischen einem menschlichen Anwender und einem Sprachdialogsystem nach Anspruch 21 geschaffen.
Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung in Zusammenhang mit den beigefügten Zeichnungen klar werden.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein schematisches Blockdiagramm eines ersten Ausführungsbeispiels eines Sprachdialogsystems gemäß der vorliegenden Erfindung.
Fig. 2 ist ein detailliertes Blockdiagramm einer Einheit zum Verstehen von Sprache in dem Sprachdialogsystem der Fig. 1.
Fig. 3 ist eine Darstellung eines Beispiels eines Schlüsselwortgitters, das aus einer kontinuierlichen eingegebenen Sprache in der Einheit zum Verstehen von Sprache der Fig. 2 erhalten wird.
Fig. 4 ist eine Darstellung eines Beispiels einer semantischen Äußerungsdarstellung, die durch die Einheit zum Verstehen von Sprache der Fig. 2 zu erhalten ist.
Fig. 5 ist eine Darstellung einer beispielhaften Liste von Schlüsselwörtern, die in der Einheit zum Verstehen von Sprache der Fig. 2 zu verwenden sind.
Fig. 6 ist eine Darstellung eines Beispiels einer semantischen Antwortdarstellung, die durch eine Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 zu erhalten ist.
Fig. 7 ist eine Darstellung einer Ordnungstabelle, die in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 zu verwenden ist.
Fig. 8 ist eine Darstellung einer vergangenen Ordnungstabelle, die in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 zu verwenden ist.
Fig. 9 ist ein Zustandsübergangsdiagramm für einen Betrieb einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1.
Fig. 10 ist ein Ablaufdiagramm für einen Betrieb in einem Anwenderzustand im Zutandsübergangsdiagramm der Fig. 9.
Fig. 11 ist ein Ablaufdiagramm für einen Betrieb in einem Systemzustand im Zustandsübergangsdiagramm der Fig. 9.
Fig. 12A und 12B sind Darstellungen von Beispielen einer semantischen Antwortdarstellung und einer Ordnungstabelle für einen beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1
Fig. 12C ist eine Darstellung, die einen beispielhaften Dialog zwischen dem System und dem Anwender in einem beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 anzeigt:
Fig. 12D und 12E sind Darstellungen von Beispielen von zwei semantischen Äußerungsdarstellungskandidaten für einen beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1.
Fig. 13 ist ein Ablaufdiagramm für einen Betrieb in einem Anwenderzustand in einem beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1 unter Verwendung der in den Fig. 12A bis 12E gezeigten Beispiele.
Fig. 14 ist ein Ablaufdiagramm für einen Betrieb in einem Systemzustand in einem beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit im Sprachdialogsystem der Fig. 1.
Fig. 15A, 15B und 15C sind Darstellungen von Beispielen einer semantischen Äußerungsdarstellung, einer Antwortaktionsliste und einer semantischen Antwortdarstellung für einen beispielhaften Fall des Betriebs in einer Dialogmanagementeinheit beim im Ablaufdiagramm der Fig. 14 gezeigten Betrieb.
Fig. 16 ist eine Darstellung einer Tabelle, die Systemantworten für verschiedene Fälle im Sprachdialogsystem der Fig. 1 zusammenfaßt.
Fig. 17 ist eine Darstellung eines Eingabesprachsignals zum Erklären einer Bestimmung einer Eingabesprachgeschwindigkeit im Sprachdialogsystem der Fig. 1.
Fig. 18 ist eine Darstellung eines Beispiels einer von der Dialogmanagementeinheit zur Antworterzeugungseinheit im Sprachdialogsystem der Fig. 1 zugeführten semantischen Antwortdarstellung.
Fig. 19 ist ein detailliertes Blockdiagramm einer Antworterzeugungseinheit im Sprachdialogsystem der Fig. 1
Fig. 20 ist eine Darstellung eines Beispiels von menschlicher Zeichenbildinformation, die in der Antworterzeugungseinheit der Fig. 19 zu verwenden ist.
Fig. 21 ist eine Darstellung von Beispielen einer Antwortsatzstruktur, die in einer Antwortsatzerzeugungseinheit in der Antworterzeugungseinheit der Fig. 19 zu verwenden ist.
Fig. 22 ist ein Ablaufdiagramm für einen Betrieb der Antwortsatzerzeugungseinheit in der Antworterzeugungseinheit der Fig. 19.
Fig. 22B, 22C und 22D sind Darstellungen einer beispielhaften semantischen Antwortdarstellung, einer beispielhaften Antwortsatzstruktur und eines erzeugten Antwortsatzes, die in der Antwortsatzerzeugungseinheit beim im Ablaufdiagramm der Fig. 22A gezeigten Betrieb zu verwenden sind.
Fig. 23 ist eine Darstellung einer Tabelle, die in einer Menschenzeichenmerkmalsbestimmungseinheit in der Antworterzeugungseinheit der Fig. 19 verwendet wird.
Fig. 24 ist eine Darstellung einer Tabelle, die in einer Sprachcharakteristik- Bestimmungseinheit in der Antworterzeugungseinheit der Fig. 19 verwendet wird.
Fig. 25 ist ein detailliertes Blockdiagramm einer Sprachantwort-Erzeugungseinheit in der Antworterzeugungseinheit der Fig. 19.
Fig. 26 ist ein Diagramm für ein fundamentales Frequenzmustermodell, das in der Sprachantwort-Erzeugungseinheit der Fig. 25 verwendet wird.
Fig. 27A und 27B sind Diagramme eines fundamentalen Frequenzmusters, das in der Sprachantwort-Erzeugungseinheit der Fig. 25 verwendet wird, und zwar ohne und mit einer Modifikation zum Erzeugen einer Sprachantwort mit einem freudigen Ausdruck.
Fig. 28A und 28B sind Diagramme eines fundamentalen Frequenzmusters, das in der Sprachantwort-Erzeugungseinheit der Fig. 25 verwendet wird, und zwar ohne und mit einer Modifikation zum Erzeugen einer Sprachantwort mit einem bedauernden Ausdruck.
Fig. 29 ist ein detailliertes Blockdiagramm einer Sprachwellenform-Erzeugungseinheit in der Sprachantwort-Erzeugungseinheit der Fig. 25.
Fig. 30A ist ein Zeitdiagramm für ein Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
Fig. 30B ist ein Zeitdiagramm für ein weiteres Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
Fig. 31A ist ein Zeitdiagramm für ein weiteres Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
Fig. 31B ist ein Zeitdiagramm für ein weiteres Beispiel einer Anzeige-Zeitgabesteuerung, die in einer Antwortausgabe-Steuereinheit in der Antworterzeugungseinheit der Fig. 19 durchzuführen ist.
Fig. 32 bis 38 sind Darstellungen verschiedener Beispiele von Anzeigebildern, die im Sprachdialogsystem der Fig. 1 zu verwenden sind, und zwar erhalten durch die Antworterzeugungseinheit der Fig. 19.
Fig. 39 ist ein Diagramm, das einen Gesamtbetrieb im Sprachdialogsystem der Fig. 1 zusammenfaßt.
Fig. 40 ist ein schematisches Blockdiagramm eines zweiten Ausführungsbeispiels eines Sprachdialogsystems gemäß der vorliegenden Erfindung.
Fig. 41 ist ein Diagramm zum Erklären eines Betriebs einer Anwenderzustands- Erfassungseinheit im Sprachdialogsystem der Fig. 40.
Fig. 42 ist ein Zeitdiagramm für ein Beispiel eines Betriebs im Sprachdialogsystem der Fig. 40.
Fig. 43 ist ein Zeitdiagramm für ein weiteres Beispiel eines Betriebs im Sprachdialogsystem der Fig. 40.
Fig. 44 ist ein Ablaufdiagramm für einen Betrieb im Sprachdialogsystem der Fig. 40.
Fig. 45 ist ein schematisches Blockdiagramm eines dritten Ausführungsbeispiels eines Sprachdialogsystems gemäß der vorliegenden Erfindung.
Fig. 46A und 46B sind Blockdiagramm von zwei alternativen Konfigurationen für eine A/D- und eine D/A-Umwandlungseinheit im Sprachdialogsystem der Fig. 45.
Fig. 47 ist eine Darstellung eines Beispiels eines Anzeigebilds, das im Sprachdialogsystem der Fig. 45 zu verwenden ist.
Fig. 48 ist eine Darstellung eines weiteren Beispiels eines Anzeigebilds, das im Sprachdialogsystem der Fig. 45 zu verwenden ist.

DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE

I. ERSTES AUSFÜHRUNGSBEISPIEL

Nimmt man nun Bezug auf Fig. 1, wird ein erstes Ausführungsbeispiel eines Sprachdialogsystems gemäß der vorliegenden Erfindung detailliert beschrieben werden.

1. Gesamtsystemkonfiguration

Bei diesem ersten Ausführungsbeispiel weist das Sprachdialogsystem folgendes auf: eine Einheit zum Verstehen von Sprache 11 zum Verstehen eines semantischen Inhalts einer eingegebenen Sprache, die durch einen Anwender geäußert wird; eine Dialogmanagementeinheit 12 zum Durchführen einer semantischen Bestimmung eines Antwortausgabeinhalts gemäß dem semantischen Inhalt der Eingabesprache, die durch die Einheit zum Verstehen von Sprache verstanden wird; eine Antworterzeugungseinheit zum Erzeugen einer Sprachantwort und einer visuellen Antwort gemäß dem durch die Dialogmanagementeinheit bestimmten Antwortausgabeinhalt; eine Anzeigeeinheit 14 zum Ausgeben der durch die Antworterzeugungseinheit erzeugten visuellen Antwort zum Anwender; und eine Lautsprechereinheit 15 zum Ausgeben der durch die Antworterzeugungseinheit erzeugten Sprachantwort zum Anwender.
Die Einheit zum Verstehen von Sprache 11 ist keine einfache Spracherkennungsvorrichtung, um nur Worte oder Sätze in der eingegebenen Sprache zu erkennen, sondern kann einen semantischen Inhalt extrahieren, der in der eingegebenen Sprache ausgedrückt werden soll, indem die eingegebene Sprache analysiert wird, und zwar in einer Form einer semantischen Äußerungsdarstellung, wie es nachfolgend detailliert beschrieben wird.
Die Dialogmanagementeinheit 12 führt die semantische Bestimmung des Antwortausgabeinhalts durch Verwenden einer Dialog-Vorgeschichte, eines aktuellen Diaglogzustands, eines Dialogmanagementverfahrens und einer Kenntnis über ein spezielles Anwendungsgebiet durch und führt die Antwortausgabe-Inhaltsinformation, die die geeignete Antwortausgabe anzeigt, die zu erzeugen ist, zur Antworterzeugunseinheit 13 zu.
Zusätzlich erreicht die Dialogmanagementeinheit 12 die Verbesserung des Verstehens von Sprache und der Reduzierung der Verarbeitungsmenge durch richtiges Behandeln der gesprochenen Eingabesprache, die eine Auslassung und Demonstrativpronomen enthält, um den natürlichen Dialog zwischen dem System und dem Anwender zu ermöglichen.
Darüber hinaus führt die Dialogmanagementeinheit 12 die erzeugte Antwortausgabe-Inhaltsinformation zurück zur Einheit zum Verstehen von Sprache 11 zu, um die Effizienz des Verstehens von Sprache bei der Einheit zum Verstehen von Sprache 11 für die nachfolgende eingegebene Sprache zu verbessern, indem die Kandidaten der Schlüsselwörter vorläufig begrenzt wird, sowie durch syntaktische und semantische Regeln, die beim Verstehen von Sprache zu verwenden sind, und zwar gemäß der in Antwort auf die aktuelle eingegebene Sprache erzeugte Antwortausgabe- Inhaltsinformation, bevor die nachfolgende eingegebene Sprache in die Einheit zum Verstehen von Sprache eingegeben wird. Dieses vorläufige Begrenzen der Schlüsselwörter und der syntaktischen und semantischen Regeln ist effektiv beim Reduzieren einer Menge an Berechnungen, die bei einem Betrieb zum Entdecken eines Schlüsselworts erforderlich sind, der beim Verstehen von Sprache zu verwenden ist.
Weiterhin führt die Dialogmanagementeinheit 12 der Antworterzeugungseinheit 13 auch menschliche Zeichenbildinformation zu, die ein menschliches Zeichenbild bzw. Charakterbild eines menschlichen Zeichens bzw. Charakters anzeigt, um die Sprachantwort auszugeben, die auf der Anzeigeeinheit 14 anzuzeigen ist, während die Sprachantwort von der Lautsprechereinheit 15 ausgegeben wird, und eine Inhaltsvisualisierungsbildinformation, die ein Inhaltsvisualisierungsbild zum Visualisieren des Inhalts der Sprachantwort für den Zweck zum Helfen, daß der Anwender die Antwort vom System versteht, anzeigt, was auch auf der Anzeigeeinheit 14 anzuzeigen ist, während die Sprachantwort von der Lautsprechereinheit 15 ausgegeben wird.
Die Antworterzeugungseinheit 13 erzeugt die Sprachantwort in einer synthetisierten Stimme, die von der Lautsprechereinheit 15 auszugeben ist, gemäß der von der Dialogmanagementeinheit 12 zugeführten Antwortausgabe-Inhaltsinformation, und die visuelle Antwort einschließlich der Textdaten der Sprachantwort, und das menschliche Charakterbild und das Inhaltsvisualisierungsbild, die auf der Anzeigeeinheit 14 anzuzeigen sind, gemäß der menschlichen Charakterbildinformation und der Inhaltsvisualisierungsbildinformation, die von der Dialogmanagementeinheit 12 zugeführt werden. Hier enthält das auf der Anzeigeeinheit 14 anzuzeigende menschliche Charakterbild die Bewegung und den Gesichtsausdruck des menschlichen Charakters, welche gemäß der Antwortausgabe- Inhaltsinformation und der menschlichen Charakterbildinformation bestimmt werden, die von der Dialogmanagementeinheit 12 zugeführt werden. Anders ausgedrückt erzeugt die Antworterzeugungseinheit 13 die multimodale Systemantwort, die sowohl die Audioinformation als auch die visuelle Information enthält, zum Unterstützen des ruhigen Verstehens der Systemantwort durch den Anwender; um den natürlichen Dialog zwischen dem Anwender und dem System zu bilden.
Während die erzeugten Sprachantworten und visuellen Antworten von der Antworterzeugungseinheit 13 ausgegeben werden, benachrichtigt die Antworterzeugungseinheit 13 das Dialogmanagementsystem 12 zusätzlich darüber, daß die Ausgabe der Antworten gerade erfolgt. In Antwort darauf steuert die Dialogmanagementeinheit 12 die Zeitgaben des Betriebs zum Verstehen von Sprache, wie beispielsweise die Anfangs- und die Endstellenerfassung und die Schlüsselwortentdeckung für die darauffolgende eingegebene Sprache, was durch die Einheit zum Verstehen von Sprache 11 auszuführen ist, gemäß dieser Benachrichtigung von der Antworterzeugungseinheit 13, um die Effizienz des Verstehens von Sprache bei der Einheit zum Verstehen von Sprache 11 zu verbessern.

2. Individuelle Systemelemente

Nun werden die weiteren Details jedes Elements bei diesem ersten Ausführungsbeispiel des in Fig. 1 gezeigten Sprachdialogsystems beschrieben werden. In der folgenden Beschreibung wird der Definiertheit der Beschreibung halber ein Fall eines Verwendens dieses Sprachdialogsystems für eine Aufgabe verwendet werden, das eine Bestellung in einem Schnellimbiß angenommen wird.

2.1 Einheit zum Verstehen von Sprache 11

Die Einheit zum Verstehen von Sprache 11 ist erforderlich, um das Verstehen der durch den Anwender geäußerten eingegebenen Sprache zu erreichen, indem ein semantischer Inhalt extrahiert wird, der in der eingegebenen Sprache ausgedrückt werden soll.
Allgemein ist die Verwendung der Spracherkennung der durch den nicht speziellen Anwender geäußerten Sprache für die speziellen Anwendungen erdacht worden, wie beispielsweise ein Kartenverkaufsservicesystem, ein Platzreservierungsservicesystem und ein Banktransaktionsservicesystem, aber eine solche Spracherkennung für den nicht speziellen Anwender ist auf eine bemerkenswerte Schwierigkeit beim Erreichen der genauen Erkennung der tatsächlich gesprochenen Sätze gestoßen, und zwar aufgrund der unterschiedlichen Arten der durch unterschiedliche Anwender verwendeten Sprachäußerung, der durch den Anwender in Zusammenhang mit der tatsächlichen Nachricht geäußerten unnötigen Wörter, der persönlichen Variation bezüglich der gesprochenen Sprache und des Einflusses des Hintergrundrauschens.
Als Lösung für eine solche Schwierigkeit, der die Spracherkennung für einen nicht speziellen Anwender begegnet, hat es einen Vorschlag für das Verfahren eines kontinuierlichen Verstehens von Sprache basierend auf der Schlüsselwortgitterzerlegung gegeben, wobei das Verstehen des semantischen Inhalts der kontinuierlich geäußerten Sprache durch Analysieren der in der Sprache erfaßten Schlüsselwörter erreicht wird, wie es in H. Tsuboi und Y. Takebayashi: "A Real-Time Task-Oriented Speech Understanding System using Keyword Spotting", Proceedings of 1992 International Conference on Acoustics, Speed, and Signal Processing (ICASSP 92), I-197 bis I-200, San Francisco, U.S.A. (März 1992) offenbart ist. Unter den richtig gesteuerten Umständen kann dieses Verfahren das Verstehen mit hoher Geschwindigkeit von der nahezu frei geäußerten Sprache durch Verwenden äußerst weniger Beschränkungen bezüglich der Art einer Sprachäußerung, die dem Anwender auferlegt werden, erreichen. Somit wird bei diesem ersten Ausführungsbeispiel dieses Verfahren eines kontinuierlichen Verstehens von Sprache basierend auf der Schlüsselwortgitterzerlegung in der Einheit zum Verstehen von Sprache 11 der Fig. 1 verwendet. Eine detaillierte Implementierung der Einheit zum Verstehen von Sprache 11 zum Realisieren dieses Verfahrens wird nun beschrieben werden.
Wie es in Fig. 2 gezeigt ist, weist die Einheit zum Verstehen von Sprache 11 dieses ersten Ausführungsbeispiels allgemein eine Schlüsselwort-Erfassungseinheit 21 und eine syntaktische und semantische Analyseeinheit 22 auf, wobei die Schlüsselwort-Erfassungseinheit 21 weiterhin den Sprachanalysierer 21a und einen Schlüsselwortentdecker 21b aufweist, während die syntaktische und semantische Analyseeinheit 22 weiterhin einen Satzanfangsstellendetektor 22a, einen Satzkandidatenanalysierer 22b, einen Satzendstellendetektor 22c und eine Satzkandidatentabelle 22d, auf die von allen des Satzanfangsstellendetektors 22a, des Satzkandidatenanalysierers 22b und des Satzendstellendetektors 22c zugreifbar ist, aufweist.
Die Schlüsselwort-Erfassungseinheit 21 führt den Schlüsselwortentdeckungsbetrieb wie folgt aus. Zuerst wird beim Sprachanalysierer 21a die eingegebene Sprache durch ein Tiefpaßfilter (nicht gezeigt) geführt und unter Verwendung der Abtastfrequenz von 12 KHz und der Quantisierung von 12 Bits A/D-gewandelt. Dann werden beim Sprachanalysierer 21a die Spektralanalyse und das Glätten im Frequenzbereich nach der schnellen Fouriertransformation an den erhaltenen digitalen Signalen ausgeführt, und dann wird das Sprachanalyseergebnis für jede Art ms unter Verwendung des 16-Kanal-Bandpaßfilters (nicht gezeigt) nach der logarithmischen Transformation erhalten. Dann wird beim Schlüsselwortentdecker 21b das bekannte Schlüsselwortentdeckungsverfahren auf das durch den Sprachanalyiserer 21a erhaltene Sprachanalyseergebnis angewendet. Hier kann beispielsweise das bekannte Schlüsselwortentdeckungsverfahren verwendet werden, wie beispielsweise dasjenige, das in Y. Takebayashi, H. Tsuboi und H. Kanazawa: "A Robust Speech Recognition System using Word-Spotting with Noise Immunity Learning", Proceedings of 1991 International Conference an Acoustics, Speed, and Signal Processing (ICASSP 91), S. 905-908, Toronto, Kanada (Mai 1991) offenbart ist.
Als Ergebnis dieses Schlüsselwortentdeckungsverfahrens beim Schlüsselwortentdecker 21b erhält die Schlüsselworterfassungseinheit 21 das Schlüsselwortgitter, das alle Schlüsselwortkandidaten von der kontinuierlichen eingegebenen Sprache aufreiht. Fig. 3 zeigt ein Beispiel des durch die Schlüsselworterfassungseinheit 21 erhaltenen Schlüsselwortgitters von der kontinuierlichen eingegebenen Sprache in japanisch äquivalent dem deutschen Satz "Drei Hamburger, Kaffees und Kartoffeln bitte", der in japanisch geäußert ist, wobei die schattierten Worte die in dieser kontinuierlichen eingegebenen Sprache erfaßten Schlüsselwörter sind. Hier ist zu beachten, daß es in dieser Fig. 3 eine Korrespondenz zwischen der in japanisch geäußerten kontinuierlichen eingegebenen Sprache, wie sie in Fig. 3 gezeigt ist, und den Schlüsselwörtern des Schlüsselwortgitters in japanischen Äquivalenten zu denjenigen, die in Fig. 3 gezeigt sind, gibt, und es folglich keine Korrespondenz zwischen der kontinuierlichen eingegebenen Sprache, wie sie in Fig. 3 gezeigt ist, und den Schlüsselwörtern des Schlüsselwortgitters, wie es in Fig. 3 gezeigt ist, gibt. Anders ausgedrückt wird das in Fig. 3 gezeigte Schlüsselwortgitter die japanischen Schlüsselwörter in der in japanisch geäußerten kontinuierlichen eingegebenen Sprache erhalten, und die deutschen Wörter, die im Schlüsselwortgitter der Fig. 3 erscheinen, sind direkte Übersetzungen der japanischen Schlüsselwörter. Folglich wird für die kontinuierliche eingegebene Sprache von "Drei Hamburger, Kaffees und Kartoffeln bitte", die in Deutsch geäußert ist, das in Deutsch ausgedrückte Schlüsselwortgitter das Aussehen annehmen, das sich wesentlich von demjenigen unterscheidet, das in Fig. 3 gezeigt ist.
Hier ist zu beachten, daß der oben beschriebene Betrieb der Schlüsselworterfassungseinheit 21 in einer Echtzeitverarbeitung realisiert werden kann, indem die durch die gegenwärtigen Erfinder vorgeschlagenen DSP-Karten verwendet werden.
Das durch die Schlüsselworterfassungseinheit 21 erhaltene Schlüsselwortgitter, wie es oben beschrieben ist, wird dann zur syntaktischen und semantischen Analyseeinheit 22 zugeführt, wobei jedes Schlüsselwort im Schlüsselwortgitter von links nach rechts analysiert wird, wie es folgt.
Zuerst bestimmt der Satzkandidatenanfangsstellendetektor 22a, ob jedes Schlüsselwort die Anfangssstelle eines Satzes sein kann, oder nicht, gemäß den vorgeschriebenen syntaktischen und semantischen Regeln. Wenn das Schlüsselwort derart bestimmt wird, daß es die Anfangsstelle eines Satzes sein kann, wird dieses Schlüsselwort in die Satzkandidatentabelle 22d als neuer Satzteilkandidat registriert.
Als nächstes bestimmt der Satzkandidatenanalysierer 22b, ob jedes durch den Satzanfangsstellendetektor 22a als neuer Satzteilkandidat registriertes Schlüsselwort mit irgendwelchen anderen Satzteilkandidaten verbunden werden kann, die bereits in der Satzkandidatentabelle 22d registriert sind, und zwar gemäß den vorgeschriebenen syntaktischen und semantischen Regeln, sowie gemäß Zeitgabebedingungen. Wenn der neue Satzteilkandidat derart bestimmt wird, daß er mit einem der anderen Satzteilkandidaten verbunden werden kann, wird der neue Satzteilkandidat mit demjenigen der anderen Satzteilkandidaten verbunden, und der verbundene Satzteilkandidat ersetzt den neuen Satzteilkandidaten und denjenigen der anderen Satzteilkandidaten in der Satzkandidatentabelle 22d.
Dann bestimmt der Satzkandidaten-Endstellendetektor 22c, ob jeder durch den Satzkandidatenanalysierer verarbeitete verbundene Satzteilkandidat als vollständiger Satz angesehen werden kann, gemäß den vorgeschriebenen syntaktischen und semantischen Regeln. Wenn der verbundene Satzteilkandidat derart bestimmt wird, daß er als vollständiger Satz angesehen werden kann, wird dieser verbundene Satzteilkandidat, der bereits syntaktisch und semantisch analysiert worden ist, als die semantische Äußerungsdarstellung für die bei der Schlüsselworterfassungseinheit 21 eingegebene Eingangssprache ausgegeben.
Diese Operationen in der syntaktischen und semantischen Analyseeinheit 22 sind in einem Pipeline-Verarbeitungsmode auszuführen, so daß die syntaktische und semantische Analyseeinheit 22 eine Vielzahl von semantischen Äußerungsdarstellungen für eine einzige eingegebene Sprache erhalten kann (siehe die vorgenannte Referenz von H. Tsuboi und Y. Takebayashi: "A Real-Time Task-Oriented Speech Understanding System Using Keyword Spotting", Proceedings'of 1992 International Conference on Acoustics, Speech, and Signal Processing (ICASSP 92), I-197 bis I-200, San Francisco, U.S.A. (März 1992 für weitere Details bezüglich der oben beschriebenen Operationen der Einheit zum Verstehen von Sprache 11.)
Bei diesem ersten Ausführungsbeispiel wird die durch die syntaktische und semantische Analyseeinheit 22 zu erhaltene semantische Äußerungsdarstellung in einem Frameformat A ausgedrückt, das in Fig. 4 gezeigt ist, und wenn dieses Sprachdialogsystem für eine Aufgabe zum Annehmen einer Bestellung in einem Schnellimbiß verwendet wird, weist die typische semantische Äußerungsdarstellung, die durch die syntaktische und semantische Analyseeinheit 22 zu erhalten ist, eine ACT-Frame-Registrierung einer Sprachaktion zum Anzeigen eines Typs zum Bestellen auf, die durch die eingegebene Sprache durchgeführt wird, und einen BESTELLUNGSTABELLEN-Frame, der eine Bestellungstabelle zum Anzeigen des Inhalts der durch die eingegebene Sprache durchgeführten Bestellung registriert.
Hier zeigt die im ACT-Frame registrierte Sprachaktion irgendeinen der vorbestimmten Typen von Bestellung an, wie beispielsweise "Bestellung", "Zusatz", "Löschung" und "Satz". Anderseits zeigt die im BESTELLUNGSTABELLEN-Frame registrierte Bestellungstabelle den Inhalt der Bestellung in einer Form einer Bestellungsliste mit Schlitzen fürbestellte Elemente, bestellte Größen und bestellte Mengen an.
Ebenso sind bei diesem Ausführungsbeispiel wenn dieses Sprachdialogsystem für eine Aufgabe zum Annehmen einer Bestellung in einem Schnellimbiß verwendet wird, die bei der Schlüsselworterfassungseinheit 21 zu erfassenden und beim Erhalten der semantischen Äußerungsdarstellung bei der syntaktischen und semantischen Analayseeinheit 22 verwendeten Schlüsselwörter so, wie sie in Fig. 5 aufgezählt sind. Es ist hier zu beachten, daß die in Fig. 5 aufgelisteten Schlüsselwörter unterschiedliche Ausdrücke für die identische Bedeutung enthalten, wie beispielsweise "JA" und "YEAH", und daß diese semantisch äquivalenten Ausdrücke als dasselbe Konzept in der semantischen Äußerungsdarstellung in dieser Einheit zum Verstehen von Sprache 11 behandelt werden. Daher kommt es, daß das durch die Einheit zum Verstehen von Sprache 11 dieses ersten Ausführungsbeispiels durchzuführende Verstehen von Sprache wesentlich unterschiedlich von der normalen Spracherkennung ist, und aus diesem Grund ist es für die Einheit zum Verstehen von Sprache 11 dieses ersten Ausführungsbeispiels erforderlich, daß sie das Verstehen von aufgabenorientierter Sprache basierend auf der speziellen Kenntnis des spezifischen Anwendungsgebiets realisieren kann.
Zusätzlich wird bei dem Schlüsselwortentdecker 21b die Sprachgeschwindigkeit eines Anwenders gemäß den entdeckten Schlüsselwörtern und ihrer Anfangs- und Endstellen gemessen. Die gemessene Sprachgeschwindigkeit eines Anwenders wird darauffolgend zur Antworterzeugungseinheit 13 übertragen, um die Antwort-Sprachgeschwindigkeit zu steuern, wie es nachfolgend detailliert beschrieben wird.
Weiterhin ordnet die Einheit zum Verstehen von Sprache 11 jedem Schlüsselwort die Wahrscheinlichkeit zu, das durch die Schlüsselwortentdeckungsoperation erhalten wird, welche darauffolgend zur Antworterzeugungseinheit 13 übertragen wird, um das Sprachantwortmuster zu bestimmen, wie es nachfolgend detailliert beschrieben wird.

2.2 Dialogmanagementeinheit 12

Die semantische Äußerungsdarstellung, wie beispielsweise diejenige, die in Fig. 4 gezeigt ist, und die oben beschrieben ist, wird zur Dialogmanagementeinheit 12 zugeführt, und die Dialogmanagementeinheit 12 für die semantische Bestimmung des Antwortausgabeinhalts gemäß der zugeführten semantischen Äußerungsdarstellung durch Verwenden einer Dialogvorgeschichte, eines aktuellen Dialogzustands, eines Dialogmanagementverfahrens und einer Kenntnis über ein spezielles Anwendungsgebiet durch.
Die Dialogmanagementeinheit 12 führt dann die bestimmte Antwortausgabe-Inhaltsinformation zur Anworterzeugungseinheit 13 in einer Form einer semantischen Antwortdarstellung zu, die in einem Frameformat ausgedrückt wird, das gleich der semantischen Äußerungsdarstellung ist, die von der Einheit zum Verstehen von Sprache 11 zugeführt wird. Das bedeutet, daß, wie es in Fig. 6 gezeigt ist, die durch die Dialogmanagementeinheit 12 zu erhaltende semantische Antwortdarstellung einen ACT-Frame aufweist, der eine Antwortaktion zum Anzeigen eines Typs einer Systemantwort registriert, die durchzuführen ist, und einen BESTELLUNGSTABELLEN-Frame, der eine Bestellungstabelle zum Anzeigen des Inhalts der Antwortausgabe, die auszugeben ist, registriert. Diese semantische Antwortdarstellung der Fig. 6 dient zur Bestätigung der durch den Anwender durchgeführten Bestellung, so daß der ACT-Frame diese "Bestätigungs"- Operation anzeigt, während der BESTELLUNGSTABELLEN-Frame den Inhalt der durch die eingegebene Sprache durchgeführten Bestellung anzeigt.
Bei diesem ersten Ausführungsbeispiel speichert die Dialogmanagementeinheit 12 eine Bestellungstabelle, wie sie in Fig. 7 gezeigt ist, und eine vergangene Bestellungstabelle, wie sie in Fig. 8 gezeigt ist, getrennt. Hier zeigt die in Fig. 7 gezeigte Bestellungstabelle den Inhalt der durch die eingegebene Sprache durchgeführten Bestellung an, wie sie vom System bei einem jeweiligen Moment während der Operation zum Annehmen einer Bestellung verstanden wird, und zwar in einer Form einer Bestellungsliste, die gleich dem BESTELLUNGSTABELLEN-Frame der semantischen Antwortdarstellung ist, und diese Bestellungstabelle ist gemäß den ACT-Frame und dem BESTELLUNGSTABELLEN-Frame der semantischen Äußerungsdarstellung zu aktualisieren, die von der Einheit zum Verstehen von Sprache 11 zugeführt wird. Andererseits zeigt die in Fig. 8 gezeigte vergangene Bestellungstabelle die Bestellungstabelle zu einer Zeit einer Ausgabe der vorherigen Systemantwort an, d. h. den Inhalt der Bestellung, die bis zu einer Ausgabe der vorherigen Systemantwort angenommen ist. Diese vergangene Bestellungstabelle der Fig. 8 wird als die Dialogvorgeschichte verwendet, die die Änderung der Bestellungstabelle im Verlauf der Operation zum Annehmen einer Bestellung anzeigt.
Zusätzlich bestimmt die Dialogmanagementeinheit 12 auch eine Dialogzustandsinformation, die einen aktuellen Zustand des Dialogs zwischen dem Anwender und dem System anzeigt, und zwar gemäß der Dialogvorgeschichte und dem aktuellen Systemzustand, welcher durch die Antworterzeugungseinheit 13 als Teil der menschlichen Charakterbildinformation darauffolgend zu verwenden ist.
Somit führt die Dialogmanagementeinheit 12 die semantische Bestimmung des Antwortausgabeinhalts gemäß der zugeführten semantischen Äußerungsdarstellung, der durch die vergangene Bestellungstabelle angezeigten Dialogvorgeschichte und des durch die Dialogzustandsinformation angezeigten aktuellen Dialogzustands durch, um den Antwortausgabeinhalt in einer Form der semantischen Antwortdarstellung zu erhalten, die einen Typ einer Systemantwort anzeigt, die durchzuführen ist, und den Inhalt der Antwortausgabe, die auszugeben ist.
Die Dialogmanagementeinheit 12 managt auch das Fortschreiten des Dialogs zwischen dem System und dem Anwender gemäß dem in Fig. 9 gezeigten Zustandsübergangsdiagramm.
Das bedeutet, daß der interne Zustand der Dialogmanagementeinheit 12 in zwei Kategorien des Systemzustands 71 und des Anwenderzustands 72 klassifiziert wird, so daß das Fortschreiten des Dialogs als die Übergänge zwischen dem Systemzustand 71 und dem Anwenderzustand 72 gemanagt werden kann. Im Anwenderzustand 72 wird der Übergang zum Systemzustand 71 gemäß der von der durch den Anwender geäußerten eingegebenen Sprache erhaltenen semantischen Äußerungsdarstellung durchgeführt. Andererseits wird im Systemzustand 71 die Bestellungstabelle gemäß der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung aktualisiert, und die geeignete semantische Antwortdarstellung wird ausgegeben, um ein weiteres Fortschreiten im Dialog durchzuführen, und dann wird der Übergang zum Anwenderzustand 72 durchgeführt. Auf diese Weise eines Managens des Fortschreitens des Dialogs als die Übergänge zwischen zwei Zuständen wird es für die Dialogmanagementeinheit 12 möglich, das flexible Management des Dialogs zwischen dem System und dem Anwender zu realisieren.
Hier ist die oben beschriebene Dialogzustands- Pufferinformation in Ausdrücken eines Labels bzw. Zeichens eines gerade arbeitenden aktuellen Zustands, eines Labels eines nächsten Zustands zum Durchführen eines Übergangs vom aktuellen Zustand und einer Anzahl an Wiederholungen für einen wiederholten Teil des Dialogs gegeben. Diese Dialogzustandsinformation wird darauffolgend durch die Antworterzeugungseinheit 13 als Teil der menschlichen Charakterbildinformation zum Bestimmen der Bewegung und des Gesichtsausdrucks des menschlichen Charakterbildes, das anzuzeigen ist, und des emotionalen Ausdrucks und der Intonation der Sprachantwort, die auszugeben ist, verwendet.
Im Zustandsübergangsdiagramm der Fig. 9 beginnt der Dialog zuerst, wenn das Vorhandensein des Anwenders durch Verwenden einer Anwendererfassungsvorrichtung (nicht gezeigt), wie beispielsweise einer mit einem Drucksensor oder einer Überwachungskamera ausgestatteten Bodenmatte, erkannt wird, vom anfänglichen Systemzustand S0, in welchem die Dialogmanagementeinheit 12 die semantische Antwortdarstellung bezüglich des anfänglichen Grüßens und der Anfrage zum Durchführen einer Bestellung zur Antworterzeugungseinheit 13 ausgibt, und der Übergang zum anfänglichen Anwenderzustand U0 wird durchgeführt. Wenn dieser Übergang vom anfänglichen Systemzustand S0 zum anfänglichen Anwenderzustand U0 durchgeführt wird, werden die Bestellungstabelle und die vergangene Bestellungstabelle initialisiert, und die Dialogzustandsinformation wird in der Dialogmanagementeinheit 12 bestimmt. In Antwort auf diese Ausgabe der semantischen Antwortdarstellung von der Dialogmanagementeinheit 12 erzeugt die Antworterzeugungseinheit 13 die geeignete Antwortausgabe gemäß der von der Dialogmanagementeinheit 12 zugeführten semantischen Antwortdarstellung, dem Dialogzustand, dem aktuellen Systemzustand, der Dialogvorgeschichte und der Bestellungstabelle.
Beim anfänglichen Anwenderzustand U0 erfolgt dann, wenn die im ACT-Frame der von der Einheit zum Verstehen von Sprache 11 zugeführte semantische Äußerungsdarstellung registrierte Sprachaktion "Bestellung" anzeigt, der Übergang zum Dialog im Systemzustand SP, der gerade arbeitet, gemäß einem normalen Verfahren zum Annehmen einer Bestellung. In diesem Fall werden für die durch die erwartete Anwenderäußerung durchgeführte nachfolgende eingegebene Sprache die Übergänge zwischen dem Dialog im Systemzustand SP, das gerade in Arbeit ist, und dem Dialog im Anwenderzustand UP, der gerade in Arbeit ist, so viele Male durchgeführt, wie es nötig ist, und zwar in einer Form von Austauschen der erwarteten Anwenderäußerungen vom Anwender und der entsprechenden Bestätigungsantworten vom System.
Andererseits wird dann, wenn die im ACT-Frame der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung registrierte Sprachaktion etwas anderes als "Bestellung" anzeigt, die eingegebene Sprache in diesem Fall als eine unerwartete Anwenderäußerung angesehen, und der Übergang zum Dialogkorrektursystemzustand S10 wird durchgeführt.
In diesem Fall gibt die Dialogmanagementeinheit 12 die semantische Antwortdarstellung aus, die die geeignete Antwort anzeigt, um den Empfang der unerwarteten Anwenderäußerung oder den Fehler des geeigneten Empfangs der Anwenderäußerung mitzuteilen, oder die Detailbestätigung der bestellten Elemente eines nach dem anderen, und zwar gemäß der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung, der Bestellungstabelle und der Dialogvorgeschichte. IN Antwort auf diese Ausgabe der semantischen Antwortdarstellung von der Dialogmanagementeinheit 12 erzeugt die Antworterzeugungseinheit 13 die geeignete Antwortausgabe gemäß der von der Dialogmanagementeinheit 12 zugeführten semantischen Antwortdarstellung, dem Dialogzustand, dem aktuellen Systemzustand, der Dialogvorgeschichte und der Bestellungstabelle.
Möglicherweise wird dann, wenn das Verfahren zum Annehmen einer Bestellung beendet ist, wenn die Äußerung eines Anwenders für die Bestätigung der gesamten Bestellungen empfangen wird, der Übergang vom Anwenderzustand UP eines Dialogs, der gerade in Arbeit ist, zum Endsystemzustand S9 durchgeführt und wird der Dialog beendet.
Detaillierter wird der Betrieb im Anwenderzustand 72 gemäß dem Ablaufdiagramm der Fig. 10 ausgeführt, wie es folgt.
Das bedeutet, daß zuerst bei einem Schritt S81 eine Vielzahl der semantischen Äußerungsdarstellungskandidaten von der Einheit zum Verstehen von Sprache 11 eingegeben wird. Dann wird beim Schritt S82 die Interferenz der nichtspezifizierten Teile in den beim Schritt S81 eingegebenen semantischen Äußerungsdarstellungskandidaten unter Verwendung der zuvor erhaltenen semantischen Antwortdarstellung ausgeführt.
Dann wird beim Schritt S83 das Zählen bzw. Markieren zum Bewerten der Wahrscheinlichkeit jedes der semantischen Äußerungsdarstellungskandidaten durchgeführt, und beim Schritt S84 wird einer der semantischen Äußerungsdarstellungskandidaten mit der höchsten Zahl als die semantische Äußerungsdarstellung ausgewählt.
Dann wird beim Schritt S85 die geeignete Sprachaktion, die im ACT-Frame der beim Schritt S84 ausgewählten semantischen Äußerungsdarstellung zu registrieren ist, bestimmt, und beim Schritt S86 wird gemäß der beim Schritt S85 bestimmten geeigneten Sprachaktion der Übergang zum Systemzustand durchgeführt.
Andererseits wird der Betrieb im Systemzustand 71 gemäß dem Ablaufdiagramm der Fig. 11 ausgeführt, wie es folgt.
Das bedeutet, daß zuerst beim Schritt S91 die Bestellungstabelle gemäß der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Äußerungsdarstellung aktualisiert wird, und beim Schritt S92 die semantische Antwortdarstellung gemäß dem aktuellen Systemzustand erzeugt wird.
Dann wird beim Schritt S93 die geeignete Antwortausgabe von der Antworterzeugungseinheit 13 ausgegeben, und beim Schritt S94 wird der Übergang zum Anwenderzustand 72 durchgeführt.
Somit kann bei dieser Dialogmanagementeinheit 12 das flexible Management des Dialogs zwischen dem System und dem Anwender durch Verwenden der verschiedenen Informationen, wie beispielsweise des Dialogzustands, des aktuellen Systemzustands und der Dialogvorgeschichte, zur Zeit eines Übergangs zwischen dem Systemzustand 71 und dem Anwenderzustand 72 realisiert werden.
Nun wird der oben beschriebene Betrieb der Dialogmanagementeinheit 12 unter Verwendung eines konkreten Beispiels dargestellt werden.
Hier ist ein zu verwendendes Beispiel ein Fall, bei welchem die Dialogmanagementeinheit 12 die semantische Antwortdarstellung erhielt, wie sie in Fig. 12A gezeigt ist, und die Bestellungstabelle, wie sie in Fig. 12B gezeigt ist, und zwar in Antwort auf die eingegebene Sprache vom Anwender.
In diesem Fall wird die multimodale Antwortausgabe so erzeugt, daß die Sprachantwort für die Bestätigungsnachricht von "Ihre Bestellungen sind ein Hamburger, zwei Kaffee und vier große Colas, richtig?", wie es in Fig. 12C gezeigt ist, von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Bestätigungsnachricht, das menschliche Charakterbild zum Ausgeben dieser Bestätigungsnachricht und das Inhaltsvisualisierungsbild einschließlich der Bilder der bestellten Elemente, begleitet von den Zahlen, die die bestellten Mengen anzeigen, auf der Anzeigeeinheit 14 angezeigt werden.
Dann erhält, wenn der Anwender die eingegebene Sprache von "Füge ein Cola mehr hinzu, bitte.", wie es in Fig. 12C gezeigt ist, in Antwort auf diese Bestätigungsnachricht eingibt, die Einheit zum Verstehen von Sprache 11 zwei semantische Äußerungsdarstellungskandidaten Nr. 1 und Nr. 2, die in Fig. 12D und in Fig. 12E gezeigt sind, indem die Schlüsselworterfassung und die Schlüsselwortgitterzerlegung ausgeführt wird, wie es oben beschrieben ist.
Hier sind den semantischen Äußerungsdarstellungskandidaten Nr. 1 und Nr. 2 jeweils die Zahlen bzw. Markierungen D1 und D2 zugeordnet, um ihre Wahrscheinlichkeit anzuzeigen, und diese semantischen Äußerungsdarstellungskandidaten sind in einer Reihenfolge der zugeordneten Markierungen angeordnet. Bei diesem Beispiel hat der semantische Äußerungsdarstellungskandidat Nr. 1 den ACT-Frame, der die Sprachaktion von "Hinzufügen" registriert, und den BESTELLUNGSTABELLEN-Frame, der die Bestellungstabelle von einem Cola einer nicht spezifizierten Größe registriert, während der semantische Äußerungsdarstellungskandidat Nr. 2 den ACT-Frame hat, der die Sprachaktion von "Löschen" registriert, und den BESTELLUNGSTABELLEN-Frame, der die Bestellungstabelle von zwei großen Kartoffeln registriert.
Dann wird im Anwenderzustand der Prozeß gemäß dem Ablaufdiagramm der Fig. 13 ausgeführt, wie es folgt.
Das bedeutet, daß für den semantischen Äußerungsdarstellungskandidaten Nr. 1 zuerst beim Schritt 5111 die Interferenz der nicht spezifizierten Teile für die nicht spezifizierte Größe der bestellten einen Cola durch Schauen auf die Größe der Cola, die in der semantischen Antwortdarstellung der Fig. 12A spezifiziert ist, unter der Annahme durchgeführt wird, daß die Größe bei dieser Zusatzbestellung dieselbe wie diejenige bei der ursprünglichen Bestellung ist.
Dann wird beim Schritt S112 die Konsistenz der Zusatzbestellung, die durch den semantischen Äußerungsdarstellungskandidaten Nr. 1 durchgeführt wird, durch Heraussuchen der Inkonsistenz zwischen der Bestellungstabelle, die in Fig. 12B gezeigt ist, und dem semantischen Äußerungsdarstellungskandidaten Nr. 1, der in Fig. 12D gezeigt ist, geprüft. In diesem Fall gibt es keine Inkonsistenz zwischen der in Fig. 12B gezeigten Bestellungstabelle und dem in Fig. 12D gezeigten semantischen Äußerungsdarstellungskandidaten Nr. 1, so daß die Markierung D1 des semantischen Äußerungsdarstellungskandidaten Nr. 1 dadurch unverändert gelassen wird, daß er zu einer neuen Markierung D1' = D1 aktualisiert wird.
Gleichermaßen wird für den semantischen Äußerungsdarstellungskandidaten Nr. 2 zuerst beim Schritt 5113 die Interferenz der nicht spezifizierten Teile durchgeführt. Bei diesem Beispiel gibt es jedoch keine nicht spezifizierten Teile im semantischen Äußerungsdarstellungskandidaten Nr. 2, so daß die Interferenz tatsächlich nicht durchgeführt wird und der Prozeß zum nächsten Schritt S114 weitergeht.
Dann wird, genau wie beim Schritt S112, als nächstes beim Schritt S114 die Konsistenz der Löschbestellung, die durch den semantischen Äußerungsdarstellungskandidaten Nr. 2 durchgeführt ist, durch Heraussuchen der Inkonsistenz zwischen der in Fig. 2B gezeigten Bestellungstabelle und dem in Fig. 12E gezeigten semantischen Äußerungsdarstellungskandidaten Nr. 2 geprüft. IN diesem Fall gibt es eine Inkonsistenz zwischen der in Fig. 12B gezeigten Bestellungstabelle und dem in Fig. 12E gezeigten semantischen Äußerungsdarstellungskandidaten Nr. 2 diesbezüglich, daß die Löschung von zwei großen Kartoffeln durch den semantischen Äußerungsdarstellungskandidaten Nr. 2 angezeigt wird, während es keine Kartoffel in der ursprünglichen Bestellungstabelle gibt. Folglich wird die Markierung D2 des semantischen Äußerungsdarstellungskandidaten Nr. 2 zu einer neuen Markierung D2' = D2 · α (α < 1.0) aktualisiert ist, welche kleiner als die ursprüngliche Markierung D2 ist.
Als nächstes werden beim Schritt S115 die aktualisierten Markierungen D1' und D2' der semantischen Äußerungsdarstellungskandidaten Nr. 1 und Nr. 2 die jeweils bei den Schritten 5112 und 5114 erhalten werden, verglichen, um den semantischen Äußerungsdarstellungskandidaten mit der höchsten Markierung bzw. Zahl auszuwählen, welches in diesem Fall, wenn D1' > D2' gilt, der semantische Äußerungsdarstellungskandidat Nr. 1 ist.
Dann wird beim Schritt S116 die im ACT-Frame der semantischen Äußerungsdarstellung zu registrierende Sprachaktion als "Hinzufügung" bestimmt, und zwar gemäß der Auswahl des semantischen Äußerungsdarstellungskandidaten Nr. 1 als die semantische Äußerungsdarstellung beim Schritt S115.
Schließlich wird beim Schritt S117 der Übergang zum Zusatzbestätigungssystemzustand SA durchgeführt.
Im Zusatzbestätigungssystemzustand SA wird der Prozeß gemäß dem Ablaufdiagramm der Fig. 14 ausgeführt, wie es folgt.
Das bedeutet, daß zuerst beim Schritt S121 die Addition bzw. das Hinzufügen einer großen Cola zur Bestellungstabelle gemäß der semantischen Äußerungsdarstellung für diesen in Fig. 15A gezeigten Zusatz durchgeführt wird.
Dann wird beim Schritt S122 die semantische Antwortdarstellung zum Ausgeben einer Bestätigungsnachricht für diesen Zustand durch Auswählen einer geeigneten Antwortaktion, die im ACT-Frame von der in Fig. 15B gezeigten Antwortaktionsliste zu registrieren ist, erhalten. In diesem Fall wird die "Zusatzbestätigung" als die geeignete Antwortaktion entsprechend der Sprachaktion von "Zusatz" in der in Fig. 15A gezeigten semantischen Äußerungsdarstellung ausgewählt, um die in Fig. 15C gezeigte semantische Antwortdarstellung zu erhalten.
Dann wird beim Schritt S123 die geeignete Antwortausgabe von der Antworterzeugungseinheit 13 ausgegeben. In diesem Fall wird die Sprachantwort von "Lassen Sie mich bestätigen. Sie wünschen, eine große Cola hinzuzufügen, richtig?" ausgegeben.
Schließlich wird beim Schritt S124 der Übergang zum Zusatzbestätigungs-Anwenderzustand UA durchgeführt.
Die Beispiele anderer Systemsprachantworten für einen Bestätigungsbetrieb in Fällen der anderen Antwortaktionen sind in Fig. 16 aufgelistet.
Die Dialogmanagementeinheit 12 gibt die semantische Antwortdarstellung, die auf eine Weise erhalten wird, die oben beschrieben ist, zur Antworterzeugungseinheit 13 zusammen mit der Sprachgeschwindigkeit eines Anwenders und der Wahrscheinlichkeit jedes in der von der Einheit zum Verstehen von Sprache 11 zugeführten semantischen Antwortdarstellung verwendeten Schlüsselwort aus.
Hier wird die Sprachgeschwindigkeit des Anwenders als Durchschnittszahl von mehreren pro Sekunden erhalten, wie es folgt. Das bedeutet, daß dann, wenn die eingegebene Sprache drei Schlüsselwörter von "Hamburger", "Kartoffel" und "bitte" enthält, wie es in Fig. 17 gezeigt ist, die mehreren Zahlen dieser Schlüsselwörter jeweils als 6, 3 und 4 bestimmt werden können, wie es in Fig. 17 gezeigt ist, wenn diese Schlüsselwörter jeweils mit den Anfangs- und Endstellen von t1 und t2, t3 und t4 und t5 und t6 beim Schlüsselwortentdecker 21b in der Schlüsselworterfassungseinheit 21 der Einheit zum Verstehen von Sprache 11 entdeckt werden. Dann kann aus diesen mehreren Zahlen die Sprachgeschwindigkeit eines Anwenders als Durchschnittszahl von mehreren pro Sekunde für diese drei Schlüsselwörter bestimmt werden, die gegeben sind durch:
{6((t2-t1) + 3/(t4-t3) + 4/(t6-t5)}/3
Somit wird die in der Dialogmanagementeinheit 12 erhaltene semantische Antwortdarstellung zusammen mit der Sprachgeschwindigkeit des Anwenders und der Wahrscheinlichkeit jedes in der semantischen Antwortdarstellung verwendeten Schlüsselworts in einer Form, wie sie in Fig. 18 gezeigt ist, zur Antworterzeugungseinheit 13 ausgegeben.

2.3 Antworterzeugungseinheit 13

Die Antworterzeugungseinheit 13 erzeugt die Sprachantwort und die visuelle Antwort einschließlich der Textdaten, des menschlichen Charakterbildes und des Inhaltsvisualisierungsbildes gemäß der Antwortausgabe- Inhaltsinformation, die von der Dialogmanagementeinheit 12 zugeführt wird, einschließlich der semantischen Antwortdarstellung, der durch die Dialogzustandsinformation und die Dialogvorgeschichteninformation gebildeten menschlichen Charakterbildinformation und der von der Dialogmanagementeinheit 12 zugeführten Inhaltsvisualisierungsbildinformation.
Hier werden die Sprachantwort und das menschliche Charakterbild mit der Sprachcharakteristik und dem menschlichen Charakterbildmerkmal erzeugt, die gemäß der semantischen Antwortdarstellung und der menschlichen Charakterbildinformation bestimmt werden, die von der Dialogmanagementeinheit 12 zugeführt werden, um den aktuellen Zustand des Dialogs zu berücksichtigen. Zusätzlich wird das Inhaltsvisualisierungsbild, das den wesentlichen Inhalt der Sprachantwort visualisiert, zum Unterstützen des richtigen Verstehens der Systemantwort durch den Anwender geliefert.
Detaillierter hat diese Antworterzeugungseinheit 13 eine Konfiguration, wie sie in Fig. 19 gezeigt ist.
Bei dieser Konfiguration der Fig. 19 weist die Antworterzeugungseinheit 13 folgendes auf: eine Antwortsatz- Erzeugungseinheit 131; eine Einheit zur Bestimmung menschlicher Charaktermerkmale 132; eine Einheit zur Erzeugung eines menschlichen Charakterbildes 133; eine Einheit zur Bestimmung von Sprachcharakteristiken 134; eine Einheit zur Erzeugung einer Sprachantwort 135; eine Einheit zur Erzeugung eines Inhaltsvisualisierungsbildes 136; und eine Antwortausgabe-Steuereinheit 137.
Die Antwortsatz-Erzeugungseinheit 131 erzeugt die Antwortsatz-Textdaten und die Antwortsatz-Strukturdaten für die Sprachantwort gemäß der semantischen Antwortdarstellung und der menschlichen Charakterbildinformation, die von der Dialogmanagementeinheit 12 zugeführt werden. Die erzeugten Antwortsatz-Textdaten und Antwortsatz-Strukturdaten werden zur Einheit zur Bestimmung von Sprachcharakteristiken 134 zugeführt, während die erzeugten Antwortsatz-Textdaten zur Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 und zur Antwortausgabe-Steuereinheit 137 zugeführt werden.
Die Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 bestimmt die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes, um die Sprachantwort gemäß den bei der Antwortsatz-Erzeugungseinheit 131 erzeugten Antwortsatz-Textdaten und der von der Dialogmanagementeinheit 12 zugeführten menschlichen Charakterbildinformation auszugeben. Die bestimmte Bewegung und der bestimmte Gesichtsausdruck des menschlichen Charakterbildes werden zur Einheit zur Erzeugung eines menschlichen Charakterbildes 133 zugeführt.
Die Einheit zur Erzeugung eines menschlichen Charakterbildes 133 erzeugt das auf der Anzeigeeinheit 14 anzuzeigende menschliche Charakterbild gemäß der Bewegung und dem Gesichtsausdruck des bei der Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 bestimmten menschlichen Charakterbildes. Das erzeugte menschliche Charakterbild wird zur Antwortausgabe-Steuereinheit 137 zugeführt.
Die Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmt den emotionalen Ausdruck und die Intonation der Sprachantwort gemäß den Antwortsatz-Textdaten und den Antwortsatz-Strukturdaten, die bei der Antwortsatz- Erzeugungseinheit 131 erzeugt werden, und der menschlichen Charakterbildinformation, die von der Dialogmanagementeinheit 12 zugeführt wird. Der bestimmte emotionale Ausdruck und die bestimmte Intonation der Antwortsprache werden zur Sprachantwort-Erzeugungseinheit 135 zugeführt.
Die Sprachantwort-Erzeugungseinheit 135 erzeugt die Sprachantwort, die von der Lautsprechereinheit 15 auszugeben ist, gemäß den bei der Antwortsatz-Erzeugungseinheit 131 erzeugten Antwortsatz-Textdaten und dem emotionalen Ausdruck und der Intonation der bei der Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmten Sprachantwort. Die erzeugte Sprachantwort wird zur Antwortausgabe-Steuereinheit 137 zugeführt.
Die Einheit zur Erzeugung eines Inhaltsvisualisierungsbildes 136 erzeugt das Inhaltsvisualisierungsbild gemäß der Inhaltsvisualisierungsbildinformation, die von der Dialogmanagementeinheit 12 zugeführt wird. Das erzeugte Inhaltsvisualisierungsbild wird zur Antwortausgabe- Steuereinheit 137 zugeführt.
Die Antwortausgabe-Steuereinheit 137 gibt die empfangene Sprachantwort zur Lautsprechereinheit 15 aus, und die empfangenen Antwortsatz-Textdaten, das menschliche Charakterbild und das Inhaltsvisualisierungsbild zur Anzeigeeinheit 14, während die Ausgabezeitgaben für diese Audioinformation und diese visuelle Information gesteuert werden.
Hier enthält die von der Dialogmanagementeinheit 12 zugeführte semantische Antwortdarstellung den "Act"-Frame, der den Typ der bei der Antworterzeugungseinheit 13 zu erzeugenden Antwort anzeigt, wie es oben beschrieben ist.
Die von der Dialogmanagementeinheit 12 zugeführte menschliche Charakterbildinformation zeigt die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes an, das auf der Anzeigeeinheit 14 anzuzeigen ist, und den emotionalen Ausdruck und die Intonation der Sprachantwort, die von der Lautsprechereinheit 15 auszugeben ist. Bei diesem ersten Ausführungsbeispiel ist die menschliche Charakterbildinformation in einer Form gegeben, die in Fig. 20 gezeigt ist, welche die Label des Systemzustands und des Anwenderzustands zu einer Zeit enthält, zu welcher die zur Antworterzeugungseinheit 13 zugeführte semantische Antwortdarstellung in der Dialogmanagementeinheit 12 erzeugt wird, die Anzahl von Wiederholungen N für einen wiederholten Teil des Dialogs, wie beispielsweise einen Teil, der das wiederholte Fragen oder die wiederholte Bestätigung erfordert, den betonenden Ausdruck in der semantischen Antwortdarstellung, die durch die Dialogmanagementeinheit 12 bestimmt wird, um betont zu werden, um die feste Bestätigung zum Anwender zu erzwingen, und die Wahrscheinlichkeit D, die der semantischen Antwortdarstellung bei einem Prozeß zum Erhalten der semantischen Antwortdarstellung bei der Dialogmanagementeinheit 12 von den semantischen Äußerungsdarstellungskandidaten gemäß ihrer Zahlen zugeordnet ist, wie es oben beschrieben ist, was dasselbe wie die Zahl ist, die der ausgewählten semantischen Äußerungsdarstellung zugeordnet ist, und was die Wahrscheinlichkeit der zu korrigierenden semantischen Antwortdarstellung anzeigt. In Fig. 20 stellen die Label für den Systemzustand und den Anwenderzustand, wie beispielsweise SP1 und UP3, einen Zustand im Ensemble eines Zustands- und eines Anwenderdialogs bei jeweiligen Fortschreitungszuständen SP und UP dar, die in der Fig. 9 verwendet sind, die oben beschrieben ist.
Nun arbeitet in weiterem Detail jedes der Elemente der in Fig. 19 gezeigten Antworterzeugungseinheit 13 wie folgt.
Die Antwortsatz-Erzeugungseinheit 131 erzeugt die Antwortsatz-Textdaten und die Antwortsatz-Strukturdaten für die Sprachantwort unter Verwendung irgendeines des Verfahrens zur Satzerzeugung unter Verwendung vorbestimmter Überschreibregeln, des Verfahrens zur Satzerzeugung durch ein Auffüllen von Leerzeichen, des Verfahrens einer Satzsynthese unter Verwendung von Baumstrukturen und des Verfahrens einer Satzsynthese unter Verwendung der semantischen Strukturen. Im folgenden wird ein Fall eines Verwendens des Verfahrens zur Satzerzeugung durch Auffüllen von Leerzeichen detailliert als Beispiel beschrieben werden.
In diesem Fall wird die Erzeugung des Antwortsatzes durch Liefern eines vorgeschriebenen Antwortsatzmusters mit aufzufüllenden Leerzeichen für die Menge, die Größe und das Element, die in der semantischen Antwortdarstellung erscheinen, für jeden "Act"-Frame-Eintrag erreicht, wie es in Fig. 21 gezeigt ist. Dann kann das Auffüllen der Leerzeichen gemäß der semantischen Antwortdarstellung gemäß dem Ablaufdiagramm der Fig. 22A ausgeführt werden, wie es folgt.
Zuerst wird beim Schritt S141 eine Variable n zum Anzeigen einer Anzahl von Ausführungen des Prozesses anfangs auf Null eingestellt, und beim Schritt S142 wird eine Anzahl von Elementen, die bei der semantischen Antwortdarstellung beteiligt sind, auf eine Variable M eingestellt. Wenn die in Fig. 22B gezeigte semantische Antwortdarstellung verwendet wird, ist die auf die Variable M eingestellte Zahl zwei.
Dann werden beim Schritt S143 das Element, die Größe und die Menge für eines der Elemente, die bei der semantischen Antwortdarstellung beteiligt sind, in das vorgeschriebenen Antwortsatzmuster für den "Act"-Frameeintrag eingefüllt, der in der semantischen Antwortdarstellung angezeigt ist, wie beispielsweise derjenigen, die in Fig. 22C gezeigt, und zwar für die semantische Antwortdarstellung der Fig. 22B.
Dann wird beim Schritt S144 die Variable n um eins erhöht, und die Schritte 5143 und 5144 werden wiederholt, bis die beim Schritt S144 erhaltene Variable n beim Schritt S145 die Variable M übersteigt.
Als Ergebnis kann für die semantische Antwortdarstellung der Fig. 22B und das Antwortsatzmuster der Fig. 22C der Antwortsatz von "Lassen Sie mich bestätigen. Ihre Bestellungen sind eine große Cola und drei kleine Kartoffeln, richtig?" erhalten werden, wie es in Fig. 22D gezeigt ist.
Die Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 bestimmt die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes zum Ausgeben der Sprachantwort. Hier hat die Einheit zur Bestimmung von menschlichen Charaktermerkmalen 132 eine Tabelle, wie sie in Fig. 23 gezeigt ist, welche die Label des Systemzustands und des Anwenderzustands enthält, die Anzahl von Wiederholungen N und die Wahrscheinlichkeit D, welche von der menschlichen Charakterbildinformation erhalten werden, die von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit dem vorbestimmten Typ des menschlichen Charakterbildes, der die erwünschte Bewegung des menschlichen Charakterbildes und den vorbestimmten Gesichtsausdruck des menschlichen Charakterbildes für jede Gruppe der menschlichen Charakterbildinformation anzeigt. Beispielsweise wird das menschliche Charakterbild zum Ausgeben der Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die kleiner als zwei ist, und der Wahrscheinlichkeit D, die nicht kleiner als 0,7 ist, den normalen Gesichtsausdruck haben, und das menschliche Charakterbild zum Ausgeben der Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die weniger als zwei sind, und der Wahrscheinlichkeit D, die kleiner als 0,7 ist, wird den verlegenen Gesichtsausdruck haben, während das menschliche Charakterbild zum Ausgeben der Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die mehr als zwei sind, den bedauernden Gesichtsausdruck haben wird, usw.
Die Einheit zur Erzeugung des menschlichen Charakterbildes 133 erzeugt das menschliche Charakterbild, das die Bewegung und den Gesichtsausdruck des menschlichen Charakterbildes enthält, das bei der Einheit zur Bestimmung des menschlichen Charaktermerkmals 132 bestimmt ist, sowie die geeignete Steuerung der Anzeigezeit sowie die temporale Änderung des menschlichen Charakterbildes. Hier enthält das menschliche Charakterbild die Lippenbewegungen entsprechend der von der Lautsprechereinheit 15 ausgegebenen Sprachantwort und die Verbeugungsbewegung im Fall eines Grüßens. Aus diesem Grund ist in einem Fall eines Verwendens von stehenden Bildern eines Vielzahl von menschlichen Charakterbildern, die aufeinanderfolgend anzuzeigen sind, im Voraus vorbereitet, während in einem Fall eines Verwendens des animierten Bildes das animierte Bild, das die geeignete Bewegung und den Gesichtsausdruck enthält, im Voraus vorbereitet ist. Ebenso kann durch Verwenden der Computergraphiktechniken das menschliche Charakterbild bei einer irgendeiner vorbestimmten Bewegung und irgendeinem vorbestimmten Gesichtsausdruck durch Spezifizieren der erwünschten Bewegung und des erwünschten Gesichtsausdruck erhalten werden.
Die Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmt den emotionalen Ausdruck und die Intonation der Sprachantwort entsprechend der Bewegung und des Gesichtsausdrucks des menschlichen Charakterbildes. Hier hat die Einheit zur Bestimmung von Sprachcharakteristiken 134 eine Tabelle, wie sie in Fig. 24 gezeigt ist, welche die Label des Systemzustands und des Anwenderzustands enthält, die Anzahl von Wiederholungen N und die Wahrscheinlichkeit D, die von der menschlichen Charakterbildinformation erhalten werden, die von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit dem vorbestimmten Typ des menschlichen Charakterbildes, der die erwünschte Bewegung des menschlichen Charakterbildes anzeigt, um die Sprachantwort und den vorbestimmten emotionalen Ausdruck der Sprachantwort für jede Gruppe der menschlichen Charakterbildinformation auszugeben.
Beispielsweise wird die Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die weniger als zwei sind, und der Wahrscheinlichkeit D, die nicht kleiner als 0,7 ist, den normalen emotionalen Ausdruck haben, und die Sprachantwort für die Bestätigung in einem Fall der Anzahl von Wiederholungen N, die weniger als zwei sind, und der Wahrscheinlichkeit D, die kleiner als 0,7 ist, wird den verlegenen emotionalen Ausdruck haben, während die Sprachwiederholung N, die größer als zwei ist, den bedauernden emotionalen Ausdruck haben wird, usw. Zusätzlich wird auch der Betonungsausdruck in der in Fig. 20 gezeigten menschlichen Charakterbildinformation, die von der Einheit zur Bestimmung von Sprachcharakteristiken 134 empfangen wird, zur Sprachantwort-Erzeugungseinheit 135 übertragen, um die Sprachantwort mit dem betonten Betonungsausdruck zu erzeugen.
Die Sprachantwort-Erzeugungseinheit 135 erzeugt die erwünschte Sprachantwort in einer synthetisierten Stimme, um von der Lautsprechereinheit 15 ausgegeben zu werden. Hier ist es für diese Sprachantwort-Erzeugungseinheit 135 vorzuziehen, die systematische Sprachsynthese zu verwenden, selbst wenn es auch möglich ist, das Editieren einer aufgezeichneten Sprache zu verwenden.
In weiterem Detail hat die die Sprachsynthese verwendende Sprachantwort-Erzeugungseinheit 135 die Konfiguration, wie sie in Fig. 25 gezeigt ist, welche eine phonologische Verarbeitungseinheit 151, eine prosodische Verarbeitungseinheit 152, eine Steuerparameter- Erzeugungseinheit 153 und eine Sprachwellenform- Erzeugungseinheit 154 aufweist.
Die phonologische Verarbeitungseinheit 151 bestimmt das aurale Lesen des Antwortsatzes durch Verwenden der bekannten phonologischen Regeln und erzeugt eine Reihe von phonetischen Symbolen, die das bestimmte aurale Lesen des Antwortsatzes darstellen, gemäß den Antwortsatz-Textdaten und den Antwortsatz-Strukturdaten, die durch die Antwortsatz- Erzeugungseinheit 131 erzeugt sind.
Die prosodische Verarbeitungseinheit 152 bestimmt die prosodischen Merkmale der Sprachantwort, wie beispielsweise das Grundfrequenzmuster, die Leistung, die Dauer und die Pausen, und erzeugt eine Reihe von prosodischen Symbolen, die die bestimmten prosodischen Merkmale darstellen, gemäß den Antwortsatz-Textdaten und den Antwortsatz-Strukturdaten, die durch die Antwortsatz-Erzeugungseinheit 131 erzeugt sind, und die im Antwortsatz zu betonenden Wörter und den Typ des durch die Einheit zur Bestimmung von Sprachcharakteristiken 134 bestimmten emotionalen Ausdrucks.
Hier kann das Grundfreguenzmuster der Sprachantwort durch Merken der vorbestimmten Größen der Phrasierungskomponente und der Akzentkomponente für Modelle mit und ohne Betonung bestimmt werden, wie es in Fig. 26 gezeigt ist, so daß die gemerkten Modelle zu einer Zeit der Sprachsynthese verwendet werden können. Fig. 26 zeigt das Grundfrequenzmuster für einen japanischen Satz von "Tsuikawa potetodesu", der "Ein Zusatz ist eine Kartoffel" bedeutet, und eine gestrichelte Linie zeigt das Modell ohne die Betonung an, während die durchgezogene Linie das Modell mit der Betonung anzeigt. Zusätzlich können die Regeln, die das Phrasieren und den Akzent beherrschen, für unterschiedliche Typen von Sätzen vorbestimmt sein, wie beispielsweise als deklarierender Satz, als fragender Satz und als imparativer Satz.
Es ist zu beachten, daß das Grundfrequenzmuster unterschiedlich von demjenigen gesteuert werden kann, das in Fig. 26 gezeigt ist, indem andere bekannte Verfahren verwendet werden, wie beispielsweise ein Verfahren, das eine lineare Approximation verwendet, oder ein Verfahren, das einen Tonhöhenpegel zum Ausdrücken des Grundfrequenzmusters verwendet.
Das prosodische Merkmal, das den emotionalen Ausdruck enthält, kann hauptsächlich durch die Änderungsrate der Grundfrequenz, des dynamischen Bereichs, der Äußerungsdauer und der Energie gesteuert werden.
Folglich kann die Sprachantwort mit dem freudigen emotionalen Ausdruck aus einem normalen Muster erhalten werden, das in Fig. 27A gezeigt ist, in dem die Akzentkomponente veranlaßt wird, daß 1,2-fache von derjenigen eines normalen Falls zu sein, die Äußerungsdauer veranlaßt wird, das 0,9-fache von derjenigen eines normalen Falls zu sein, und die Energie veranlaßt wird, 2 dB größer als diejenige eines normalen Falls zu sein, wie es in Fig. 27B gezeigt ist, um die allgemein schnellere Sprachantwort zu erzeugen, bei welcher jedes Wort unterschiedlicher betont ist. Hier zeigen die Fig. 27A und die Fig. 27B die beispielhaften Grundfrequenzmuster für einen japanischen Satz von "Gochumonwa hanbagawo hitotsudesune", der "Ihre Bestellung ist ein Hamburger, richtig?" bedeutet, für den normalen Fall und einen Fall mit dem freudigen emotionalen Ausdruck.
Gleichermaßen kann die Sprachantwort mit dem bedauernden emotionalen Ausdruck aus einem normalen Muster erhalten werden, das in Fig. 28A gezeigt ist, indem die Akzentkomponente veranlaßt wird, das 0,9-fache von derjenigen eines normalen Falls zu sein, die Äußerungsdauer veranlaßt wird, das 1,1-fach von derjenigen eines normalen Falls zu sein und die Energie veranlaßt wird, 2 dE kleiner als diejenige eines normalen Falls zu sein, wie es in Fig. 28B gezeigt ist, um die allgemein langsamere Sprachantwort zu erzeugen, bei welcher Worte eher abfallend betont sind. Hier zeigen die Fig. 28A und die Fig. 28B die beispielhaften Grundfrequenzmuster für einen japanischen Satz von "Sumimasen Mouichido Onegaishimasu", was "Entschuldigung, bitte sagen Sie es noch einmal" bedeutet, für den normalen Fall und einen Fall mit dem bedauernden emotionalen Ausdruck.
Die Steuerparameter-Erzeugungseinheit 153 bestimmt die bei der Sprachwellenform-Erzeugungseinheit 154 zu verwendenden Steuerparameter gemäß den phonetischen Symbolen und den prosodischen Symbolen, die jeweils von der phonologischen Verarbeitungseinheit 151 und der prosodischen Verarbeitungseinheit 152 zu geführt werden.
Zusätzlich führt die Steuerparameter-Erzeugungseinheit 153 auch die Äußerungsdauer zur Antwortausgabe-Steuereinheit 137 zu, so daß die Sprachgeschwindigkeit der Sprachantwort sowie eine Lippenbewegung des menschlichen Charakterbildes gemäß der Sprachgeschwindigkeit der eingegebenen Sprache gesteuert werden kann, die durch den Anwender geäußert wird, und die von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit der semantischen Antwortdarstellung. Es ist vorzuziehen, diese Sprachgeschwindigkeitssteuerung so auszuführen, daß die Äußerungsdauer kürzer gemacht wird, wenn der Dialog ruhig fortschreitet, während die Äußerungsdauer länger gemacht wird, wenn der Dialog nicht ruhig fortschreitet. Hier kann die Änderung der Äußerungsdauer geeignet durch Auswählen der geeigneten Länge des Antwortsatzmusters gesteuert werden. Beispielsweise kann ein kürzeres Antwortsatzmuster verwendet werden, wenn die Sprachgeschwindigkeit des Anwenders schneller 9 Mora/sek. ist, während das längere und höflichere Antwortsatzmuster sonst verwendet werden kann.
Darüber hinaus kann die Wahrscheinlichkeit jedes Schlüsselworts, das von der Dialogmanagementeinheit 12 zugeführt wird, zusammen mit der semantischen Antwortdarstellung bei der Bestimmung des Antwortsprachmusters wie folgt berücksichtigt werden. Das bedeutet, daß in einem Fall, daß beispielsweise eine Bestätigung durchgeführt wird, das Antwortsatzmuster in einer Form einer positiven Bestätigung, wie beispielsweise "Ihre Bestellungen sind zwei Hamburger, richtig?" und das Antwortsatzmuster in einer Form einer Frage, wie beispielsweise "Sind ihre Bestellungen zwei Hamburger?" selektiv verwendet werden können. Beispielsweise dann, wenn die durchschnittlichen Wahrscheinlichkeiten der Schlüsselwörter, die beim Antwortsatz zu beteiligen sind, unter dem vorbestimmten Schwellenpegel, wie beispielsweise 0,5, sind und wenn eines der im Antwortsatz zu enthaltenden Schlüsselwörter eine sehr geringe Wahrscheinlichkeit hat, kann das Antwortsatzmuster in einer Form einer Frage selektiv verwendet werden, während sonst das Antwortsatzmuster in einer Form einer positiven Bestätigung selektiv verwendet werden kann. Auf diese Weise kann der Anwender auch die Information in Bezug auf das Ausmaß eines Verstehens, das durch das System erreicht wird, aus dem verwendeten Antwortsatzmuster erhalten. Es ist zu beachten, daß die selektive Verwendung der unterschiedlichen Antwortsatzmuster für die anderen Aspekte der Sprachantwort erfolgen kann, wie beispielsweise die selektive Verwendung des höflichen Antwortsatzmusters und des vertrauten Antwortsatzmusters.
Die Sprachwellenform-Erzeugungseinheit 154 hat eine Konfiguration des in Fig. 29 gezeigten Formantentyp- Sprachsynthesizers der einen Impulsgenerator 161, einen Rauschgenerator 162, ein mit dem Impulsgenerator 161 verbundenes Tiefpaßfilter 163A als Klangquelle, ein mit dem Rauschgenerator 162 verbundenes Tiefpaßfilter, einen mit dem Tiefpaßfilter 163A verbundenen Schalter, einen Addierer 165A zum Addieren der Ausgaben der Tiefpaßfilter 163A und 163B, eine Reihe von Resonatoren 166A, die mit dem Addierer 165A verbunden sind, eine Vielzahl von Amplitudensteuerungen 167, die parallel zum Schalter 164 geschaltet sind, eine Vielzahl von Resonatoren 166B, die mit den Amplitudensteuerungen 167 verbunden sind, einen Addierer 165B zum Addieren der Ausgaben der Resonatoren 165A und 165B und eine der Amplitudensteuerungen 167 ohne einen Resonator 166B, ein mit dem Addierer 165B verbundenes Hochpaßfilter 168 und einen Steuerparameter-Verteiler 169, der die von der Steuerparameter-Erzeugungseinheit 153 zugeführten Steuerparameter zu allen Elementen dieses oben angegebenen Formantentyp-Sprachsynthesizers verteilt, aufweist. Als Beispiel können bei dieser Sprachwellenform-Erzeugungseinheit 154 die Sprachsyntheseparameter alle 8 msek unter Verwendung der Abtastfrequenz von 12 kHz aktualisiert werden. Es ist zu beachten, daß die anderen bekannten Typen des Sprachwellenformgenerators anstelle desjenigen verwendet werden können, der in Fig. 29 gezeigt ist.
Die Inhaltsvisualisierungsbild-Erzeugungseinheit 136 erzeugt das Inhaltsvisualisierungsbild, das den wesentlichen Inhalt der Sprachantwort visualisiert, und ist zum Unterstützen des richtigen Verstehens bzw. Begreifens der Systemantwort durch den Anwender vorgesehen.
Bei diesem ersten Ausführungsbeispiel ist die von der Dialogmanagementeinheit 12 zugeführte Inhaltsvisualisierungsbildinformation die in der oben beschriebenen Dialogmanagementeinheit 12 verwendete Bestellungstabelle. Hier enthält die Bestellungstabelle die Information über die Elemente, die Größen und die Mengen für alle Bestellungen, die durch das System bis zu einem jeweiligen Moment beim Dialog zwischen dem Anwender und dem System angenommen werden, so daß diese Information zum Visualisieren des Inhalts der Bestellung verwendet werden kann, die durch Anzeigen eines Bildes jedes Elements angenommen wird, das einer bestellten Größe bestellt ist, begleitet durch eine numerische Zahl, die eine bestellte Menge anzeigt. Mit diesem Inhaltsvisualisierungsbild kann der Anwender den Inhalt der durch das System angenommenen Bestellung visuell prüfen, und zwar zusätzlich zu der Audioinformation, die durch die Sprachantwort geliefert wird, so daß es für den Anwender leichter wird, den Inhalt der durch das System angenommenen Bestellung zu begreifen.
Diese Inhaltsvisualisierungsbild-Erzeugungseinheit 136 kann das erwünschte Inhaltsvisualisierungsbild auf gleiche Weise wie die Einheit zur Erzeugung eines menschlichen Charakterbildes 132 durch Enthalten der geeigneten Steuerung der Anzeigezeit und der temporalen Änderung des visuellen Bildes erzeugen. Somit wird in einem Fall eines Verwendens von Standbildern eine Vielzahl von Inhaltsvisualisierungsbildern, die aufeinanderfolgend anzuzeigen sind, im Voraus vorbereitet, während in einem Fall eines Verwendens des animierten Bildes das animierte Bild, das das geeignete Inhaltsvisualisierungsbild realisiert, im Voraus vorbereitet wird. Ebenso kann durch Verwenden der Computergraphiktechnik irgendein erwünschtes Inhaltsvisualisierungsbild durch Spezifizieren der erwünschten Elemente, Größen und Mengen, die zu visualisieren sind, erhalten werden.
Die Anwortausgabe-Steuereinheit 137 gibt die empfangene Sprachantwort zur Lautsprechereinheit 15 aus, und die empfangenen Antwortsatz-Textdaten, das menschliche Charakterbild und das Inhaltsvisualisierungsbild zur Anzeigeeinheit 14, während die Ausgabezeitgaben für diese Audioinformation und diese visuelle Information gesteuert werden, um die multimodale Antwortausgabe zu realisieren.
Hier ist es wichtig, die Beziehungen zwischen der Audioinformation und der visuellen Information durch eine geeignete Ausgabezeitgabesteuerung zu steuern. Das bedeutet, daß in einem Fall, in welchem das menschliche Charakterbild die Lippenbewegung entsprechend der Sprachantwort enthält, die Lippenbewegung und die Sprachantwort sorgfältig synchronisiert werden sollten, und in einem Fall, in welchem das menschliche Charakterbild die Verbeugungsbewegung entsprechend den Begrüßungsworten in der Sprachantwort enthält, die Verbeugungsbewegung und die Begrüßungsworte, die gezeigt werden, sorgfältig synchronisiert sein sollten.
Es ist auch wichtig, die Ausgabezeitgaben dieser Audioinformation und dieser visuellen Information zu steuern, um die Reihenfolge einer Präsentation der Information zu manipulieren, die dem Anwender zuzuteilen ist. Beispiele für eine solche Ausgabezeitgabesteuerung sind in den in den Fig. 30A, 30B, 31A und 31B gezeigten Zeitgabediagrammen gezeigt.
Fig. 30A ist ein Zeitgabediagramm für eine Anfangsbegrüßungssituation. In diesem Fall gibt es deshalb, weil es noch keine angenommene Bestellung gibt, keine Inhaltsvisualisierungsbildanzeige. Zu einer Zeit t0 werden die Textdaten für die Anfangsbegrüßungsworte angezeigt. Zwischenzeitlich erscheint das menschliche Charakterbild zur selben Zeit t0, und die Lippen des menschlichen Charakterbildes werden zusammen mit der Ausgabe der Sprachantwort von "Willkommen bei Tos Burger. Bitte machen Sie Ihre Bestellung." zwischen den Zeiten t0 und t2 bewegt, um den Anwender dazu zu bringen, die Bestellung zu machen. Hier enthalten die zur Zeit t0 angezeigten Begrüßungsworte die Textdaten für alle Sprachantworten zwischen den Zeiten t0 und t2, um dabei zu helfen, daß der Anwender die Sprachantworten begreift, und diese Textdaten werden fortgeführt auch nach der Zeit t2 angezeigt werden, bis zur nächsten Systemantwort-Ausgabestufe.
Fig. 30B ist ein Zeitgabediagramm für eine Situation, in welcher ein Hamburger und eine Cola bereits bestellt worden sind, und zwei Hamburger und zwei Kaffees zusätzlich bestellt werden. In diesem Fall werden bis zur Zeit t0 die Textdaten "Ihre Bestellungen sind ein Hamburger und eine Cola, richtig?" zum Bestätigen der vorherigen Bestellung angezeigt, während das Inhaltsvisualisierungsbild den bereits bestellen einen Hamburger und die bereits bestellte eine Cola zeigt. Dann werden zu einer Zeit t0 die Textdaten zu neuen Textdaten von "Sie möchten zwei Hamburger und zwei Kaffee hinzufügen, richtig?" geändert, um die zusätzliche Bestellung zu bestätigen. Ebenso wird zur gleichen Zeit t0 das Inhaltsvisualisierungsbild zu einem neuen Inhaltsvisualisierungsbild geändert, das drei Hamburger, zwei Kaffees und eine Cola zeigt, in dem die zusätzliche Bestellung mit der vorherigen Bestellung kombiniert wird. Zwischenzeitlich beginnt das menschliche Charakterbild die Lippenbewegung zusammen mit der Ausgabe der Sprachantwort von "Sie möchten zwei Hamburger und zwei Kaffees hinzufügen, richtig?" zwischen den Zeiten t0 und t3. Hier werden die neuen Textdaten und das Inhaltsvisualisierungsbild selbst nach der Zeit t3 kontinuierlich angezeigt, bis zur nächsten Systemantwort-Ausgabestufe.
Fig. 31A ist ein Zeitgabediagramm für die Situation zum Bestätigen aller Bestellungen, nachdem die Bestellungen für zwei Hamburger, einen Cheesburger und drei Kaffees empfangen sind. In diesem Fall werden, nachdem die Bestellungen empfangen sind, zur Zeit t0 die Textdaten zu neuen Textdaten von "Ihre Bestellungen sind zwei Hamburger, ein Cheesburger und drei Kaffees, richtig?" geändert, um alle Bestellungen zu bestätigen. Zwischenzeitlich beginnt das menschliche Charakterbild die Lippenbewegung zusammen mit der Ausgabe der Sprachantwort von "Ihre Bestellungen sind zwei Hamburger, ein Cheesburger und drei Kaffees, richtig?" zwischen den Zeiten t0 und t4. Bezüglich des Inhaltsvisualisierungsbildes wird das Inhaltsvisualisierungsbild bis zu einer Zeit t1 nicht gezeigt, zu welcher Zeit der Anfangsteil von "Ihre Bestellungen sind" in der Sprachantwort ausgegeben worden ist. Dann wird zur Zeit t1 das Inhaltsvisualisierungsbild angezeigt, das zwei Hamburger, einen Cheesburger und drei Kaffees zeigt. Hier werden die neuen Textdaten sowie das Inhaltsvisualisierungsbild selbst nach der Zeit t4 kontinuierlich angezeigt, bis zur nächsten Systemantwort- Ausgabestufe.
Nun können in einer Situation, wie beispielsweise derjenigen, die in Fig. 31A gezeigt ist, wenn die Anzahl von bestellten Elementen zahlreich wird, die Textdaten sehr länglich werden und kann die Ausgabe der gesamten Sprachantwort eine bemerkenswerte an Zeit dauern. Jedoch deshalb, weil das Inhaltsvisualisierungsbild, das den Inhalt der Bestellungen zeigt, zur Zeit t1 angezeigt wird, ist es sehr wahrscheinlich für den Anwender, daß er den Inhalt der Systemantwort gut verstehen kann, bevor die Ausgabe der gesamten Sprachantwort beendet ist, ohne die länglichen Textdaten zu lesen. In einem solchen Fall ist die Anzeige der Textdaten nutzlos und kann die Sprachantwort den Anwender eher irritieren. Aus diesem Grund können dann, wenn die Anzahl von Elementen die vorbestimmte Schwellenzahl übersteigt, wie beispielsweise drei, der Systemantwort-Ausgabeinhalt und seine Ausgabebestellung modifiziert werden, wie es in Fig. 31B gezeigt ist, um den Dialog zum Bestätigen der Bestellungen zu vereinfachen.
Das bedeutet, daß in Fig. 31B, nachdem die Bestellungen empfangen sind, zur Zeit t0 die Textdaten einmal gelöscht werden, während das Inhaltsvisualisierungsbild, das zwei Hamburger, einen Cheesburger und drei Kaffees zeigt, sofort zur Zeit t0 angezeigt wird. Dann werden zur Zeit t1 neue Textdaten von "Dieses sind Ihre Bestellungen, richtig?" zum Verkürzen einer Bestätigung angezeigt, während das menschliche Charakterbild die Lippenbewegung zusammen mit der Ausgabe der Sprachantwort von "Dieses sind Ihre Bestellungen, richtig?" zwischen den Zeiten t1 und t2 durchführt. Hier werden die neuen Textdaten sowie das Inhaltsvisualisierungsbild selbst nach der Zeit t2 kontinuierlich angezeigt, bis zur nächsten Systemantwort- Ausgabestufe.
In diesem Fall wird die Änderung des Systemantwort- Ausgabeinhalts und seine Ausgabereihenfolge- bzw. Bestellung bei der Anworterzeugungseinheit 13 gemäß der Antwortaktion und der Anzahl von bestellten Elementen bestimmt, die durch die semantische Antwortdarstellung angezeigt werden, die von der Dialogmanagementeinheit 12 zugeführt wird. Hier kann die Änderung des Systemantwort-Ausgabeinhalts und seine Ausgabebestellung bzw. -reihenfolge durch Verwenden eines Faktors bestimmt werden, der eine Länge der Sprachantwort anzeigt, die anders als die Anzahl von bestellten Elementen ist, wie beispielsweise eine Anzahl von Wörtern, die in der Sprachantwort verwendet werden, oder eine Anzahl von Moras der Sprachantwort.
Es ist zu beachten, daß die gleiche Vereinfachung des Systemantwort-Ausgabeinhalts und seiner Ausgabebestellung mittels der Ausgabe der visuellen Antwort, die der Ausgabe der Sprachantwort vorangeht, und die kürzere Sprachantwort unter Verwendung des Demonstrativpronomens auch in anderen Situationen verwendet werden können, in welchen die Anzahl von Elementen, die zu bestätigen sind, zahlreich ist, oder der Systemantwort-Ausgabeinhalt so kompliziert ist, daß er verbal verstanden wird.
Es ist auch zu beachten, daß bei diesen Beispielen der Fig. 30A, 30B, 31A und 31B die Ausgabezeitgaben gemäß der Sprachdauer jedes Teils der Sprachantwort bestimmt werden. Somit wird in Fig. 30A die Periode zwischen den Zeitgaben t0 und t1 durch die zum Ausgeben der Sprachantwort von "Willkommen bei Tos Burger" erforderliche Sprachdauer, usw. bestimmt. Jedoch können die Ausgabezeitgaben alternativ gemäß der Anzeigedauer des menschlichen Charakterbildes oder des Inhaltsvisualisierungsbildes bestimmt werden, wenn es erwünscht ist.
Die Antwortausgabe-Steuereinheit 137j steuert auch die Anzeigepositionen der Textdaten, des menschlichen Charakterbildes und des Inhaltsvisualisierungsbildes auf der Anzeigeeinheit 14.

3. Beispielhafte multimodale Antwortausgabe

Nimmt man nun Bezug auf die Fig. 32 bis 38 wird die beispielhafte multimodale Antwortausgabe bei diesem ersten Ausführungsbeispiel des Sprachdialogsystems bei der praktischen Aufgabe zum Annehmen einer Bestellung in einem Schnellimbiß detailliert beschrieben werden.
Zuerst zeigt Fig. 32 eine anfängliche Anzeige auf der Anzeigeeinheit 14 bei der Abwesenheit des Anwenders. In diesem Fall zeigt die Anzeigeeinheit 14 nur einen einfachen Text an, wie beispielsweise "Willkommen bei TOS BURGER", und die Lautsprechereinheit 15 bleibt still.
Wenn das Näherkommen des Anwenders (in diesem Fall eines Kunden) zu einer Stelle des Systems (wie beispielsweise einer Restaurantkasse oder einem Durchfahrfenster) durch eine Anwendererfassungsvorrichtung (nicht gezeigt), wie beispielsweise einer mit einem Drucksensor oder einer Überwachungskamera ausgestatteten Bodenmatte, erfaßt wird, zeigt die Anzeigeeinheit 14 die visuelle Antwort an, wie es in Fig. 33 gezeigt ist, welche das menschliche Charakterbild eines Restaurantangestellten mit einem freundlichen lächelnden Gesichtsausdruck zusammen mit den Textdaten der anfänglichen Begrüßungs-Sprachantwort, wie beispielsweise "Willkommen bei Tos Burger. Bitte machen Sie Ihre Bestellung." enthält, während dieselbe Sprachantwort von der Lautsprechereinheit 15 mit der synthetisierten Stimme ausgegeben wird. Dieser Zustand entspricht dem anfänglichen Systemzustand S0 im Zustandsübergangsdiagramm der Fig. 9, die oben beschrieben ist. Hier ist es wichtig, die Ausgabe der oben beschriebenen visuellen Antwort und die Sprachantwort zu einer Zeitgabe zu beginnen, bei welcher erfaßt wird, daß der Anwender vor dem System stillsteht, um den Dialog mit dem Anwender auf angenehme Weise zu beginnen. Diesbezüglich ist der freundlich lächelnde Gesichtsausdruck des menschlichen Charakterbildes sehr wichtig, um die Anspannung auf der Seite des Anwenders zu entspannen, und es ist weiterhin vorzuziehen, die synthetisierte Stimme mit der freundlichen Intonation für die anfängliche Begrüßungs-Sprachantwort zu verwenden. Diese anfängliche Begrüßungs-Sprachantwort kann durch die zuvor aufgezeichneten synthetisierten oder durch natürliche Klänge geliefert werden, wenn es erwünscht ist.
Nun soll ein Fall betrachtet werden, bei welchem der Anwender die eingegebene Sprache von "Eh, zwei Hamburger, und... ja zwei Kaffee, bitte." in Eile in Antwort auf die in Fig. 33 gezeigte Nachricht äußerte. Dann wird auf der Systemseite der oben beschriebene Betrieb im anfänglichen Anwenderzustand UO im Zustandsübergangsdiagramm der Fig. 9 ausgeführt. Hier soll jedoch angenommen sein, daß die eingegebene Sprache vom Anwender so schnell geäußert wurde, daß das System die eingegebene Sprache nicht verstanden hat, da es keine Ausgabe von der Einheit zum Verstehen von Sprache 11 gibt.
In einem solchen Fall steuert die Dialogmanagementeinheit 12 die Antworterzeugungseinheit 13 so, daß die Sprachantwort, die den Ausfall eines Verstehens der eingegebenen Sprache auf der Systemseite anzeigt, wie beispielsweise "Ich konnte Sie nicht deutlich hören. Bitte wiederholen Sie es noch einmal." von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort auf der Anzeigeeinheit 14 zusammen mit dem menschlichen Charakterbild mit dem bedauernden Gesichtsausdruck angezeigt wird, wie es in Fig. 34 gezeigt ist. Hier konnte das System die eingegebene Sprache vollständig nicht verstehen, so daß die Bestelltabelle leer bleibt, und folglich gibt es kein Inhaltsvisualisierungsbild, das die visuelle Antwort enthält. Dieser Fall entspricht einem Fall eines Durchführens eines Übergangs vom anfänglichen Anwenderzustand UO zum Dialogkorrektursystemzustand S10 im Zustandsübergangsdiagramm der Fig. 9, die oben beschrieben ist, und die Sprachantwort und die visuelle Antwort, die oben beschrieben sind, werden als Ergebnis des Betriebs im Dialogkorrektursystemzustand S10 erzeugt.
Als nächstes soll ein Fall betrachtet werden, bei welchem der Anwender die eingegebene Sprache von "Zwei Hamburger und zwei Kaffee bitte." deutlicher in Antwort auf die in Fig. 34 gezeigte Nachricht äußerte. In diesem Fall werden die oben beschriebenen Operationen in der Einheit zum Verstehen von Sprache 11 und der Dialogmanagementeinheit 12 zum Erzeugen der geeigneten semantischen Antwortdarstellung auf einer Basis dieser eingegebenen Sprache ausgeführt. Hier ist die im ACT-Frame der semantischen Antwortdarstellung registrierte Antwortaktion eine "Gesamtbestätigung", so daß die Sprachantwort für die Gesamtbestätigung, wie beispielsweise "Ihre Bestellungen sind zwei Hamburger und zwei Kaffee, richtig?" von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort zusammen mit dem menschlichen Charakterbild mit dem normalen Gesichtsausdruck auf der Anzeigeeinheit 14 angezeigt werden, wie es in Fig. 35 gezeigt ist.
In diesem Fall zeigt die Anzeigeeinheit 14 auch das Inhaltsvisualisierungsbild an, das die Bilder der bestellten Elemente enthält, begleitet durch die numerischen Zeichen, die die bestellten Mengen anzeigen, so daß der Anwender auf einfache Weise die durch das System angenommenen Bestellungen zusätzlich zur durch die Sprachantwort gelieferten Audioinformation visuell untersuchen kann. Hier kann die Information über die bestellten Mengen in die Bilder der bestellten Elemente eingebaut sein, so daß das Inhaltsvisualisierungsbild eine so große Anzahl von jedem bestellten Element enthält, wie es der bestellten Menge entspricht. Hier ist es jedoch vorzuziehen, die numerischen Zeichen zu verwenden, wie es in Fig. 35 gezeigt ist, da die Information bezüglich der bestellten Menge sehr wichtig ist und es schwierig sein könnte, die bildhafte Darstellung dieser Information genau und schnell zu verstehen, und zwar insbesondere dann, wenn die bestellte Menge groß ist. Ebenso wird aus diesem Grund jedes numerische Zeichen auf derselben Höhe wie die Bilder des entsprechenden bestellten Elements angezeigt. Hier ist es für das Inhaltsvisualisierungsbild auch möglich, daß es die Merkmale der unterschiedlichen Größen für die Bilder der bestellten Elemente enthält, der unterschiedlichen Größen für das numerische Zeichen, die parallele Verwendung des Wortes, das die bestellte Menge ausdrückt, die Verwendung von sehr realistischen Objektbildern und die Verwendung der Farben auf dem Inhaltsvisualisierungsbild, um die Schnelligkeit des Begreifens durch den Anwender zu verbessern. Bezüglich des menschlichen Charakterbildes ist zu beachten, daß das menschliche Charakterbild vorzugsweise eher auf eine einfache Weise gezeigt werden sollte, als auf eine sehr realistische Weise, um die dem Anwender zu übergebende Nachricht auf eine universell erkennbare Weise ausdrücken zu können. Es ist hier auch zu beachten, daß die Anzeige auf der Anzeigeeinheit 14 durch die dreidimensionalen Graphiken zur Verfügung gestellt werden kann.
Als nächstes soll ein Fall betrachtet werden, bei welchem der Anwender etwas zögernd die eingegebene Sprache von "Uhm... gut, ok." in Antwort auf die in Fig. 35 gezeigte Nachricht äußerte. In diesem Fall versteht das System die eingegebene Sprache nicht, da es keine Ausgabe von der Einheit zum Verstehen von Sprache 11 gibt, da diese eingegebene Sprache als die unerwartete Äußerung angesehen wird.
In einem solchen Fall steuert die Dialogmanagementeinheit 12 die Antworterzeugungseinheit 13 so, daß die Sprachantwort, die den Fehlschlag eines Verstehens der eingegebenen Sprache auf der Systemseite anzeigt, wie beispielsweise "Entschuldigung, bitte sagen Sie es noch einmal." von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort auf der Anzeigeeinheit 14 zusammen mit dem menschlichen Charakterbild mit dem bedauernden Gesichtsausdruck angezeigt wird, wie es in Fig. 36 gezeigt ist. Hier ist die Sprachantwort kürzer als die Sprachantwort der Fig. 34, die zuvor in der ähnlichen Situation verwendet ist, um die taktlose und möglicherweise irritierende Wiederholung derselben Nachricht zu vermeiden. Hier ist es wichtig, daß die Anzeigeeinheit 14 ein Anzeigen desselben Inhaltsvisualisierungsbildes fortführt, das die bestellten Elemente und die bestellten Mengen anzeigt, wie sie vom System bislang verstanden sind, so daß der Anwender damit fortfahren kann, die durch das System angenommenen Bestellungen visuell zu untersuchen. Die fortgeführte Anzeige des Inhaltsvisualisierungsbildes kann effektiv die flüchtige Art der in der Sprachantwort gelieferten Nachricht kompensieren. Somit ist es sehr wichtig, den sequentiell aktualisierten Inhalt der durch das System angenommenen Bestellung während des gesamten Dialogs mit dem Anwender kontinuierlich anzuzeigen.
Aus diesem Grund wird bei diesem Beispiel die Bestätigung für die teilweise Änderung der Bestellung, wie beispielsweise ein Hinzufügen, ein Ersetzen, ein Löschen, durch Verwenden von nur der Sprachantwort und der Textdaten der Sprachantwort ausgeführt. Jedoch kann auch die visuelle Information für die Bestätigung der teilweisen Änderung der Bestellung verwendet werden. In einem solchen Fall kann die Anzeige des Inhaltsvisualisierungsbildes, das die gesamte Bestellung anzeigt, temporär unterbrochen werden, wenn es erwünscht ist.
Als nächstes soll ein Fall betrachtet werden, bei welchem der Anwender die eingegebene Sprache von "Das ist richtig" deutlicher in Antwort auf die in Fig. 36 gezeigte Nachricht äußerte. In diesem Fall versteht das System diese eingegebene Sprache als die Bestätigung des Anwenders er gesamten Bestellung, so daß die Sprachantwort für den Endgruß, wie beispielsweise "Vielen Dank.", von der Lautsprechereinheit 15 ausgegeben wird, während die Textdaten dieser Sprachantwort auf der Anzeigeeinheit 14 zusammen mit dem menschlichen Charakterbild mit der Verbeugungsgeste angezeigt werden, wie es in Fig. 37 gezeigt ist, und der Dialog mit dem Anwender wird beendet. Dieser Fall entspricht einem Fall eines Durchführens eines Übergangs zu einem Endsystemzustand S9 im oben beschriebenen Zustandsübergangsdiagramm der Fig. 9.
An dieser Stelle können die anderen nötigen Antwortausgaben, wie beispielsweise diejenige zum Auffordern, daß der Anwender den Gesamtbetrag bezahlt, durchgeführt werden.
Es ist zu beachten, daß in einem Fall eines Aufforderns der Bestätigung durch den Anwender, wie in Fig. 35, es auch effektiv ist, den Antwortsatz zu verwenden, der die positive Identifizierung der erwarteten Antwortformen enthält, wie beispielsweise "Bitte antworten Sie mit Ja oder Nein". Es ist auch möglich, den gleichen Antwortsatz in einem Fall eines Fragens bezüglich einer ungewissen eingegebenen Sprache zu verwenden, wie beispielsweise "Entschuldigung, sind Ihre Bestellungen zwei Hamburger und zwei Kaffee? Bitte antworten Sie mit Ja oder Nein.", wie es in Fig. 38 gezeigt ist. Die Verwendung eines solchen Antwortsatzes kann auch gemäß der Information gesteuert werden, wie beispielsweise einer Anzahl von Fragen oder Korrekturen, die während desselben Dialogs durchgeführt werden.

4. Zusammenfassung des Gesamtbetriebs

Fig. 39 faßt den Gesamtbetrieb dieses ersten Ausführungsbeispiels des Sprachdialogsystems zusammen. Kurz gesagt werden die Schlüsselwörter in der durch den Anwender geäußerten eingegebenen Sprache durch den Schlüsselwortentdeckungsbetrieb bei der Schlüsselworterfassungseinheit 21 erfaßt, um die Schlüsselwortkandidaten 222 zu erhalten. Dann werden die Schlüsselwortkandidaten 222 durch den Betrieb zum Verstehen von Sprache basierend auf den Schlüsselwörtern bei der syntaktischen und semantischen Analyseeinheit 22 analysiert, um die semantische Äußerungsdarstellung 224 der eingegebenen Sprache zu erhalten. Dann führt die Dialogmanagementeinheit 12 den Dialogmanagementbetrieb basierend auf einer Kenntnis des Dialogs und des Anwendungsgebiets aus, um die geeignete semantische Antwortdarstellung 226 zu erhalten, gemäß welcher die Antworterzeugungseinheit 13 die visuelle Antwort, die auf der Anzeigeeinheit 14 anzuzeigen ist, und die Sprachantwort erzeugt, welche durch Verwenden der Sprachsynthese durch eine Regel erhalten wird, welche von der Lautsprechereinheit 15 auszugeben ist.
Es ist zu beachten, daß dieses erste Ausführungsbeispiel des Sprachdialogsystems auf einen weiteren Bereich von praktischen Anwendungsgebieten anwendbar ist die andere als der Schnellimbißservice sind, der bei der obigen Beschreibung verwendet ist, wie beispielsweise einem Informations- Servicenetz, einem Kartenverkaufs-Servicesystem, einem Platzreservierungs-Servicesystem und einem Banktransaktions- Servicesystem.

II. ZWEITES AUSFÜHRUNGSBEISPIEL

Nimmt man nun Bezug auf Fig. 40, wird ein zweites Ausführungsbeispiel eines Sprachdialogsystems gemäß der vorliegenden Erfindung detailliert beschrieben werden.
Dieses zweite Ausführungsbeispiel unterscheidet sich vom oben beschriebenen ersten Ausführungsbeispiel darin, daß das Detail des Anwendererfassungsmechanismus enthalten ist.
Hier ist der Anwendererfassungsmechanismus zum automatischen Beginnen und Beenden des Dialogs zwischen dem System und dem Anwender nötig, und zum Durchführen eines ruhigen und natürlichen Fortschreitens des Dialogs zwischen dem System und dem Anwender, in dem der Zustand und die Reaktion des Anwenders berücksichtigt werden.
Für den Anwendererfassungsmechanismus sind verschiedene Sensormechanismen, wie beispielsweise diejenigen, die Licht, Ultraschallwellen, Infrarotstrahlungsdruck, eine Überwachungskamera, etc. verwenden, denkbar. Bei diesem zweiten Ausführungsbeispiel wird der Anwendererfassungsmechanismus unter Verwendung einer Bodenmatte als Beispiel beschrieben werden.
Wie es in Fig. 40 gezeigt ist, weist das Sprachdialogsystem bei diesem zweiten Ausführungsbeispiel folgendes auf: eine Spracheingabeeinheit 231, wie beispielsweise ein Mikrophon; eine Einheit zum Verstehen von Sprache 232, die gleich der Einheit zum Verstehen von Sprache 11 des ersten Ausführungsbeispiels ist; eine Anwenderzustands- Erfassungseinheit 233; eine Dialogmanagementeinheit 234, die gleich der Dialogmanagementeinheit 12 des ersten Ausführungsbeispiels ist; eine Antworterzeugungseinheit 235, die gleich der Antworterzeugungseinheit 13 des ersten Ausführungsbeispiels; eine Anzeigeeinheit 236, die gleich der Anzeigeeinheit 14 des ersten Ausführungsbeispiels ist; und eine Lautsprechereinheit 237, die gleich der Lautsprechereinheit 15 des ersten Ausführungsbeispiels ist.
Bei dieser Konfiguration der Fig. 40 ist die Anwenderzustands-Erfassungseinheit 233 durch eine Bodenmatte ausgebildet, die mit einem Drucksensor ausgestattet ist, der eine semantische Anwenderzustandsdarstellung Nr. 1 mit einer Anwenderzustandsaktion von "Anwender vorhanden" ausgibt, die in einem Fall registriert wird, in welchem der Anwender auf der Bodenmatte ist, und eine semantische Anwenderzustandsdarstellung Nr. 2 mit einer Anwenderzustandsaktion von "Anwender nicht vorhanden", die in einem Fall registriert wird, in welchem der Anwender nicht auf der Bodenmatte ist, wie es in Fig. 41 angezeigt ist. Diese semantischen Anwenderzustandsdarstellungen Nr. 1 und Nr. 2 werden der Dialogmanagementeinheit 234 zugeführt. Hier empfängt die Dialogmanagementeinheit 234 auch die semantische Äußerungsdarstellung von der Einheit zum Verstehen von Sprache 232 genau wie beim oben beschriebenen ersten Ausführungsbeispiel und erzeugt die geeignete semantische Anwortdarstellung gemäß sowohl der semantischen Äußerungsdarstellung als auch der semantischen Anwenderzustandsdarstellung durch Verwenden der Kenntnis über den Dialog und das Anwendungsgebiet.
In diesem Fall können die semantische Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird, und die semantische Anwenderzustandsdarstellung, die von der Anwenderzustands-Erfassungseinheit 233 zugeführt wird, bei der Dialogmanagementeinheit 233 in einer Reihenfolge ihres Empfangs oder in einer vorbestimmten Reihenfolge mit einer höheren Priorität, die an eine von ihnen angebracht ist, gemäß dem Zustand des Dialogs zwischen dem System und dem Anwender behandelt werden.
Nun geht der Betrieb dieses Sprachdialogsystems des zweiten Ausführungsbeispiels weiter, wie es folgt.
Das bedeutet, daß bei einem normalen Dialog zwischen dem System und dem Anwender, wie es in Fig. 42 gezeigt ist, wenn der Anwender auf die Bodenmatte kommt, die semantische Anwenderzustandsdarstellung Nr. 1 von der Anwenderzustands- Erfassungseinheit 233 zur Dialogmanagementeinheit 234 zugeführt wird. In Antwort darauf führt die Dialogmanagementeinheit 234 automatisch die semantische Antwortdarstellung Nr. 1 zur Antworterzeugungseinheit 235 zu, so daß die Antwort Nr. 1 von "Willkommen bei Tos Burger. Bitte geben Sie Ihre Bestellung auf." als visuelle Antwort von der Anzeigeeinheit 236 und als Sprachantwort von der Lautsprechereinheit 137 ausgegeben wird.
Als nächstes führt die Einheit zum Verstehen von Sprache 232 dann, wenn der Anwender die eingegebene Sprache von "Hamburger und Kaffee, jeweils zwei." äußert, die semantische Äußerungsdarstellung Nr. 1 basierend auf dieser eingegebenen Sprache zur Dialogmanagementeinheit 234 zu. In Antwort darauf führt die Dialogmanagementeinheit 234 die geeignete semantische Antwortdarstellung gemäß der zugeführten semantischen Äußerungsdarstellung zur Antworterzeugungseinheit 235 so zu, daß die Antwort Nr. 2 von "Ihre Bestellungen sind zwei Hamburger und zwei Kaffee, richtig?" zur Bestätigung als visuelle Antwort von der Anzeigeeinheit 236 und als Sprachantwort von der Lautsprechereinheit 237 ausgegeben wird. Dann wird die semantische Äußerungsdarstellung Nr. 2 für die nächste Anwenderäußerung von "Richtig.", was in Antwort geäußert wird, durchgeführt, und wird der Dialog mit dem Endgruß von "Vielen Dank" beendet und wird gemäß der semantischen Antwortdarstellung Nr. 3 ausgegeben.
Jedoch in einem Fall, in welchem der Anwender in der Mitte des Dialogs, wie beispielsweise demjenigen, der gerade beschrieben ist, von der Bodenmatte weggeht, wird der Betrieb des Sprachdialogsytems dieses zweiten Ausführungsbeispiels wie folgt modifiziert.
Das bedeutet, daß, wie es in Fig. 43 gezeigt ist, der Anwender nach der Antwort Nr. 2 von "Ihre Bestellungen sind zwei Hamburger und zwei Kaffe, richtig?" zur Bestätigung ausgegeben ist, von der Bodenmatte weggeht, und die semantische Anwenderzustandsdarstellung Nr. 2 wird von der Anwenderzustands-Erfassungseinheit 233 zur Dialogmanagementeinheit 234 zugeführt. In Antwort darauf unterbricht die Dialogmanagementeinheit 234 automatisch den Betrieb zum Annehmen einer Bestellung, der in diesem Dialog durchgeführt wird, und führt die semantische Antwortdarstellung Nr. 4 zur Antworterzeugungseinheit 235 zu, so daß die natürliche Antwort für den unterbrochenen Betrieb zum Annehmen einer Bestellung, wie beispielsweise "Danke, daß sie zu Tos Burger gekommen sind." als visuelle Antwort von der Anzeigeeinheit 236 und als Sprachantwort von der Lautsprechereinheit 237 ausgegeben wird.
Auf diese Weise verwendet die Dialogmanagementeinheit 234 die Information bezüglich des Zustands des Anwenders während des Dialogs, die durch die von der Anwenderzustands- Erfassungseinheit zugeführte semantische Anwenderzustandsdarstellung zur Verfügung gestellt wird, so daß der natürliche Anfang und das natürliche Ende des Dialogs zwischen dem Anwender und dem System automatisch durchgeführt werden können.
Allgemeiner geht der Betrieb dieses Sprachdialogsystems des zweiten Ausführungsbeispiels gemäß dem Ablaufdiagramm der Fig. 44 weiter, wie es folgt. Hier ist die Dialogmanagementeinheit 234 zu jedem Zeitpunkt des Betriebs in einem der folgenden vier Zustäbde =0, =1, =2 und =3. Die Dialogmanagementeinheit 234 ist anfangs im Zustand =0, und die Übergänge zu den anderen Zuständen =1, =2 und =3 werden gemäß dem Anwenderzustand durchgeführt.
Zuerst wird dann, wenn die Dialogmanagementeinheit 234 im Zustand =0 beim Schritt S281 ist, als nächstes beim Schritt S282 bestimmt, ob die Anwenderzustandsaktion in der semantischen Anwenderzustandsdarstellung, die von der Anwenderzustands-Erfassungseinheit 233 zugeführt wird, "Anwender vorhanden" ist oder nicht. Wenn die Anwenderzustandsaktion "Anwender vorhanden" beim Schritt S282 ist, wird als nächstes beim Schritt S283 die semantische Antwortdarstellung für das anfängliche Grüßen erzeugt, und der Übergang zum Zustand =1 wird durchgeführt. Wenn die Anwenderzustandsaktion beim Schritt S282 nicht "Anwender vorhanden" ist, bleibt die Dialogmanagementeinheit im Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe, um dieses Ablaufdiagram der Fig. 44 von Anfang an zu wiederholen.
Wenn die Dialogmanagementeinheit 234 beim Schritt S281 nicht im Zustand =0 ist, wird als nächstes beim Schritt S284 bestimmt, ob die Dialogmanagementeinheit 234 im Zustand =1 ist oder nicht. Wenn die Dialogmanagementeinheit 234 beim Schritt S284 im Zustand =1 ist, wird als nächstes beim Schritt S285 bestimmt, ob die Sprachaktion in der semantischen Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird "Bestellung" ist oder nicht. Wenn die Sprachaktion beim Schritt S285 "Bestellung" ist, wird als nächstes beim Schritt S286 die semantische Antwortdarstellung für die Bestätigung des bestellten Inhalts erzeugt. Dann behält die Dialogmanagementeinheit den Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
Wenn die Sprachaktion beim Schritt S285 nicht "Bestellung" ist, wird als nächstes beim Schritt S287 bestimmt, ob die Sprachaktion in der semantischen Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird, in Antwort auf die Bestätigungsantwort vom System "Ja" ist oder nicht. Wenn die Sprachaktion beim Schritt S287 "Ja" ist, wird als nächstes beim Schritt S288 der bestellte Inhalt in die Bestellungstabelle registriert, und der Übergang zum Zustand =2 wird durchgeführt und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
Wenn die Sprachaktion beim Schritt S287 nicht "Ja" ist, wird als nächstes beim Schritt S289 bestimmt, ob die Sprachaktion in der semantischen Äußerungsdarstellung, die von der Einheit zum Verstehen von Sprache 232 zugeführt wird, in Antwort auf die Bestätigungsantwort vom System "Nein" ist oder nicht. Wenn die Sprachaktion beim Schritt S289 "Nein" ist, wird als nächstes beim Schritt S290 die semantische Antwortdarstellung für die erneute Bestätigung des bestellten Inhalts erzeugt. Dann behält die Dialogmanagementeinheit den Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
Wenn die Sprachaktion beim Schritt S289 nicht "Nein" ist, wird als nächstes beim Schritt S291 bestimmt, ob die Anwenderzustandsaktion in der semantischen Anwenderzustandsdarstellung, die von der Anwenderzustands- Erfassungseinheit 233 zugeführt wird, "Anwender nicht vorhanden" ist oder nicht. Wenn die Anwenderzustandsaktion beim Schritt S291 "Anwender nicht vorhanden" ist, wird als nächstes beim Schritt S292 der Übergang zum Zustand =3 durchgeführt, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
Wenn die Anwenderzustandsaktion beim Schritt S291 nicht "Anwender nicht vorhanden" ist, bleibt die Dialogmanagementeinheit im Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
Wenn die Dialogmanagementeinheit 234 beim Schritt S284 nicht im Zustand =1 ist, wird als nächstes beim Schritt S293 bestimmt, ob die Dialogmanagementeinheit 234 im Zustand =2 ist oder nicht. Wenn die Dialogmanagementeinheit 234 beim Schritt S293 im Zustand =2 ist, wird als nächstes beim Schritt S294 die semantische Antwortdarstellung für den Endgruß Nr. 1 von "Vielen Dank" erzeugt, und der Übergang zum Zustand =0 wird durchgeführt, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
Wenn die Dialogmangementeinheit 234 beim Schritt S293 nicht im Zustand =2 ist, wird als nächstes beim Schritt S295 bestimmt, ob die Dialogmanagementeinheit 234 im Zustand =3 ist oder nicht. Wenn die Dialogmanagementeinheit 234 beim Schritt S295 im Zustand =3 ist, wird als nächstes beim Schritt S296 die semantische Antwortdarstellung für den Endgruß Nr. 2 von "Danke fürs Kommen." erzeugt, und der Übergang zum Zustand =0 wird durchgeführt, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.
Schließlich bleibt dann, wenn die Dialogmanagementeinheit 234 beim Schritt S295 nicht im Zustand =3 ist, die Dialogmanagementeinheit im Zustand =0, und der Betrieb geht weiter zu einer nächsten Operationszeitgabe.

III. DRITTES AUSFÜHRUNGSBEISPIEL

Nimmt man nun Bezug auf Fig. 45 wird ein drittes Ausführungsbeispiel eines Sprachdialogsystems gemäß der vorliegenden Erfindung detailliert beschrieben werden.
Dieses dritte Ausführungsbeispiel unterscheidet sich vom ersten und vom zweiten Ausführungsbeispiel, die oben beschrieben sind, darin, daß das weitere Detail der praktischen Implementierung der Sprachdialogsystemkonfiguration enthalten ist.
Wie es in Fig. 45 gezeigt ist, weist das Sprachdialogsystem bei diesem dritten Ausführungsbeispiel folgendes auf: eine Prozessoreinheit 291; eine Speichereinheit 292; eine Speichereinheit 293; eine Speichereinheitsschnittstelle 2931; eine Datenübertragungseinheit 294; eine Datenübertragungseinheitsschnittstelle 2941; eine A/D- Umwandlungseinheit 295; eine Matteneinheit 296; eine Hochgeschwindigkeits-Prozessoreinheit 297; eine D/A- Umwandlungseinheit 298; und eine Anzeigeeinheit 299; von welchen alle über einen gemeinsamen Systembus miteinander verbunden sind.
Hier weist die A/D-Umwandlungseinheit 295 weiterhin folgendes auf: ein Mikrophon 2951 zum Empfangen der eingegebenen Sprache vom Anwender; ein Filter und einen Verstärker 2952, die mit dem Mikrophon 2951 verbunden sind; einen A/D-Wandler 2953, der mit dem Filter und dem Verstärker 2952 verbunden ist; und eine A/D-Wandlerschnittstelle 2954, die zwischen dem A/S-Wandler 2953 und dem Systembus sowie mit Filter und dem Verstärker 2952 verbunden ist. Hier haben das Filter und der Verstärker 2952 Funktionen einer Verstärkung der eingegebenen Sprache, die durch das Mikrophon 2951 empfangen wird, und einer Tiefpaßfilterung zum Zwecke der A/D-Wandlung beim A/D- Wandler 2953. Die Grenzfrequenz dieser Tiefpaßfilterungsfunktion wird gemäß der Abtastfrequenz bestimmt, die bei der A/D-Umwandlung verwendet wird. Beispielsweise wird die Grenzfrequenz dann, wenn die Abtastfrequenz der A/D-Umwandlung 12 kHz ist, 5,4 kHz sein. Der A/D-Wandler 2953 wendet die A/S-Umwandlung bei den 16 kHz oder 12 kHz auf die verstärkte und tiefpaßgefilterte eingegebene Sprache an, und die durch die A/D-Wandler 2953 erhaltenen digitalen Daten der eingegebenen Sprache werden temporär in der A/D-Umwandlungsschnittstelle 2954 gespeichert und über den Systembus unter der Steuerung der Prozessoreinheit 291 zur Speichereinheit 292 übertragen.
Die Matteneinheit 296 weist weiterhin folgendes auf: eine Bodenmatte 2961, auf die durch den Anwender zu gehen ist; eine Bodenmatten-Steuerung 2962, die mit der Bodenmatte 2961 verbunden ist; und eine Bodenmatten-Steuerungsschnittstelle 2963, die mit der Bodenmatten-Steuerung 2962 verbunden ist. Hier wird das Vorhandensein oder Nichtvorhandensein des Anwenders des Systems durch die Bodenmatten-Steuerung 2962 gemäß dem Vorhandensein oder Nichtvorhandensein des Anwenders auf der Bodenmatte 2961 bestimmt, und das Anwendererfassungssignal wird temporär in der Bodenmatten- Steuerungsschnittstelle 2963 gespeichert und über den Systembus übertragen.
Die Hochgeschwindigkeits-Prozessoreinheit 297 weist weiterhin folgendes auf: einen Hochgeschwindigkeits-Prozessor 2971 und die mit dem Hochgeschwindigkeitsprozessor 2971 verbundene Hochgeschwindigkeits-Prozessorschnittstelle 2972. Dieser Hochgeschwindigkeitsprozessor 2971 wird beim Ausführen einer Verarbeitung großen Ausmaßes verwendet, die beim Betrieb zum Verstehen von Sprache und beim Betrieb zum Erzeugen einer Antwort erforderlich ist. In einem Fall eines Verwendens des Anwendererfassungsmechanismus unter Verwendung einer Überwachungskamera kann dieser Hochgeschwindigkeitsprozessor 2971 auch bei einer Verarbeitung großen Ausmaßes verwendet werden, die bei der Bildverarbeitung in Zusammenhang mit der Überwachungskamera erforderlich ist. Hier ist es nötig, daß diese Operationen parallel ausgeführt werden, so daß der Hochgeschwindigkeitsprozessor 2971 eine Vielzahl von parallelen Verarbeitungselementen enthält. Dieser Hochgeschwindigkeitsprozessor 2971 wird unter der Steuerung von der Prozessoreinheit 291 betrieben, wobei die Eingabe von der Speichereinheit 292 übertragen wird und die Ausgabe über die Hochgeschwindigkeits-Prozessorschnittstelle 2972 zur Speichereinheit 292 übertragen wird.
Die D/A-Umwandlungseinheit 298 weist weiterhin folgendes auf: einen Lautsprecher 2984 zum Ausgeben der Sprachantwort; ein Filter und einen Verstärker 2983, die mit dem Lautsprecher 2984 verbunden sind; einen D/A-Wandler 2982, der mit dem Filter und dem Verstärker 2983 verbunden ist; und eine D/A- Wandlerschnittstelle 2981, die mit dem D/A-Wandler 2982 verbunden ist. Hier werden die in der Speichereinheit 292 gespeicherten digitalen Daten für eine Sprachantwort über die D/A-Wandlerschnittstelle 2981 unter der Steuerung der Prozessoreinheit 291 zum D/A-Wandler 2982 übertragen, so daß der D/A-Wandler 2982 die D/A-Umwandlung bei 16 kHz oder 12 kHz auf die digitalen Daten für eine Sprachantwort anwendet, und die analoge Sprachantwort wird bei dem Filter und bei dem Verstärker 2983 gefiltert und verstärkt und vom Lautsprecher 2984 ausgegeben. Hier ist der D/A-Wandler 2982 mit einem internen Speicher zum Merken der digitalen Daten für eine Sprachantwort ausgestattet, und die Datenübertragung von Speichereinheit 292 zum D/A-Wandler 2982 wird mit hoher Geschwindigkeit realisiert, so daß die Prozessoreinheit 291 die andere Operation ausführen kann, während die Ausgabe der Sprachantwort in diesem D/A-Umwandlungseinheit 298 durchgeführt.
Die Anzeigeeinheit 299 weist weiterhin folgendes auf: eine Anzeige 2993 zum Anzeigen der visuellen Antwort; eine Anzeigesteuerung 2992, die mit der Anzeige 2993 verbunden ist; und eine Anzeigsteuerungsschnittstelle 2991, die mit der Anzeigesteuerung 2992 verbunden ist. Hier steuert die Anzeigesteuerung 2992 die Anzeige 2993 zum Anzeigen der visuellen Antwort, die in Bezug auf Bilder, Texte, Zeichen, animierte Bilder, Farben, Luminanzen und Konzentrationen gegeben ist, unter der Steuerung der Prozessoreinheit 291.
Die Datenübertragungseinheit 294 führt eine Datenübertragung bezüglich des Systems zu den externen Vorrichtungen, wie beispielsweise Computern, Datenprozessoren, etc., über die Datenübertragungseinheitsschnittstelle 2941 unter der Steuerung der Prozessoreinheit 291 durch.
Die Speichereinheit 293 speichert die Daten, Steuerparameter, Programme, etc., die beim Betrieb zum Verstehen von Sprache, beim Dialogmanagementbetrieb und beim Antworterzeugungsbetrieb erforderlich sind.
Die Prozessoreinheit 291 steuert die oben beschriebenen Operationen der Speichereinheit 293, der Datenübertragungseinheit 294, der A/D-Umwandlungseinheit 295, der Matteneinheit 296, der Hochgeschwindigkeits- Prozessoreinheit 297, der D/A-Umwandlungseinheit 298 und der Anzeigeeinheit 299 durch Verwenden von verschiedenen Daten und Programmen, die in der Speichereinheit 292 gespeichert sind. Hier führt die Prozessoreinheit 291 die Mehrfachaufaben-Ausführung der Programme zum Realisieren des Betriebs zum Verstehen, des Dialogmanagementbetriebs und des Antworterzeugungsbetriebs wie beim ersten und beim zweiten Ausführungsbeispiel aus, die oben beschrieben sind. Das Umschalten der Aufgabe wird sequentiell in einem regelmäßigen Intervall durchgeführt, aber die Unterbrechung durch die Verarbeitung, die zu einer höheren Priorität gehört, wird gemäß der Notwendigkeit zugelassen.
Bei dieser Konfiguration der Fig. 45 sind die A/D- Umwandlungseinheit 295 und die D/A-Umwandlungseinheit 298 separat vorgesehen, so daß sie unabhängig voneinander betrieben werden können. Mit dieser Konfiguration kann der Empfang der eingegebenen Sprache und die Ausgabe der Antwort parallel ausgeführt werden, und zwar unabhängig voneinander, so daß der Empfang der eingegebenen Sprache während der Ausgabe der synthetisierten Sprachantwort durch Auslöschen der synthetisierten Sprachantwort von den empfangenen Signalen durchgeführt werden kann.
Alterantiv dazu ist es, wie es in Fig. 46A gezeigt ist, möglich, diese A/D-Umwandlungseinheit 295 und diese D/A- Umwandlungseinheit 298 miteinander zu kombinieren, indem eine gemeinsame A/D- und D/A-Wandlerschnittstelle 301 verwendet wird, die zwischen dem Systembus und sowohl dem A/D-Wandler 2953 als auch dem D/A-Wandler 2982 angeschlossen ist.
Weiterhin ist es, wie es in Fig. 46B gezeigt ist, auch möglich, diese A/D-Umwandlungseinheit 295 und diese D/A- Umwandlungseinheit 298 miteinander zu kombinieren, indem ein gemeinsamer Verstärker 304 verwendet wird, der mit sowohl dem Mikrophon 2951 als auch dem Lautsprecher 2984 verbunden ist, einen gemeinsamen A/D- und D/A-Wandler und eine Filtereinheit 303, die mit dem gemeinsamen Verstärker 304 verbunden sind, und eine gemeinsame A/D- und D/A-Wandlerschnittstelle 301, die zwischen dem Systembus und dem gemeinsamen A/D- und D/A- Wandler und der Filtereinheit 303 angeschlossen ist.
Jedoch kann in einem Fall eines Verwendens von einer der Konfigurationen der Fig. 46A und der Fig. 46B der Empfang der eingegebenen Sprache und die Ausgabe der Antwort nicht parallel ausgeführt werden, da die kombinierte A/D- und D/A- Umwandlungseinheit nur in einem von dem A/D-Umwandlungsmode oder dem D/A-Umwandlungsmode gleichzeitig betrieben werden kann.
In einem solchen Fall ist es zum Verhindern, daß der Anwender eine Abbruchäußerung der eingegebenen Sprache während einer Zeitperiode durchführt, in welcher das System nicht zum Empfangen der eingegebenen Sprache bereit ist, ohne einen solchen Zustand des Systems zu realisieren, vorzuziehen, den Anwender diesbezüglich zu informieren, ob das System für den Empfang der eingegebenen Sprache bereit ist oder nicht, und zwar mittels einer geeigneten Anzeige auf der Anzeigeeinheit 2993. Zu diesem Zweck ist es vorzuziehen, die Anzeige zu verwenden, die den Mitteilungstext und das Mitteilungsvorzeichenbild kombiniert. Beispielsweise kann der Zustand, in welchem der Anwender die eingegebene Sprache äußern kann, durch die Anzeige angezeigt werden, die den Mitteilungstext von "SPRECHEN" und das Mitteilungsvorzeichenbild von sprechenden menschlichen Lippen kombiniert, wie es in Fig. 47 gezeigt ist, während der Zustand, in welchem der Anwender keine eingegebene Sprache äußern kann, durch die Anzeige angezeigt werden kann, die dem Mitteilungstext "HÖREN" und das Mitteilungszeichenbild von geschlossenen menschlichen Lippen kombiniert, wie es in Fig. 48 gezeigt ist.
Somit kann die visuelle Antwort beim Benachrichtigen des Anwenders über den Zustand des Systems bezüglich des Sprachdialogs verwendet werden.
Es ist zu beachten, daß die gleiche Anzeige, die den Mitteilungstext und das Mitteilungszeichenbild kombiniert, auch in einem Fall verwendet werden kann, in welchem die Äußerung der eingegebenen Sprache durch den Anwender angesichts des Dialogmanagements nicht vorzuziehen ist, oder in einem Fall eines Ausgebens der wichtigen Sprachantwortnachricht, für die es bevorzugt ist, durch den Anwender aufmerksam gehört zu werden.
Es ist auch zu beachten, daß eine solche Anzeige auch irgendwelche anderen visuellen Merkmale bezüglich der Aspekte von Farben, Luminanzen und Konzentrationen enthalten kann, die beim Einfangen der Aufmerksamkeit eines Anwenders verwendet werden können.

IV. EFFEKTE

Wie es beschrieben ist, wird es gemäß der vorliegenden Erfindung möglich, ein Sprachdialogsystem zu schaffen, das einen natürlichen und ruhigen Dialog zwischen dem System und einem menschlichen Anwender realisieren kann, und ein einfaches Handhaben des Systems durch den Anwender ermöglichen kann, und zwar mittels der effektiven Verwendung der multimodalen Antwort einschließlich der Sprachantwort und der visuellen Antwort, die die Sprachantwort-Textdaten, das menschliche Charakterbild und das Inhaltsvisualisierungsbild enthalten. Die Verwendung einer solchen multimodalen Antwort sorgt für eine freundliche Mensch-Computer- Interaktionsumgebung, in welcher das System die Antwortnachricht auf die multimodale Weise zur Verfügung stellt, um es für den Anwender einfacher zu machen, den Zustand des Dialogs zu begreifen, so daß der Dialog zwischen dem System und dem Anwender natürlich und ruhig weitergehen kann.
Als Folge kann das Problem der unvollständigen Spracherkennung aufgrund der Fehler und der Vieldeutigkeit, die zur Spracherkennung im Sprachdialogsystem gehören, effektiv durch den ruhigen Dialog zwischen dem System und dem Anwender kompensiert werden.
Zusätzlich kann der Einbau des Anwenderzustands- Erfassungsmechanismus und des Mechanismus zum Zulassen der Unterbrechung der Antwortausgabe durch die Äußerung der eingegebenen Sprache eines Anwenders die Handhabung des Systems durch den Anwender weiter verbessert werden.
Es ist zu beachten, daß neben diesen bereits oben angegebenen viele Modifikationen und Variationen der obigen Ausführungsbeispiele durchgeführt werden können, ohne von den neuen und vorteilhaften Merkmalen der vorliegenden Erfindung abzuweichen. Demgemäß sollen alle solchen Modifikationen und Variationen innerhalb des Schutzumfangs der beigefügten Ansprüche enthalten sein.

Claims

1. Sprachdialogsystem zum Durchführen eines Dialogs zwischen dem System und einem menschlichen Anwender, welches System folgendes aufweist:

a) eine Sprach-Versteheinrichtung (11) zum Verstehen eines semantischen Inhalts einer eingegebenen Sprache von einem Anwender;

b) eine Dialog-Managementeinrichtung (12) zum Durchführen einer semantischen Bestimmung eines ausgegebenen Antwortinhalts gemäß dem semantischen Inhalt der von der Sprach-Versteheinrichtung (11) verstandenen eingegebenen Sprache;

c) eine Antworten-Erzeugungseinrichtung (13) zum Erzeugen einer Sprachantwort und einer visuellen Antwort gemäß dem ausgegebenen Antworteninhalt, der durch die Dialog-Managementeinrichtung (12) bestimmt ist; und

d) eine Ausgabeeinrichtung (14, 15) zum Ausgeben der Sprachantwort und der visuellen Antwort, die durch die Antworten-Erzeugungseinrichtung (13) erzeugt sind, zum Anwender;

dadurch gekennzeichnet, daß

e) die visuelle Antwort eine visuelle Anzeige zum Informieren des Anwenders diesbezüglich enthält, ob das System bereit zum Empfangen der eingegebenen Sprache ist.

2. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort mit einem Bild eines menschlichen Charakters bzw. Zeichen erzeugt, um die Sprachantwort, Textdaten der Sprachantwort und ein den Inhalt visualisierendes Bild eines Inhalts der Sprachantwort auszugeben.

3. Sprachdialogsystem nach Anspruch 1, wobei die Ausgabeeinrichtung (14, 15) die Sprachantwort und die visuelle Antwort durch Steuern wenigstens einer Ausgabereihenfolge, einer Ausgabezeitgabe und einer Ausgabeposition für eine visuelle Antwort ausgibt.

4. Sprachdialogsystem nach Anspruch 1, das weiterhin eine Anwenderzustands-Erfassungseinrichtung zum Erfassen eines physikalischen Zustands des Anwenders aufweist, wobei der physikalische Zustand des Anwenders, der durch die Anwenderzustands-Erfassungseinrichtung erfaßt ist, durch die Dialog-Managementeinrichtung beim Durchführen der semantischen Bestimmung des ausgegebenen Antworteninhalts berücksichtigt wird.

5. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort mit einem Bild eines menschlichen Charakters bzw. Zeichens erzeugt, um die Sprachantwort auszugeben, wobei das Bild eine Bewegung und einen Gesichtsausdruck des menschlichen Charakters enthält.

6. Sprachdialogsystem nach Anspruch 5, wobei die Antworten- Erzeugungseinrichtung (13) die Sprachantwort, die eine Sprachcharakteristik enthält, entsprechend der Bewegung und dem Gesichtsausdruck des menschlichen Charakters erzeugt.

7. Sprachdialogsystem nach Anspruch 6, wobei die Sprachcharakteristik der Sprachantwort wenigstens einen von einem emotionalen Ausdruck und einer Intonation enthält.

8. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Sprach-Versteheinrichtung (11) eine Vielzahl von Kandidaten für den semantischen Inhalt der eingegebenen Sprache zuführt, und die Dialog- Managementeinrichtung (12) die semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Vielzahl von Kandidaten gemäß einer Dialog-Vorgeschichte durchführt.

9. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Dialog-Mangementeinrichtung (12) den ausgegebenen Antworteninhalt zurück zur Sprach- Versteheinrichtung (11) zuführt, um, bevor eine nachfolgende eingegebene Sprache in die Sprach- Versteheinrichtung (11) eingegeben wird, eine Anzahl von Kandidaten für zu erfassende Schlüsselworte sowie beim Verstehen des semantischen Inhalts der nachfolgenden eingegebenen Sprache zu verwendende syntaktische und semantisch Regeln zu begrenzen.

10. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort einschließlich eines den Inhalt visualisierenden Bildes, das durch Bilder von Objekten gebildet ist, die in der Sprachantwort angegeben sind, und einer numerischen Zahl, die eine Quantität jedes der Objekte anzeigt, erzeugt.

11. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die Sprachantwort zum Durchführen einer Bestätigung des semantischen Inhalts der eingegebenen Sprache erzeugt, während sie die visuelle Antwort erzeugt, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigt.

12. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die visuelle Antwort einschließlich von Textdaten der Sprachantwort und graphischer Bilder, die andere als die Textdaten sind, erzeugt und die Antworten-Erzeugungseinrichtung die Sprachantwort und die Textdaten zum Durchführen einer Bestätigung des semantischen Inhalts der eingegebenen Sprache erzeugt, während sie die graphischen Bilder erzeugt, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigen.

13. Sprachdialogsystem nach Anspruch 1, wobei die Antworten- Erzeugungseinrichtung (13) die Sprachantwort zum Durchführen einer Bestätigung des semantischen Inhalts der eingegebenen Sprache erzeugt, wobei die Sprachantwort zum Durchführen der Bestätigung gemäß einer Länge der Sprachantwort geändert wird.

14. Sprachdialogsystem nach Anspruch 13, wobei die Länge der Sprachantwort zum Durchführen der Bestätigung aus einer Anzahl von durch die Bestätigung zu bestätigenden Elementen bestimmt wird.

15. Sprachdialogsystem nach Anspruch 14, wobei die vollständige Sprachantwort alle zu bestätigenden Elemente erwähnt, während die vereinfachte Sprachantwort die direkt zu bestätigenden Elemente nicht erwähnt.

16. Sprachdialogsystem nach Anspruch 15, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Anwort enthält.

17. Sprachdialogsystem nach Anspruch 13, wobei die vollständige Sprachantwort den ausgegebenen Antworteninhalt explizit rezitiert, während die vereinfachte Sprachantwort den ausgegebenen Antworteninhalt nicht explizit rezitiert.

18. Sprachdialogsystem nach Anspruch 17, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Antwort enthält.

19. Sprachdialogsystem nach Anspruch 13, wobei die Ausgabeeinrichtung die visuelle Antwort zu einer früheren Zeitgabe als einer Zeitgabe zum Ausgeben der visuellen Antwort ausgibt, wenn die Sprachantwort die vollständige Sprachantwort ist.

20. Sprachdialogsystem nach Anspruch 13, wobei die Ausgabeeinrichtung die visuelle Antwort ausgibt, bevor die visuelle Antwort ausgegeben wird.

21. Verfahren für einen Sprachdialog zwischen einem menschlichen Anwender und einem Sprachdialogsystem, welches Verfahren die folgenden Schritte aufweist:

a) Verstehen eines semantischen Inhalts einer eingegebenen Sprache von einem Anwender;

b) Durchführen einer semantischen Bestimmung eines ausgegebenen Antworteninhalts gemäß dem semantischen Inhalt der bei dem Verstehschritt verstandenen eingegebenen Sprache;

c) Erzeugen einer Sprachantwort und einer visuellen Antwort gemäß dem beim Durchführschritt bestimmten ausgegebenen Antworteninhalt; und

d) Ausgeben der Sprachantwort und der visuellen Antwort, die beim Erzeugungsschritt erzeugt sind, zum Anwender;

dadurch gekennzeichnet, daß

e) die visuelle Antwort eine visuelle Anzeige zum Informieren des Anwenders diesbezüglich enthält, ob das System dazu bereit ist, die eingegebene Sprache zu empfangen.

22. Verfahren nach Anspruch 21, wobei der Erzeugungsschritt die visuelle Antwort einschließlich eines Bildes eines menschlichen Charakters erzeugt, um die Sprachantwort, Textdaten der Sprachantwort und ein den Inhalt visualisierendes Bild eines Inhalts der Sprachantwort auszugeben.

23. Verfahren nach Anspruch 21, wobei der Ausgabeschritt die Sprachantwort und die visuelle Antwort durch Steuern Von wenigstens einem einer Ausgabereihenfolge, einer Ausgabezeitgabe und einer Ausgabeposition für eine visuelle Antwort ausgibt.

24. Verfahren nach Anspruch 21, das weiterhin den Schritt zum Erfassen eines physikalischen Zustands des Anwenders aufweist, und wobei der Durchführschritt die semantische Bestimmung des ausgegebenen Antworteninhalts durch Berücksichtigen des physikalischen Zustands des Anwenders durchführt, welcher Zustand beim Erfassungsschritt erfaßt ist.

25. Verfahren nach Anspruch 21, wobei der Erzeugungsschritt die visuelle Antwort einschließlich eines Bildes eines menschlichen Körpers erzeugt, um die Sprachantwort auszugeben, wobei das Bild eine Bewegung und einen Gesichtsausdruck des menschlichen Charakters enthält.

26. Verfahren nach Anspruch 25, wobei der Erzeugungsschritt die Sprachantwort erzeugt, die eine Sprachcharakteristik enthält, entsprechend der Bewegung und dem Gesichtsausdruck des menschlichen Charakters.

27. Verfahren nach Anspruch 26, wobei die Sprachcharakteristik der Sprachantwort wenigstens eines von einem emotionalen Ausdruck und einer Intonation enthält.

28. Verfahren nach Anspruch 21, wobei der Verstehschritt eine Vielzahl von Kandidaten für den semantischen Inhalt der eingegebenen Sprach erhält und der Durchführschritt die semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Vielzahl von Kandidaten gemäß einer Dialog-Vorgeschichte durchführt.

29. Verfahren nach Anspruch 21, das weiterhin den Schritt zum Zuführen des durch den Durchführschritt erhaltenen ausgegebenen Antworteninhalts zurück zum Verstehschritt und zum Begrenzen, bevor eine nachfolgende eingegebene Sprache dem Verstehschritt zugeteilt wird, einer Anzahl von Kandidaten für zu erfassende Schlüsselworte sowie für beim Verstehen des semantischen Inhalts der nachfolgend eingegebenen Sprache zu verwendende syntaktische und semantische Regeln aufweist.

30. Verfahren nach Anspruch 21, wobei der Erzeugungsschritt die visuelle Antwort einschließlich eines den Inhalt visualisierenden Bildes, das durch Bilder von Objekten gebildet wird, die in der Sprachantwort angegeben sind, und einer numerischen Zahl, die eine Quantität jedes der Objekte anzeigt, erzeugt.

31. Verfahren nach Anspruch 21, wobei beim Erzeugungsschritt die Sprachantwort zum Durchführen einer Bestätigung in bezug auf den semantischen Inhalt der eingegebenen Sprache erzeugt wird, während die visuelle Antwort, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigt, erzeugt wird.

32. Verfahren nach Anspruch 21, wobei beim Erzeugungsschritt die visuelle Antwort Textdaten der Sprachantwort und graphische Bilder, die andere als die Textdaten sind, enthält und die Sprachantwort und die Textdaten zum Durchführen einer Bestätigung in bezug auf den semantischen Inhalt der eingegebenen Sprache erzeugt werden, während die graphischen Bilder, die eine vergangene Vorgeschichte eines Dialogs zwischen dem Anwender und dem System berücksichtigen, erzeugt werden.

33. Verfahren nach Anspruch 21, wobei beim Erzeugungsschritt die Sprachantwort zum Durchführen einer Bestätigung in bezug auf den semantischen Inhalt der eingegebenen Sprache erzeugt wird, wobei die Sprachantwort von einer vollständigen Sprachantwort zu einer vereinfachten Sprachantwort geändert wird, und zwar gemäß einer Länge der Sprachantwort zum Durchführen der Bestätigung.

34. Verfahren nach Anspruch 33, wobei die Länge der Sprachantwort zum Durchführen der Bestätigung aus einer Anzahl von durch die Bestätigung zu bestätigenden Elementen bestimmt wird.

35. Verfahren nach Anspruch 34, wobei die vollständige Sprachantwort alle zu bestätigenden Elemente erwähnt, während die vereinfachte Sprachantwort die direkt zu bestätigenden Elemente nicht erwähnt.

36. Sprachdialogsystem nach Anspruch 35, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Antwort enthält.

37. Verfahren nach Anspruch 33, wobei die vollständige Sprachantwort den ausgegebenen Antworteninhalt explizit rezitiert, während die vereinfachte Sprachantwort den ausgegebenen Antworteninhalt nicht explizit rezitiert.

38. Verfahren nach Anspruch 37, wobei die vereinfachte Sprachantwort ein Demonstrativpronomen zur Bezugnahme auf die visuelle Antwort enthält.

39. Verfahren nach Anspruch 33, wobei beim Ausgabeschritt die visuelle Antwort zu einer früheren Zeitgabe ausgegeben wird, als eine Zeitgabe zum Ausgeben der visuellen Antwort, wenn die Sprachantwort die vollständige Sprachantwort ist.

40. Verfahren nach Anspruch 33, wobei beim Ausgabeschritt die visuelle Antwort ausgegeben wird, bevor die visuelle Antwort ausgegeben wird.

41. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Dialog-Managementeinrichtung (12) zum Managen des Dialogs zwischen dem Anwender und dem System durch Steuern von Übergängen zwischen Anwenderzuständen, in welchen die eingegebene Sprache in das Sprach-Verstehsystem einzugeben ist, und Systemzuständen, in welchen die Systemantwort von der Antworten-Ausgabeeinrichtung auszugeben ist, vorgesehen ist.

42. Sprachdialogsystem nach Anspruch 41, wobei das Dialog- Managementsystem die Übergänge zwischen den Anwenderzuständen und den Systemzuständen gemäß dem semantischen Inhalt der durch die Sprach- Versteheinrichtung verstandenen eingegebenen Sprache steuert.

43. Sprachdialogsystem nach Anspruch 1, gekennzeichnet durch die Dialog-Managementeinrichtung, die die zu erfassenden Schlüsselworte in der eingegebenen Sprache durch die Sprach-Versteheinrichtung im voraus begrenzt, und zwar gemäß einem Zustand eines Dialogs zwischen dem Anwender und dem System.

44. Sprachdialogsystem nach Anspruch 43, wobei die Dialog- Managementeinrichtung eine semantische Bestimmung der Systemantwort, die durch die Antworten-Ausgabeeinrichtung auszugeben ist, gemäß dem semantischen Inhalt der durch die Sprach-Versteheinrichtung verstandenen eingegebenen Sprache durchführt und die zu erfassenden Schlüsselworte in der eingegebenen Sprache durch die Sprach- Versteheinrichtung im voraus begrenzt, indem sie die semantische Bestimmung der Systemantwort für eine vorherige eingegebene Sprache verwendet, welche einen aktuellen Zustand des Dialogs zwischen dem Anwender und dem System anzeigt.

45. Sprachdialogsystem nach Anspruch 43, wobei die Dialog- Managementeinrichtung auch syntaktische und semantische Regeln, die durch die Sprach-Versteheinrichtung zu verwenden sind, im voraus begrenzt, und zwar gemäß einem Zustand eines Dialogs zwischen dem Anwender und dem System.

46. Sprachdialogsystem nach Anspruch 1, dadurch gekennzeichnet, daß die Sprach-Versteheinrichtung (11) folgendes aufweist:

a1) eine Schlüsselwort-Erfassungseinheit (21) zum Extrahieren vorbestimmter Schlüsselworte (Fig. 5) aus der eingegebenen Sprache;

a2) eine Einheit zur syntaktischen und semantischen Analyse (22) zum Bestimmen mehrerer semantischer Äußerungsdarstellungskandidaten (Fig. 12D, 12E) auf der Basis der Schlüsselworte gemäß vorgeschriebener syntaktischer und semantischer Regeln; und

b1) die Dialog-Managementeinrichtung (12) die semantischen Äußerungsdarstellungskandidaten empfängt und die semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Kandidaten gemäß einer Dialog-Vorgeschichte durchführt.

47. Verfahren nach Anspruch 21, dadurch gekennzeichnet, daß

f) der Schritt a) eine Extraktion vorbestimmter Schlüsselworte (Fig. 5) aus der eingegebenen Sprache aufweist; und

f2) die Bestimmung mehrerer semantischer Äußerungsdarstellungskandidaten gemäß vorgeschriebener syntaktischer und semantischer Regeln auf der Basis der Schlüsselworte; und

g) der Schritt a) das Empfangen der semantischen Äußerungsdarstellungskandidaten und eine semantische Bestimmung des ausgegebenen Antworteninhalts durch Bewerten der Kandidaten gemäß einer Dialog- Vorgeschichte aufweist.