DE60211264T2

DE60211264T2 - Adaptieve Navigation in einer Sprachantwortsystem

Info

Publication number: DE60211264T2
Application number: DE60211264T
Authority: DE
Inventors: Albert Foucher
Original assignee: Societe Francaise du Radiotelephone SFR SA
Current assignee: Societe Francaise du Radiotelephone SFR SA
Priority date: 2001-09-14
Filing date: 2002-09-06
Publication date: 2007-03-01
Also published as: DE60211264T8; US20030069731A1; FR2829896B1; DE60211264D1; MA25729A1; ATE326117T1; FR2829896A1; EP1294164B1; ES2263750T3; EP1294164A1

Description

Die vorliegende Erfindung betrifft ein Verfahren zur adaptiven Navigation in einem interaktiven Sprachsystem, ein System für die interaktive Sprachnavigation und die Verwendung dieses Sprachsystems.
Ein Sprachnavigationssystem wird in bekannter Weise auf dem Gebiet der Mobiltelephone verwendet. Ein Anwender, der über ein mobiles Endgerät verfügt, das sich in der Funkzelle einer Basisstation befindet, kann nämlich ausgehend von seinem Endgerät auf einen oder mehrere Sprachdienste zugreifen. Gemäß seinem Wunsch kann der Anwender mit einer physischen Person, die Fernaktor genannt wird, oder mit einem interaktiven Sprachsystem in direkte Kommunikation gesetzt werden. Diese interaktiven Sprachsysteme ermöglichen dem Anwender, zwischen individuellen Diensten zu navigieren, beispielsweise indem er Tasten auf der Tastatur seines mobilen Endgeräts auswählt. Der Anwender kann verlangen, auf seine letzte Rechnung zu sehen, seine Pauschale zu ändern oder sofort einen Fernaktor zu Rate zu ziehen, um eine Auskunft zu bekommen oder eine über die Tastatur seines mobilen Endgeräts unmögliche Änderung durchzuführen. Es existieren andere Sprachnavigationssysteme, die es ermöglichen, direkt auf die Fragen der Anwender zu reagieren und zu antworten, ohne dass es erforderlich wäre, auf einen Fernaktor auszuweichen. Im Stand der Technik umfassen diese Systeme eine Maschine zur Wiedererkennung der Sprache, der eine Vielzahl von Vokabular- und Grammatiktabellen zugeordnet sind, die die von der Maschine wiedererkannten Worte oder Ausdrücke umfassen, und eine Sprachanwendung, die auch Dienstlogik gekannt wird und die für die Steuerung der Dialoge mit dem Anwender durch eine Sprachschnittstelle verantwortlich ist. Die Qualität der Wiedererkennung, die von der Maschine zur Sprachwiedererkennung durchgeführt wird, beeinflusst die Möglichkeiten des Sprachsystems sehr. Für den Komfort des Anwenders ist es jedoch auch erforderlich, über eine Hochleistungs-Dienstlogik zu verfügen, um eine zufrieden stellende Dienstqualität zum Anwender liefern zu können. Die aktuellen Systeme verwenden Dienstlogiken, die das Verhalten des Anwenders nicht oder wenig berücksichtigen. Sie steuern nämlich das Hören des Anwenders ziemlich schlecht, wobei der Dialog häufig für einen unerfahrenen Anwender zu knapp oder für einen Stammanwender weitschweifig ist, das System berücksichtigt nicht die schlechten Verständlichkeiten, daher Risiken für die Wiederholung und für Schleifen oder dergleichen, und das System passt die Dialoge nicht an die Denkweise des Anwenders an.
Aus dem Dokument US 6 144 938 ist die Ausführung von Sprachanwendungen bekannt, bei denen die Anwendungslogik strukturiert ist. In diesem Dokument ist vorgesehen, dass der Anwender die Art von Personalisierung seines Dienstes definieren kann. Der Anwender kann folglich wählen, dass der Dialog beispielsweise unter Verwendung einer weiblichen Stimme, mit verschiedenen Höflichkeitsregeln, unter Verwendung von Kommentaren, die eine negative Form annehmen können, wenn Probleme angetroffen werden, erfolgt. Derartige Sprachanwendungen ermöglichen es jedoch nicht, den Dialog in Abhängigkeit von den angetroffenen Bedingungen dynamisch anzupassen.
Aus der europäischen Patentanmeldung EP 0 697 780 A2 ist auch ein Sprachantwortgerät bekannt, das in Abhängigkeit von der Kompetenz des Anwenders Fragen stellen/Anweisungen geben kann, indem die mittlere Zeit, die der Anwender braucht, um auf eine Taste zu drücken, berücksichtigt wird. Ein derartiges Antwortgerät kann die Entwicklung der Dialoge mit dem Anwender nicht dynamisch steuern. Das Dokument DE 199 56 747 beschreibt eine Vorrichtung zur Sprachwiedererkennung, die bestimmte Parameter analysiert, um vom Anwender zu verlangen oder nicht, dass er seine Ausdrucksweise verbessert. Der Nachteil dieser Art von Vorrichtung besteht darin, dass es definitiv der Anwender ist, der sich an die angetroffenen Dialogbedingungen anpassen muss.
Das Ziel der Erfindung besteht darin, ein Verfahren zur Sprachnavigation vorzuschlagen, das nicht mehr die Nachteile des Standes der Technik aufweist.
Dieses Ziel wird durch ein Verfahren zur adaptiven Navigation in einem interaktiven Sprachsystem erreicht, das eine Maschine für die Wiedererkennung einer mündlichen Äußerung eines Anwenders und eine in einem Speicher einer Zentral einheit eines Datenverarbeitungssystems gespeicherte Sprachanwendung umfasst und über Dialogsteuerungsmittel den Dialog mit dem Anwender über eine Sprachschnittstelle in Abhängigkeit von der erfolgten Wiedererkennung steuert, dadurch gekennzeichnet, dass es eine dynamische Steuerung der Ergonomie der Dialoge mit dem Anwender umfasst, um die Sprachanwendung in Abhängigkeit von mehreren mit dem Verhalten des Anwenders in Verbindung stehenden Indikatoren, die durch in dem Speicher der Zentraleinheit gespeicherte Daten repräsentiert werden, anzupassen.
Gemäß einer weiteren Besonderheit umfasst das Verfahren einen Schritt der Analyse der erfolgten Wiedererkennung und in Abhängigkeit von dieser Analyse und des Zustandes wenigstens eines Indikators ein Auslösen einer durch die Sprachanwendung gesteuerten Aktion.
Gemäß einer weiteren Besonderheit kann die Aktion entweder dem Schicken einer Antwort auf eine von einem Anwender vorgenommene mündliche Äußerung oder einer Aufforderung des Anwenders, dass er seine mündliche Äußerung wiederholt, einer Aufforderung des Anwenders, dass er spricht, oder einem Verweis auf eine Beratung durch eine physische Person oder aber einer Modifikation der dem Anwender zu bietenden Unterstützungsebene entsprechen.
Gemäß einer weiteren Besonderheit wird vor dem Auslösen der Aktion ein Schritt des Schickens einer Aufforderung zur Bestätigung der erfolgten Wiedererkennung ausgeführt.
Gemäß einer weiteren Besonderheit umfasst das Verfahren einen Schritt, bei dem nach Maßgabe des Dialogs mit dem Anwender der Wert mehrerer Zähler, die einem ersten Indikator, der die Dialogebene des Anwenders repräsentier, einem zweiten Indikator, der auf der Qualität des Dialogs basiert, und einem dritten Indikator, der die Historie des Dialogs mit dem Anwender repräsentiert, entsprechen, gespeichert und entwickelt wird.
Gemäß einer weiteren Besonderheit umfasst das Verfahren einen Schritt des Inkrementierens eines Dialogebenen-Zählers, der einen Schritt des Modifizierens der Unterstützungsebene auslöst.
Gemäß einer weiteren Besonderheit umfasst das Verfahren einen Schritt des Inkrementierens eines Zählers für fehlende Antwort, der dann, wenn dieser Zähler streng kleiner als ein Maximalwert ist, einen Schritt des Schickens einer Aufforderung des Anwenders, dass er spricht, auslöst.
Gemäß einer weiteren Besonderheit umfasst das Verfahren einen Schritt des Inkrementierens eines Verständnisdefizit-Zählers, der dann, wenn dieser Zähler kleiner als ein Maximalwert ist, einen Schritt des Schickens einer Aufforderung des Anwenders, dass er wiederholt, auslöst.
Ein weiteres Ziel der Erfindung besteht darin, ein System für die Sprachnavigation vorzuschlagen, das das vorstehend beschriebene Verfahren ausführen kann.
Dieses Ziel wird durch ein System zur interaktiven Sprachnavigation erreicht, das eine Maschine für die Wiedererkennung einer mündlichen Äußerung eines Anwenders und eine in einem Speicher einer Zentraleinheit eines Datenverarbeitungssystems gespeicherte Sprachanwendung, die über Dialogsteuerungsmittel den Dialog mit dem Anwender über eine Sprachschnittstelle in Abhängigkeit von der erfolgten Wiedererkennung steuert, umfasst, dadurch gekennzeichnet, dass es außerdem Mittel zur dynamischen Steuerung der Ergonomie der Dialoge mit dem Anwender umfasst, um die Sprachanwendung in Abhängigkeit von mehreren Indikatoren, die mit dem Verhalten des Anwenders in Verbindung stehen und durch im Speicher der Zentraleinheit gespeicherte Daten repräsentiert werden, anzupassen.
Gemäß einer weiteren Besonderheit umfasst das System Mittel für die Analyse der erfolgten Wiedererkennung und Mittel zum Auslösen einer durch die Sprachanwendung gesteuerten Aktion in Abhängigkeit von der Analyse der erfolgten Wiedererkennung und vom Zustand wenigstens eines Indikators.
Gemäß einer weiteren Besonderheit umfasst das System Mittel zum Ausarbeiten und Schicken einer Antwort auf eine vom Anwender vorgenommene mündliche Äußerung, Mittel zum Ausarbeiten und Schicken einer Aufforderung zur Bestätigung der erfolgten Wiedererkennung, Mittel zum Ausarbeiten und Schicken einer Aufforderung des Anwenders, dass er seine mündliche Äußerung wiederholt, oder einer Aufforderung des Anwenders, dass er spricht, Mittel zum Weiterleiten des Dialogs zu einer physischen Person und Mittel zum Einstellen einer dem Anwender zu bietenden Unterstützungsebene.
Gemäß einer weiteren Besonderheit umfasst das System einen ersten Indikator, der die Ebene der mündlichen Äußerung des Anwenders repräsentiert, einen zweiten Indikator, der die Qualität des Dialogs repräsentiert, und einen dritten Indikator, der die Historie des Dialogs mit dem Anwender repräsentiert.
Gemäß einer weiteren Besonderheit ist jeder der Indikatoren wenigstens einem gespeicherten Zähler zugeordnet, dessen Wert sich nach der Maßgabe des Dialogs mit dem Anwender entwickeln kann.
Gemäß einer weiteren Besonderheit ist dem ersten Indikator ein so genannter Dialogebenen-Zähler zugeordnet, der im Speicher der Zentraleinheit gespeichert ist und der dann, wenn er inkrementiert oder dekrementiert wird, die Modifikation der Unterstützungsebene auslöst.
Gemäß einer weiteren Besonderheit entsprechen dem zweiten Indikator zwei Zähler, nämlich ein erster lokaler, so genannter Verstehensdefizit-Zähler und ein zweiter lokaler, so genannter Zähler für fehlende Antwort, die beide im Speicher der Zentraleinheit gespeichert sind.
Gemäß einer weiteren Besonderheit entspricht dem dritten Indikator ein so genannter allgemeiner Historienzähler, der im Speicher der Zentraleinheit gespeichert ist.
Gemäß einer weiteren Besonderheit kann der Dialogebenen-Zähler Werte im Bereich von 0 bis 4 annehmen.
Gemäß einer weiteren Besonderheit kann der Verstehensdefizit-Zähler Werte im Bereich von 0 bis zu einem Wert, der seinen gespeicherten Maximalwert, der 2 ist, überschreitet, annehmen.
Gemäß einer weiteren Besonderheit kann der Zähler für fehlende Antwort Werte im Bereich von 0 bis zu einem Wert, der seinen gespeicherten Maximalwert, der 2 ist, überschreitet, annehmen.
Gemäß einer weiteren Besonderheit kann der allgemeine Historienzähler Werte im Bereich von 0 bis zu einem Wert, der seinen gespeicherten Maximalwert, der 3 ist, überschreitet, annehmen.
Die Erfindung betrifft auch die Verwendung des vorstehend beschriebenen Sprachsystems im Gebiet der Mobiltelephone.
Die Erfindung geht mit ihren Merkmalen und Vorteilen bei der Lektüre der Beschreibung deutlicher hervor, die mit Bezug auf die beigefügten Zeichnungen durchgeführt wird, in denen:
1 schematisch das erfindungsgemäße Sprachnavigationssystem darstellt,
2 einen Algorithmus darstellt, der im erfindungsgemäßen Sprachnavigationsverfahren verwendet wird.
Die Erfindung wird nun in Verbindung mit den 1 und 2 beschrieben.
Die Erfindung hat das Ziel, die Beziehung zwischen einem in ein Kommunikationsnetz eingebauten Sprachsystem und dem Anwender, der mit diesem Netz durch jegliche Mittel wie ein Telephon oder einen Computer verbunden ist, in dynamischer und änderbarer Weise zu steuern. Wenn der Anwender beispielsweise durch ein Funktelephonnetz mit dem Sprachnavigationssystem (1) verbunden wird, das mindestens einen Speicher (10), beispielsweise einer Zentraleinheit (UC) eines Datenverarbeitungssystems, umfasst, wie in 1 dargestellt, wird er folglich in flexibler Weise durch das, was Anwenderkontext genannt wird, insbe sondere in Abhängigkeit seines Kenntnisgrades, der Genauigkeit seiner Suche und der Qualität der Austauschvorgänge, geführt und unterstützt. Der Speicher kann aus einem oder mehreren Speichern bestehen und von jeglichen Typen sein, d. h. RAM, ROM, PROM, EPROM...
Mit Bezug auf 1 umfasst das erfindungsgemäße Sprachnavigationssystem eine Sprachschnittstelle (2), die die Informationen in Sprachform, d. h. in analoger Form, empfängt und sendet. Das erfindungsgemäße System umfasst auch eine Maschine (11) zur Wiedererkennung der Sprache. Diese Maschine ist beispielsweise in die Zentraleinheit (UC) eines Datenverarbeitungssystems integriert und für das Durchführen der Wiedererkennung der Worte verantwortlich, die vom Anwender über das Netz ankommen. Dafür ist diese Maschine (11) zur Wiedererkennung der Sprache Vokabular- und Grammatiktabellen (T) zugeordnet, die im Speicher (10) beispielsweise der Zentraleinheit (UC) gespeichert sind. Die Wiedererkennungsmaschine (11) empfängt die vorher digitalisierten Informationen, versucht dann, indem sie die Tabellen zu Rate zieht, die Daten einem Buchstaben oder einer Silbe zuzuordnen, um ein Wort oder einen Satz wiederherzustellen.
Eine Sprachanwendung (12) oder dergleichen, die Dienstlogik genannt wird, ist auch im Speicher (10), beispielsweise der Zentraleinheit (UC), gespeichert. Diese Sprachanwendung (12) ist dafür verantwortlich, durch Dialogsteuerungsmittel den Dialog mit dem Anwender zu steuern. Eine Analysemaschine (13), die beispielsweise in die Zentraleinheit (UC) integriert ist, bewirkt die Analyse der von der Sprachwiedererkennungsmaschine (11) empfangenen Daten. Diese Analyse besteht aus dem Verstehen des Sinnes der vom Anwender verkündeten mündlichen Äußerung. In Abhängigkeit von dieser Analyse stellt die Sprachanwendung (12) durch Dialogsteuerungsmittel die geeigneten Antworten her und schickt sie zur Sprachschnittstelle (2), damit sie wiedergegeben und zum Anwender übertragen werden. Diese Dialogsteuerungsmittel werden von der Sprachanwendung (12) beauftragt, in den Tabellen (T) die zusammenzusetzenden Informationen zu suchen, um die Antwort oder eine komplementäre Frage zu konstruieren und diese Antwort oder diese komplementäre Frage zur Sprachschnittstelle (2) zu schicken, damit sie wiedergegeben wird.
Eine Sitzung ist nachstehend als eine einzige Kommunikation zwischen dem Anwender, der sein Telephon oder seinen Computer verwendet, und dem Sprachnavigationssystem, das in das Netz eingebaut ist, definiert. Während einer Sitzung kann ein Anwender folglich dem Sprachnavigationssystem (1) mehrere unabhängige Fragen stellen.
Um den Fortschritt des Anwenders in seiner Navigation zu verfolgen, ist ihm ein Anwenderkontext in einem Speicher des Systems zugeordnet. Dieser Kontext begleitet den Anwender während der ganzen Dauer seiner Sitzung und lässt die Sprachanwendung (12) in geeigneter Weise in Abhängigkeit vom Verhalten des Anwenders und der Historie der Sitzung reagieren.
Dieser Anwenderkontext umfasst einen ersten Indikator auf der Anwenderebene, der durch die Qualität der mündlichen Äußerung des Anwenders bestimmt ist. Der Anwender verwendet nämlich bei einer Kommunikation mit dem Sprachnavigationssystem (1) in seiner mündlichen Äußerung eine mehr oder weniger ungenaue Sprache. In seiner Sprache erscheint der Anwender eher erfahren, eher gewohnt oder eher unerfahren. Dieser erste Indikator ist mit einem anderen Indikator verbunden, der die dem Anwender zu bietende Unterstützungsebene berücksichtigt. In Abhängigkeit von der Dialogebene des Anwenders wird ihm eine mehr oder weniger große Unterstützung, d. h. mehr oder weniger detaillierte Erklärungen, geboten.
Der Anwenderkontext umfasst auch einen zweiten Indikator, der auf der Qualität des Dialogs zwischen dem Anwender und dem Sprachnavigationssystem basiert. Dieser Indikator berücksichtigt die fehlenden Antworten des Anwenders oder die vom Sprachnavigationssystem wahrgenommenen Verstehensdefizite.
Der Anwenderkontext umfasst auch einen dritten Indikator, der auf der Historie des Dialogs mit dem Anwender in einer Sitzung basiert.
Gemäß der Erfindung ist jedem Indikator ein beispielsweise in dem Speicher (10) der Zentraleinheit (UC) gespeicherter Zähler zugeordnet, der sich in Abhängigkeit vom Verhalten des Anwenders inkrementiert oder dekrementiert. Diese Zähler ermöglichen, im Verlauf einer Sitzung den Anwenderkontext in dynamischer Weise in Abhängigkeit vom Verhalten des Anwenders anzupassen.
Gemäß der Erfindung entspricht dem ersten Indikator auf der Anwenderebene ein Dialogebenen-Zähler (Cniv). Dieser Dialogebenen-Zähler (Cniv) ist ein Zähler, der sich im Verlauf einer ganzen Sitzung entwickeln kann. Dieser Zähler kann im Verlauf einer Sitzung zwischen 0 und einem beispielsweise im Speicher (10) der Zentraleinheit (UC) gespeicherten Maximalwert (NIVmax) variieren. Dieser Maximalwert ist beispielsweise 4. Jeder vom Zähler (Cniv) angenommene Wert ist einer anderen dem Anwender zu bietenden Unterstützungsebene zugeordnet. Wenn sich der Dialogebenen-Zähler (Cniv) inkrementiert, werden die vom Sprachnavigationssystem gelieferten Erklärungen detaillierter. Im Verlauf einer Sitzung inkrementiert sich dieser Dialogebenen-Zähler (Cniv) zweimal schneller als er sich dekrementiert, um sicher zu sein, dass der Anwender immer gut unterstützt bleibt.
Dem zweiten Indikator entsprechen zwei unterschiedliche Zähler, ein so genannter Verstehensdefizit-Zähler (Cnu) und ein so genannter Zähler für fehlende Antwort (Cnr). Der Verstehensdefizit-Zähler (Cnu) wird durch die Sprachanwendung (12) bei jedem Verstehensdefizit des Anwenders durch das Sprachnavigationssystem (1) inkrementiert. Der Zähler für fehlende Antwort (Cnr) wird durch die Sprachanwendung (12) bei jeder fehlenden Antwort des Anwenders auf eine vom Sprachnavigationssystem (1) gestellte Frage inkrementiert. Diese zwei Zähler sind lokal, d. h., dass sie sich nicht in der ganzen Sitzung entwickeln, sondern nur beispielsweise im Rahmen einer vom Anwender gestellten Frage. Diese Zähler sind eher in einem Speicher der Zentraleinheit (UC) gespeichert und können zwischen 0 und einem Wert variieren, der größer ist als ein Maximalwert (NUmax bzw. NRmax). Diese Maximalwerte (NUmax, NRmax) sind beispielsweise im Speicher (10) der Zentraleinheit (UC) gespeichert. Jeder gespeicherte Maximalwert ist beispielsweise 2.
Dem dritten Indikator, der auf der Historie des Dialogs basiert, entspricht ein allgemeiner Historien-Zähler (Cgh). Im Verlauf einer Sitzung inkrementiert oder dekrementiert die Sprachanwendung (12) diesen Zähler in Abhängigkeit von den Ereignissen, wie später erläutert, nach Maßgabe des Dialogs zwischen dem Anwender und dem Sprachnavigationssystem (1). Dieser allgemeine Historien-Zähler (Cgh) kann zwischen 0 und einem Wert variieren, der größer ist als ein Maximalwert (GHmax). Dieser Maximalwert (GHmax) ist beispielsweise im Speicher (10) der Zentraleinheit (UC) gespeichert und beträgt beispielsweise 3. Das Überschreiten dieses Maximalwerts, das von der Sprachanwendung erfasst wird, ruft das Weiterleiten der Kommunikation zu einem Fernaktor hervor. Der Maximalwert (GHmax) ist fest, damit das Weiterleiten im Fall von sich wiederholenden Problemen erfolgt, bevor der Anwender aufgelegt hat.
Gemäß der Erfindung verläuft das Sprachnavigationsverfahren mit Bezug auf 2 in der folgenden Weise.
Ein Anwender beispielsweise eines mobilen Endgeräts, das sich in der Zelle einer Basisstation befindet, ruft den erfindungsgemäßen Sprachnavigationsdienst an. Am Beginn einer Sitzung werden alle Zähler (60) auf 0 initialisiert, insbesondere der Dialogebenen-Zähler (Cniv), der auf die Unterstützungsebene einwirken kann. Nach einer Empfangsmeldung, die vom Sprachnavigationssystem geschickt wird, kann der Anwender eine erste mündliche Äußerung beispielsweise in Form einer Frage durchführen. Zuallererst wird diese Frage (20) von der Sprachwiedererkennungsmaschine (11) wiedererkannt, die den wiedererkannten Satz zur Analysemaschine (13) überträgt, die dafür verantwortlich ist, in einem ersten Schritt (21), der allen Fragen gemeinsam ist, den Sinn dieses Satzes zu analysieren. Diese Frage des Anwenders wird Hauptfrage (20) genant. Nach einem Erfolg, d. h. dem Schicken einer Antwort auf eine Hauptfrage durch das Sprachnavigationssystem (1), kann vom Anwender eine neue unabhängige Hauptfrage gestellt werden. Im Verlauf einer Sitzung kann der Anwender folglich, wenn er es wünscht, mehrere unabhängige Hauptfragen stellen. Am Beginn jeder Hauptfrage werden der lokale Verstehensdefizit-Zähler (Cnu) und der Zähler für fehlende Antwort (Cnr) (60) auf 0 initialisiert. Die anderen Zähler, der allgemeine Historienzähler (Cgh) und der Dialogebenen-Zähler (Cniv), behalten ihren Wert der vorangehenden Hauptfrage bei. Aus jeder Hauptfrage können sich so genannte sekundäre Fragen, die vom Anwender gestellt werden, um seine Aufforderung zu präzisieren, oder so genannte sekundäre Antworten des Anwenders auf Fragen des Sprachnavigationssystems (1) ergeben. Bei der Formulierung einer sekundären Frage oder Antwort wird der Wert des Verstehensdefizit-Zählers (Cnu) und des Zählers für fehlende Antwort (Cnr) nicht auf 0 initialisiert.
Die von der Analysemaschine (13) durchgeführte Analyse (21) kann zu mehreren Schlussfolgerungen führen.

1) Die Analyse kann vollständig sein und bestätigt werden (22). In diesem Fall wird keine zusätzliche Bestätigung vom Anwender verlangt. Die Sprachanwendung (12) gibt mit Erfolg durch Dialogsteuerungsmittel eine Antwort (24) auf die Hauptfrage (20) des Anwenders. Die Sprachanwendung (12) steuert auch in einem zweiten Schritt (23) die Aktualisierung der Zähler durch Dekrementierung des Dialogebenen-Zählers (Cniv) und des allgemeinen Historien-Zählers (Cgh) um 1. In dem Fall, in dem die Hauptfrage (20) die erste Frage der Sitzung ist, bleiben der Dialogebenen-Zähler (Cniv) und der allgemeine Historien-Zähler (Cgh) auf 0. Die Sprachanwendung (12) initialisiert in diesem zweiten Schritt (23) den Zähler für fehlende Antwort (Cnr) und den Verstehensdefizit-Zähler (Cnu) auf Null. Diese Initialisierung liegt an der Tatsache, dass diese Zähler lokal sind und bei jeder neuen Hauptfrage (20), die vom Anwender geäußert wird, initialisiert (60) werden müssen.
2) Die Analyse (21) kann auch unsicher sein (32), d. h., dass die Analysemaschine (13) die Hauptfrage nicht ausreichend verstanden hat, damit die Sprachanwendung (12) mit Erfolg eine Antwort (24) auf die Frage geben kann. In diesem Fall schickt die Sprachanwendung durch Dialogsteuerungsmittel auf der Sprachschnittstelle (2) in einem dritten Schritt (33) an den Anwender eine Aufforderung zur Bestätigung der von der Analysemaschine unzureichend verstandenen Frage. In einem vierten Schritt (34) muss der Anrufer eine sekundäre Antwort geben, indem er bestätigt, dass es sich durchaus um seine Frage handelt, oder indem er widerlegt. a) In dem Fall, in dem er bestätigt, indem er beispielsweise in der Sprachschnittstelle "Ja" sagt (35), gibt die Sprachanwendung (12) durch Dialogsteuerungsmittel eine Antwort (24) auf die Hauptfrage (20) des Anwenders und bewirkt die Aktualisierung der Zähler gemäß dem zweiten Schritt (23). b) In dem Fall, in dem der Anwender den vom Sprachnavigationssystem formulierten Vorschlag nicht bestätigt, indem er beispielsweise "Nein" sagt (36), steuert die Sprachanwendung (12) in einem fünften Schritt (37) die Modifikation der Unterstützungsebene, indem sie den Dialogebenen-Zähler (Cniv) beispielsweise um 2 inkrementiert, wobei die anderen Zähler auf ihrem vorhergehenden Wert bleiben. Die Unterstützungsebene (38) bleibt auf diesem Wert, bis eine neue Modifikation im Verlauf des Rests der Sitzung vorkommen kann. In dem Fall, in dem die Hauptfrage die erste Frage der Sitzung ist, liegt der Dialogebenen-Zähler (Cniv) folglich auf 2. Die Unterstützungsebene hat folglich zugenommen und der Anwender wird dann veranlasst, eine sekundäre Frage zu formulieren. Da diese Frage sekundär ist, werden der Zähler für fehlende Antwort (Cnr) und der Verstehensdefizit-Zähler (Cnu) folglich nicht auf 0 initialisiert. Diese sekundäre Frage wird von der Analysemaschine (13) im ersten Schritt (21) analysiert.
3) Die Analyse (21) kann zu etwas für die Analysemaschine (13) Unverständlichem führen (42). In diesem Fall steuert die Anwendung sofort in einem sechsten Schritt (43) die Inkrementierung des allgemeinen Historien-Zählers (Cgh) beispielsweise um 1, und steuert auch die Inkrementierung des Verstehensdefizit-Zählers (Cnu) beispielsweise um 1. In einem siebten Schritt (44) bewirkt die Sprachanwendung (12) einen Vergleich zwischen dem Wert des Verstehensdefizit-Zählers (Cnu) und dem für diesen Zähler gespeicherten Maximalwert (NUmax). a) Wenn der Wert des Verstehensdefizit-Zählers (Cnu) geringer ist als der gespeicherte Maximalwert, beispielsweise 2, steuert die Sprachanwendung (12) folglich in einem achten Schritt (45) das Schicken einer Wiederholungsaufforderung durch die Sprachschnittstelle (2) an den Anwender. Die vom Anwender durchgeführte Wiederholung wird von der Sprachwiedererkennungsmaschine (11), dann im Verlauf des ersten Schritts (21) von der Analysemaschine (13) analysiert. Der Zähler für fehlende Antwort (Cnr) und der Verstehensdefizit-Zähler (Cnu) werden nicht initialisiert, da diese Wiederholung eine sekundäre Frage und keine Hauptfrage bildet. b) Wenn der Wert des Verstehensdefizit-Zählers (Cnu) größer ist (44) als der gespeicherte Maximalwert (NUmax), bewirkt die Sprachanwendung (12) in einem neunten Schritt (55) einen Vergleich zwischen dem Wert des allgemeinen Historien-Zählers (Cgh) und dem für diesen gespeicherten Maximalwert (GHmax). – Wenn der Wert des allgemeinen Historien-Zählers (Cgh) geringer ist als der gespeicherte Maximalwert (GHmax), beispielsweise 3, wird folglich der fünfte Schritt (37) durchgeführt, d. h., dass eine Modifikation der Unterstützungsebene von der Sprachanwendung (13) gesteuert wird, während der Dialogebenen-Zähler (Cniv) inkrementiert wird. – Wenn der Wert des allgemeinen Historien-Zählers (Cgh) größer ist als der gespeicherte Maximalwert (GHmax), führt dies folglich zu einer Blockierung (57) und auf die Hauptfrage (20) des Anwenders kann keine Antwort gegeben werden. In diesem Fall bringt die Sprachanwendung (12) den Anwender mit einem Fernaktor in Verbindung. Der Anwender wird folglich an eine physische Person verwiesen, die ihm noch mehr hilft. In allen Fällen muss diese Verweisung durchgeführt werden können, bevor der Anwender aufgibt und durch Unterbrechung der Kommunikation beendet.
4) Die Analyse kann zur Tatsache führen, dass keine mündliche Äußerung (52) an der Sprachschnittstelle (2) vom Anwender durchgeführt wurde. In diesem Fall steuert die Sprachanwendung (12) in einem zehnten Schritt (53) die Inkre mentierung des allgemeinen Historien-Zählers (Cgh) und des Zählers für fehlende Antwort (Cnr) um 1. In einem elften Schritt (54) führt die Sprachanwendung (12) einen Vergleich zwischen dem neuen Wert des Zählers für fehlende Antwort (Cnr) und dem für diesen gespeicherten Maximalwert (NRmax) durch. a) Wenn der Wert des Zählers für fehlende Antwort (Cnr) geringer ist als der für diesen gespeicherte Maximalwert (NRmax), baut die Sprachanwendung (12) in einem zwölften Schritt (56) eine Aufforderung zum Sprechen auf und schickt sie an den Anwender. Die neue mündliche Äußerung des Anwenders wird von der Maschine (11) zur Wiedererkennung der Sprache, dann erneut im Verlauf des ersten Schritts (21) von der Analysemaschine (13) analysiert. Diese neue Äußerung bildet eine sekundäre Frage, folglich wird kein Zähler initialisiert. b) Wenn der Wert des Zählers für fehlende Antwort (Cnr) größer ist als der gespeicherte Maximalwert (NRmax), wird der vorstehend beschriebene neunte Schritt (55) zum Vergleich durchgeführt.

Folglich äußert das erfindungsgemäße Sprachnavigationssystem durch die Sprachschnittstelle Sätze, die umso kürzer sind, als der Anwender erfahren ist und als die Unterstützung verringert wird. In dem Fall, in dem der Anwender zögert oder für die Sprachwiedererkennungsmaschine (11) oder die Analysemaschine (13) nicht verständlich ist, wird die Unterstützungsebene erhöht, um die Texte und die Erläuterungen detailliert auszuführen. Das erfindungsgemäße Sprachnavigationssystem vermeidet die Dialoge, die die Suche nicht fortschreiten lassen. Der Verstehensdefizit-Zähler und der Zähler für fehlende Antwort sind vorhanden, um die Anzahl von Schleifen zu begrenzen, und die Anwesenheit des allgemeinen Historien-Zählers ermöglicht, wenn der für diesen letzteren gespeicherte Maximalwert überschritten wird, den Anwender an einen Fernaktor zu verweisen.
Für die Fachleute muss es offensichtlich sein, dass die vorliegende Erfindung Ausführungsformen unter zahlreichen anderen spezifischen Formen ermöglicht, ohne sich vom Anwendungsgebiet der Erfindung, wie beansprucht, zu entfernen. Folglich müssen die vorliegenden Ausführungsformen als Erläuterung betrachtet werden, können jedoch in dem durch die Reichweite der beigefügten Ansprüche definierten Bereich modifiziert werden, und die Erfindung darf nicht auf die vorstehend gegebenen Details begrenzt werden.

Claims

Verfahren zur adaptiven Navigation in einem interaktiven Sprachsystem (1), das eine Maschine (11) für die Wiedererkennung einer mündlichen Äußerung eines Anwenders und eine in einem Speicher (10) einer Zentraleinheit (UC) eines Datenverarbeitungssystems gespeicherte Sprachanwendung (12) umfasst und über Dialogsteuerungsmittel den Dialog mit dem Anwender über eine Sprachschnittstelle (2) in Abhängigkeit von der erfolgten Wiedererkennung steuert, dadurch gekennzeichnet, dass es eine dynamische Steuerung der Ergonomie der Dialoge mit dem Anwender umfasst, um die Sprachanwendung (12) in Abhängigkeit von mehreren mit dem Verhalten des Anwenders in Verbindung stehenden Indikatoren, die durch die in dem Speicher (10) der Zentraleinheit (UC) gespeicherten Daten repräsentiert werden, anzupassen, und dass es einen Schritt umfasst, bei dem nach Maßgabe des Dialogs mit dem Anwender der Wert mehrerer Zähler, die einem ersten Indikator, der die Dialogebene des Anwenders repräsentiert, einem zweiten Indikator, der auf der Qualität des Dialogs basiert, die die fehlenden Antworten des Anwenders oder die von dem interaktiven System (1) wahrgenommenen Verstehensdefizite berücksichtigt, und einem dritten Indikator, der die Historie des Dialogs mit dem Anwender repräsentiert, entsprechen, gespeichert und entwickelt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es einen Schritt (21) der Analyse der erfolgten Wiedererkennung und in Abhängigkeit von dieser Analyse (21) und des Zustandes wenigstens eines Indikators ein Auslösen einer durch die Sprachanwendung (12) gesteuerten Aktion umfasst.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Aktion entweder dem Schicken einer Antwort auf eine von einem Anwender vorgenommene mündliche Äußerung oder einer Aufforderung des Anwenders, dass er seine mündliche Äußerung wiederholt (45), einer Aufforderung (56) des Anwenders, dass er spricht, oder einem Verweis auf eine Beratung durch eine physische Person (57) oder aber einer Modifikation der dem Anwender zu bietenden Unterstützungsebene (38) entsprechen kann.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass vor dem Auslösen der Aktion ein Schritt des Schickens einer Aufforderung (33) zur Bestätigung der erfolgten Wiedererkennung ausgeführt wird.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass es einen Schritt des Inkrementierens (37) eines Dialogebenen-Zählers (Cniv) umfasst, der einen Schritt (38) des Modifizierens der Unterstützungsebene auslöst.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass es einen Schritt (53) des Inkrementierens eines Zählers (Cnr) für fehlende Antwort umfasst, der dann, wenn dieser Zähler (Cnr) streng kleiner als ein Maximalwert (NRmax) ist, einen Schritt (56) des Schickens einer Aufforderung des Anwenders, dass er spricht, auslöst.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass es einen Schritt (43) des Inkrementierens eines Verständnisdefizit-Zählers (Cnu) umfasst, der dann, wenn dieser Zähler (Cnu) kleiner als ein Maximalwert (NUmax) ist, einen Schritt (45) des Schickens einer Aufforderung des Anwenders, dass er wiederholt, auslöst.
System (1) für die interaktive Sprachnavigation, das eine Maschine (11) für die Wiedererkennung einer mündlichen Äußerung eines Anwenders und eine in einem Speicher (10) einer Zentraleinheit (UC) eines Datenverarbeitungssystems gespeicherte Sprachanwendung, die über Dialogsteuerungsmittel den Dialog mit dem Anwender über eine Sprachschnittstelle (2) in Abhängigkeit von der erfolgten Wiedererkennung steuert, umfasst, dadurch gekennzeichnet, dass es außerdem umfasst: – Mittel zur dynamischen Steuerung der Ergonomie der Dialoge mit dem Anwender, um die Sprachanwendung (12) in Abhängigkeit von mehreren Indikatoren, die mit dem Verhalten des Anwenders in Verbindung stehen und durch die im Speicher (10) der Zentraleinheit (UC) gespeicherten Daten repräsentiert werden, anzupassen; – Mittel zum Speichern von Zählerwerten, die den entsprechenden Indikatoren entsprechen und einen ersten Indikator, der die Ebene der mündlichen Äußerung des Anwenders repräsentiert, einen zweiten Indikator, der die Qualität des Dialogs unter Berücksichtigung der fehlenden Antworten des Anwenders oder der von dem interaktiven System (1) wahrgenommenen Verständnisdefizite repräsentiert, und einen dritten Indikator, der die Historie des Dialogs mit dem Anwender repräsentiert, umfassen; und – Mittel, die nach Maßgabe des Dialogs mit dem Anwender wenigstens einen Zählerwert, der einem der Indikatoren zugeordnet ist, entwickeln.
System (1) nach Anspruch 8, dadurch gekennzeichnet, dass es Mittel für die Analyse der erfolgten Wiedererkennung und Mittel zum Auslösen einer durch die Sprachanwendung (12) gesteuerten Aktion in Abhängigkeit von der Analyse der erfolgten Wiedererkennung und vom Zustand wenigstens eines Indikators umfasst.
System (1) nach Anspruch 9, dadurch gekennzeichnet, dass es Mittel zum Ausarbeiten und Schicken einer Antwort auf eine von einem Anwender vorgenommene mündliche Äußerung, Mittel zum Ausarbeiten und Schicken einer Aufforderung zur Bestätigung der erfolgten Wiedererkennung, Mittel zum Ausarbeiten und Schicken einer Aufforderung des Anwenders, dass er seine mündliche Äußerung wiederholt, oder einer Aufforderung des Anwenders, dass er spricht, Mittel zum Weiterleiten des Dialogs zu einer physischen Person und Mittel zum Einstellen einer dem Anwender zu bietenden Unterstützungsebene umfasst.
System (1) nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass jeder der Indikatoren wenigstens einem gespeicherten Zähler zugeordnet ist, dessen Wert sich nach Maßgabe des Dialogs mit dem Anwender entwickeln kann.
System nach Anspruch 11, dadurch gekennzeichnet, dass dem ersten Indikator ein sogenannter Dialogebenen-Zähler (Cniv) zugeordnet ist, der im Speicher (10) der Zentraleinheit (UC) gespeichert ist und der dann, wenn er inkrementiert oder dekrementiert wird, die Modifikation der Unterstützungsebene auslöst.
System nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass dem zweiten Indikator zwei Zähler entsprechen, nämlich ein erster lokaler, so genannter Verstehensdefizit-Zähler (Cnu) und ein zweiter lokaler, so genannter Zähler (Cnr) für fehlende Antwort, die beide im Speicher (10) der Zentraleinheit (UC) gespeichert sind.
System nach einem der Ansprüche 11 bis 13, dadurch gekennzeichnet, dass dem dritten Indikator ein so genannter allgemeiner Historienzähler entspricht, der im Speicher (10) der Zentraleinheit (UC) gespeichert ist.
System nach Anspruch 12, dadurch gekennzeichnet, dass der Dialogebenen-Zähler (Cniv) Werte im Bereich von 0 bis 4 annehmen kann.
System nach Anspruch 13, dadurch gekennzeichnet, dass der Verstehensdefizit-Zähler (Cnu) Werte im Bereich von 0 bis zu einem Wert, der seinen gespeicherten Maximalwert (NUmax), der 2 ist, überschreitet, annehmen kann.
System nach Anspruch 13, dadurch gekennzeichnet, dass der Zähler (Cnr) für fehlende Antwort Werte im Bereich von 0 bis zu einem Wert, der seinen gespeicherten Maximalwert NRmax, der 2 ist, überschreitet, annehmen kann.
System nach Anspruch 14, dadurch gekennzeichnet, dass der allgemeine Historienzähler (Cgh) Werte im Bereich von 0 bis zu einem Wert, der seinen gespeicherten Maximalwert (GHmax), der 3 ist, überschreitet, annehmen kann.
Anwendung des Sprachsystems nach den Ansprüchen 8 bis 18 im Gebiet der Mobiltelephone.