-
Die
Erfindung betrifft ein Verfahren zur gezielten Ermittlung eines
vollständigen
Eingabedatensatzes mit mehreren notwendigen und zusätzlichen Datenfeldern
für einen
Benutzer in einem Sprachdialogsystem.
-
Spracheingaben
gewinnen bei der Bedienung von Diensten und Geräten zunehmend an Bedeutung.
Komplexe Eingaben oder Eingabedatensätze, z. B. Zieleingaben bei
Navigationssystemen sowie Informations- und Reservierungsanfragen
für Flüge oder
Restaurants, bestehen aus mehreren Kategorien bzw. Datenfeldern
wie Ort, Straße,
Hausnummer oder dergleichen. In bekannten Systemen werden die Kategorien
einzeln eingegeben und müssen
jeweils bestätigt
werden. Die permanenten Bestätigungen
führen
zu unnötig
langen Dialogen und sind somit für
die Benutzer meist unkomfortabel.
-
Ergebnisse
der Spracherkennung können ebenso
mehrdeutig sein wie Datenbankeinträge, z. B. kann das Spracherkennungssystem
bei der Benutzereingabe von "Berlin" mehrere wahrscheinliche Städtenamen
ausgeben, wie etwa "Berlin" und "Bellin". Außerdem gibt
es in Deutschland mehrere Städte
mit dem Namen Berlin, daher ist die orthografische Repräsentation
des Namens in der Datenbank bzw. Datenbasis bereits mehrdeutig.
Derartige Mehrdeutigkeiten treten besonders bei einem großen Vokabular
des Spracherkennungssystems auf. In Deutschland gibt es mehr als
70.000 Städtenamen,
so dass phonetische und orthografische Ähnlichkeiten unvermeidbar sind.
-
Aus
dem Stand der Technik sind bereits sprachbediente Systeme bekannt,
die mit großem Vokabular
umgehen können
(Diktiersysteme in Büroumgebungen,
zumeist sprecherabhängig).
In Fahrzeugen liefern die existierenden Lösungen aufgrund der dort herrschenden
sehr schwierigen Geräuschbedingungen
und der erforderlichen Unabhängigkeit vom
Sprecher, in schwierigen Situationen oft keine zufriedenstellenden/erfolgreichen
Dialoge. Bisher wurden meist Lösungen
realisiert, bei denen der Benutzer (zumindest die ersten 5 Buchstaben)
buchstabieren musste, worauf ein Matching-Algorithmus die passenden
Einträge
einer großen
Liste entnahm. Das Buchstabieren ist jedoch für den Benutzer ein unnatürlicher
und relativ unkomfortabler Vorgang.
-
In
der WO 02/103678 A1 ist ein Verfahren zur Spracherkennung von Sprachäußerungen
eines Benutzers zur Auswahl eines gewünschten Listenelements aus
einer Gesamtliste von Listenelementen beschrieben.
-
Aus
der
DE 199 33 524
A1 ist ein Verfahren zur Eingabe von Daten in ein System,
insbesondere in ein in einem Fahrzeug installierten Navigationssystem
bekannt. Um die Eingabe von Daten für Benutzer zu erleichtern,
ist vorgesehen, dass auf eine Eingabe eines Benutzers hin ein oder
mehrere zu dieser Eingabe möglichst
genau passende Begriffe als erkannte Begriffe ermittelt werden,
dass zu jedem dieser erkannten Begriffe ein Zuverlässigkeitswert
festgestellt wird und dass die einer Eingabe zugeordneten Begriffe
unter Berücksichtigung
ihrer Zuverlässigkeitswerte
behandelt werden.
-
Die
DE 100 12 572 C2 betrifft
eine Vorrichtung zur Spracheingabe eines Zielortes mit Hilfe eines
definierten Eingabedialogs in ein Zielführungssystem im Echtzeitbetrieb
mit Mitteln, durch die eine eingegebene Sprachäußerung eines Benut zers mittels
einer Spracherkennungseinrichtung erfasst, mit gespeicherten Sprachäußerungen
verglichen sowie gemäß ihrer
Erkennungswahrscheinlichkeit klassifiziert wird und durch die die
gespeicherte Sprachäußerung mit
der größten Erkennungswahrscheinlichkeit
als die eingegebene Sprachäußerung erkannt wird.
Die einem Zielort zugeordneten gespeicherten Sprachäußerungen
sind zumindest aus dem Zielortnamen und mindestens einer den Zielortnamen
eindeutig identifizierenden, regional einschränkenden Zusatzinformation zusammengesetzt.
-
Der
vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren
der eingangs erwähnten
Art zu schaffen, welches die Nachteile des Standes der Technik vermeidet
und die Benutzerfreundlichkeit erhöht, wobei insbesondere die
Dauer der Sprachdialoge verkürzt
und die Erkennungsgenauigkeit verbessert werden sollen.
-
Diese
Aufgabe wird erfindungsgemäß durch Anspruch
1 gelöst.
-
Durch
die erfindungsgemäßen Maßnahmen kann
die Dialogdauer im Vergleich zu bekannten Systemen, welche nur auf
Buchstabiereingaben oder Ganzworteingaben mit ständiger Benutzerbestätigung beruhen,
in vorteilhafter Weise signifikant reduziert werden. Es müssen lediglich
noch das Gesamtergebnis oder große Teile des Gesamtergebnisses bestätigt werden.
Das Problem der geringen Erkennungsgenauigkeit bei großen Erkennervokabularien wird
deutlich verringert, indem bei mehrdeutigen Erkennungsergebnissen
optimale Zusatzinformationen bzw. Zusatzkategorien oder zusätzliche
Datenfelder abgefragt werden, durch die das Erkennervokabular bzw.
der Hypothesenraum dynamisch angepasst, insbesondere verkleinert
werden kann und somit aufgrund einer möglichen Neuerkennung des gespeicherten
Sprachsignals eine hinreichend gute Erkennung erzielt wird. Die
Dialogerfolgsrate wird erhöht, da
sich eine höhere
Erkennungsgenauigkeit (aufgrund der angepassten Wortlisten) unmittelbar
auf den Dialogerfolg auswirkt. Der Anteil erfolgloser Dialoganfragen
wird anwendungsspezifisch deutlich reduziert.
-
Die
Benutzerfreundlichkeit wird durch die Vermeidung ständiger Bestätigungsfragen
für jedes Attribut-Wertpaar
erhöht;
aufeinanderfolgende Dialogschritte (Schleifen) mit großem Erkennervokabular
werden vermieden. Die Informationen werden sozusagen inkrementell
verdichtet.
-
Das
erfindungsgemäße Verfahren
(im folgenden auch als Disambiguierung bezeichnet) wird auf einem
Hypothesenraum durchgeführt,
welcher die mehrdeutigen Ergebnisse der Sprachäußerungen der Benutzereingaben
und deren Beziehungen untereinander aufweist. Die Disambiguierungsstrategie
basiert auf Zuverlässigkeitswerten
(auch als Bewertungen, Vertrauens- oder Konfidenzmaße bezeichnet)
und optionalen zusätzlichen
Kategorien bzw. Datenfeldern. Jede Hypothese im Hypothesenraum besitzt
eine bestimmte, eindeutige Art der Repräsentation (z. B. orthografisch,
syntaktisch oder semantisch) und einen Zuverlässigkeitswert, der die Zuverlässigkeit
der Korrektheit der Hypothese schätzt. Dieser Zuverlässigkeitswert
steht für
die einzelnen Hypothesen zur Verfügung und kann durch Kombination
mehrerer Datenfelder bzw. Kategorien eines komplexen Eingabedatensatzes
oder Eintrags ebenfalls kombiniert werden. In besonders vorteilhafter
Weise ist die korrekte Funktion des erfindungsgemäßen Verfahrens
unabhängig
davon ob die nach ihren Zuverlässigkeitswerten
zu sortierenden Hypothesen von dem gesamten oder dem partiellen
Eingabesatz abgeleitet werden.
-
Vorteilhaft
ist es, wenn die Anpassung des Hypothesenraums durch eine sukzessive
Verkleinerung der Listen der erkannten mehrdeutigen Hypothesen erfolgt,
da wie vorstehend bereits erwähnt,
die Erkennungsgenauigkeit erhöht
werden kann. Jedoch erlaubt das erfindungsgemäße Verfahren nicht nur große Hypothesenräume mit
Hilfe von Zusatzinformationen, sozusagen vorwärts einzuschränken, sondern
auch kleine Hypothesenräume
zu erweitern oder mittels Zusatzinformationsabfragen und anschließender Neuerkennung
komplett zu revidieren Erfindungsgemäß kann ferner vorgesehen sein,
dass das optimale zu wählende
zusätzliche
Datenfeld über eine
Gewichtungsformel aus einem Bekanntheitsgrad des zusätzlichen
Datenfelds und einer Bewertung hinsichtlich der Auflösung der
mehrdeutigen Hypothesen ermittelt wird. Vorteilhaft ist außerdem, wenn
der Bekanntheitsgrad der zusätzlichen
Datenfelder über
eine Benutzerbefragung oder einer vorliegenden Statistik (beispielsweise
aus dem Internet) ermittelt wird oder, wenn die Gewichtungsformel
adaptiv, während
der Benutzerinteraktion auf die Kenntnisse des jeweiligen Benutzers
angepasst wird. In besonders vorteilhafter Weise kann vorgesehen
werden, dass insbesondere dann, wenn sich durch Inferenz schon eine
Eindeutigkeit des Gesamtsatzes ergibt, nicht alle notwendigen Datenfelder
im Rahmen einer Benutzerabfrage nachgefragt werden müssen.
-
Die
nächste
abzufragende zusätzliche
Kategorie bzw. das nächste
abzufragende zusätzliche Datenfeld
kann durch ein Gewichtungsverfahren bzw. eine Gewichtungsstrategie
ermittelt werden, das bzw. die beispielsweise auf einer Standard-Abfragereihenfolge
mit Präferenzgewichten
und einer Anzahl verschiedener Werte der zusätzlichen Kategorie für die gegebenen
Hypothesen (sogenannte Disambiguierungsstärke) basiert. Die Präferenzgewichte
können
beispielsweise auf Basis einer Benutzerbefragung hinsichtlich der
Kenntnis der Kategoriewerte ermittelt und zur Verfügung gestellt
werden. Die Gewichtungsstrategie kann dabei adaptiv sein, indem
während
der Benutzerinteraktion, die benutzerspezifischen Kenntnisse der
Kategorien bzw. Datenfelder gespeichert werden und daraufhin die
Strategie zur Auflösung
der Mehrdeutigkeiten bzw. die Disambiguierungsstrategie, d. h. die
Strategie zur Auflösung
von Mehrdeutigkeiten angepasst wird.
-
Selbstverständlich können entsprechend
der Verwendung einer Gewichtungsformel auch andere Optimierungskriterien
zur Anwendung kommen; so beispielsweise bereits aus Internetanwendungen
bekannte Zugriffsstatistiken.
-
Vorteilhaft
ist, wenn eine Datenbank zur Aufnahme der notwendigen und zusätzlichen
Datenfelder vorgesehen ist. Wenn die Datenbank des weiteren anwendungsspezifisch
ist, kann sie in vorteilhafter Weise genau auf eine bestimmte Anwendung
angepasst werden.
-
In
einer verfahrensmäßigen Ausgestaltung der
Erfindung kann vorgesehen sein, dass die Spracheingaben des Benutzers,
insbesondere Bestätigungen,
Zurückweisungen
und Kenntnisse hinsichtlich der zusätzlichen Datenfelder, gespeichert
werden.
-
Sonach
kann insbesondere die Gewichtungsstrategie dynamisch angepasst werden.
-
Erfindungsgemäß kann vorgesehen
sein, dass weitere Spracherkennungen mittels des angepassten Hypothesenraums
auf unterschiedlichen Vokabularien des Spracherkennungssystems durchgeführt werden.
-
Durch
diese Vorgehensweise kann auf die Erkennung sehr großer Listen
verzichtet werden, indem eine einfache oder mehrfache Neuerkennung (Rerecognition)
einer gespeicherten Spracheingabe mit verschiedenen Vokabularien
(Listen) durchgeführt
wird. Da mit sinkender Vokabulargröße die Erkennungsgüte zunimmt,
kann diese Methode von vertrauenswürdigeren Ergebnissen ausgehen.
Aufgrund der Zuverlässigkeitswerte
(auch als Bewertungen, Vertrauens- oder Konfidenzmaße bezeichnet) entscheidet
sich die Methode für
den besten Kandidaten oder revidiert eventuell das bisherige beste
Ergebnis.
-
Vorteilhaft
ist, wenn die Reihenfolge der abzufragenden notwendigen und zusätzlichen
Datenfelder, insbesondere anwendungsspezifisch festgelegt wird.
-
Als
Rückfallstrategie
kann ein partielles Buchstabieren der Hypothesen durch den Benutzer mit
Listenmatch zur Ermittlung des vollständigen Eingabedatensatzes eingesetzt
werden. Dies ist insbesondere bei gering vertrauenswürdigen Informationen
denkbar.
-
Weitere
vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben
sich aus den restlichen Unteransprüchen. Nachfolgend ist anhand der
Zeichnung prinzipmäßig ein
Ausführungsbeispiel der
Erfindung beschrieben.
-
Die
einzige Figur der Zeichnung zeigt eine vereinfachte schematische
Darstellung eines erfindungsgemäßen Verfahrens.
-
Die
Erfindung wird im folgenden exemplarisch anhand eines Sprachdialogsystems
einer Zielführungs-
bzw. Navigationsanwendung dargestellt. In anderen Ausführungsbeispielen
könnten
auch weitere beziehungsweise andere Sprachdialogsysteme vorgesehen
sein; beispielsweise kann das Sprachdialogsystem als Teil des Telefons,
des Adressbuches oder zum Abspielen von Musik dienen. Hierzu sind insbesondere
auch die applikationsspezifische Datenbank und Konfiguration vorteilhaft.
-
Wie
aus der Figur ersichtlich, erhält
ein erfindungsgemäßes Verfahren 1 zur
gezielten Ermittlung eines vollständigen Eingabedatensatzes mit
mehreren notwendigen Datenfeldern für einen Benutzer in einem Sprachdialogsystem
(nicht dargestellt) aus einer in einem Hypothesenraum abgelegten
Liste mehrerer, von einem automatischen Spracherkennungssystem (nicht
dargestellt) erkannter, mehrdeutiger Hypothesen, welche jeweils
mit Zuverlässigkeitswerten
versehen sind. Dabei wird lediglich der vollständige Eingabedatensatz durch
den Benutzer bestätigt. Die
Hypothesen werden anhand ihrer Zuverlässigkeitswerte sortiert. Zur
Vervollständigung
der partiellen Eingabedatensätze
wird dasjenige optimale notwendige Datenfeld zur Benutzerabfrage
ermittelt, welches die vorhandenen mehrdeutigen Hypothesen am besten
auflöst.
Zur Auflösung
von Mehrdeutigkeiten vollständiger
Eingabedatensätze
wird dasjenige optimale notwendige oder ein optimales zusätzliches Da tenfeld
zur Benutzerabfrage ermittelt, welches die vorhandenen mehrdeutigen
Hypothesen am besten auflöst.
Der Hypothesenraum wird dynamisch angepasst.
-
Die
Eingabedatensätze
bzw. Hypothesen weisen mehrere notwendige Datenfelder bzw. Kategorien,
nämlich "Stadt", "Bundesland", "Stadtteil", "Strasse", zusammen mit deren
jeweiligen aus den einzelnen Datenfeldern kombinierten Zuverlässigkeitswerten
(z. B. Berlin, Berlin, Mitte, Torstraße, 0,87), auf.
-
Das
Verfahren 1 greift auf eine applikationsspezifische Datenbank
zu, welche alle Datenfelder (notwendige und zusätzliche) sowie deren Werte
und Relationen bzw. Abhängigkeiten
enthält.
Notwendig sind Datenfelder, die den vollständigen Eingabedatensatz, d.
h. das Navigationsziel definieren. Zusätzliche Datenfelder dienen
der besseren Auflösung
von Mehrdeutigkeiten. In der Figur sind als zusätzliche Datenfelder bzw. Kategorien "Landkreis" und "Postleitzahl" vorgesehen. Des
weiteren sind bei einer Navigationsanwendung beispielsweise die
Namen von Regionen, Flüssen,
Seen, nahen Großstädten, Kfz-Kennzeichen
oder Telefonvorwahlen denkbar.
-
Durch
eine applikationsspezifische Konfiguration wird die allgemeine Funktionalität des Verfahrens 1 auf
spezielle Anwendungen, im vorliegenden Ausführungsbeispiel ein Navigationssystem
angepasst. In der Konfiguration werden neben den Adaptionsparametern
wenigstens die folgenden Punkte festgelegt:
- – welche
Kategorien sind notwendig,
- – in
welcher Reihenfolge werden diese Kategorien standardmäßig abgefragt,
- – welche
zusätzlichen
Kategorien sind zur Disambiguierung verfügbar,
- – welchen
Bekanntheitsgrad haben die zusätzlichen
Kategorien bei den Benutzern und
- – welche
Größe ist für den Hypothesenraum
verfügbar.
-
Als
Eingabeparameter erhält
das Verfahren 1 die Ergebnisse aus den vorangegangenen
Verarbeitungsstufen, d. h. der Spracherkennung durch ein Spracherkennungssystem
oder Sprachverstehen, vorliegend in Form von Attribut- bzw. Datenfeld-Wert-Paaren, die
mit Zuverlässigkeitswerten (Wahrscheinlichkeiten,
Konfidenzmaßen/Vertrauensmaßen) versehen
sind. Des weiteren wird übergeben,
welche Datenfelder dem Benutzer unbekannt sind, in 1 ist
dies das Datenfeld "Postleitzahl", welche Datenfelder
bestätigt
wurden, vorliegend das Datenfeld "Bundesland" mit dem Wert "Berlin" und welche zurückgewiesen wurden, vorliegend
das Datenfeld "Landkreis" mit dem Wert "Segeberg". Darüber hinaus
kann auch ein Resetbefehl bzw. Zurücksetzen des Verfahrens/des
Hypothesenraums und der Listen erhalten werden.
-
Als
Ausgabeparameter wird eine durchzuführende nächste Aktion oder ein Vorschlag
für eine durchzuführende nächste Aktion
an das Sprachdialogsystem in Abhängigkeit
des aktuellen Hypothesenraums übergeben,
d. h. eine Entscheidung oder ein Entscheidungsvorschlag für die auszuführende Aktion
im Dialogsystem unter Berücksichtigung
des applikationsspezifischen Wissens.
-
Folgende
nächste
Aktionen sind vorgesehen:
- – Abfrage eines neuen Datenfelds
(als Ganzworteingabe oder Buchstabieren),
- – ein
bereits eingegebenes Datenfeld durch eine weitere Spracherkennung
auf einer dynamisch angepassten Vokabularliste des Spracherkennungssystems
neu zu erkennen, da die Spracheingaben des Benutzers gespeichert
werden, um nach Eingabe weiterer Kategorien eine Neuerkennung zu
ermöglichen,
bei welcher die ursprünglich
sehr großen
Listen aufgrund der Datenbankrelationen weiter eingeschränkt werden,
- – ein
bereits eingegebenes Datenfeld zu bestätigen,
- – den
vollständigen
Eingabedatensatz als notwendige finale Bestätigung zu bestätigen oder
- – eine
zuverlässigere
Form der Eingabe, insbesondere Buchstabieren für ein Datenfeld zu wählen.
-
Die
weiteren Ausgabeparameter werden je nach vorgeschlagener Folgeaktion
eingesetzt, so z. B.: die nächste
Kategorie, deren dynamische Wortliste zum Nachladen des Erkennervokabulars,
der komplette Ergebnisdatensatz und der Eingabemodus, also Ganzworteingabe
oder Buchstabieren.
-
Alle
Eingabeinformationen werden aufbewahrt und nach jeder neuen Eingabe
aktualisiert. Als Sprachsignale werden alle eingegebenen Datenfelder
bzw. Kategorien und deren Werte mit deren zugehörigen Zuverlässigkeitswerten
aufbewahrt. Außerdem
wendet das Verfahren einen Lern- oder Adaptionsalgorithmus an, der
speichert, welche Informationen oder Teilinformationen bereits bestätigt oder
zurückgewiesen
wurden und welche Datenfelder dem Benutzer unbekannt sind.
-
Aus
den gespeicherten Informationen wird eine Datenbankabfrage generiert,
welche die Zusammenhänge
der Datenfelder repräsentiert,
um möglichst
vollständige
Datensätze
zu erhalten und einen Hypothesenraum zu generieren. Der Hypothesenraum
enthält
alle zusammengehörigen
Datensätze, Informationen
zu deren Eindeutigkeit und die zugehörigen Zuverlässigkeitswerte,
die für
jeden Datensatz aus den einzelnen Datenfeldern zusammengesetzt werden.
Auf dem Hypothesenraum wird ein Suchalgorithmus realisiert, der
die Hypothesen anhand ihrer Zuverlässigkeitswerte sortiert und
nach vollständigen
Datensätzen
sucht. Existieren mehrere vollständige
Datensätze,
so wird die zusätzliche
Kategorie bzw. das zusätzliche
Datenfeld gesucht, mit Hilfe derer bzw. dessen sich die Mehrdeutigkeiten
am besten auflösen
lassen.
-
Hierfür kann eine
Gewichtungsformel aus einem Bekanntheitsgrad der Datenfelder und
der Disambiguierbarkeit (wie viele der verschiedenen Datensitze
können
durch die zusätzliche
Kategorie unterschieden werden, d. h. eine Bewertung hinsicht lich der
Auflösung
der mehrdeutigen Hypothesen) angewendet werden. Liegt noch kein
vollständiger
Datensatz vor, so wird die nächste
notwendige Kategorie anhand der Vorgabereihenfolge abgefragt. Werden Informationen
(ein Datensatz) zurückgewiesen,
so kann entweder die Korrektheit des nächstbesten Datensatzes (höchstes Vertrauensmaß bzw. höchster Zuverlässigkeitswert)
nachgefragt werden, oder der Benutzer wird aufgefordert, den Wert
für eine
Kategorie zu buchstabieren. Nach dem Listenmatch, welches dem Buchstabieren
folgt, existiert definitiv nur noch ein Wert für diese Kategorie.