DE102010026708A1

DE102010026708A1 - Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem

Info

Publication number: DE102010026708A1
Application number: DE102010026708A
Authority: DE
Inventors: Silvio Federau; Stefan Struhs
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2010-07-10
Filing date: 2010-07-10
Publication date: 2012-01-12

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems (20), bei dem Spracheingaben mit Einträgen von in einer Datenbank (28) gespeicherten Datensätzen verglichen werden. Bei dem erfindungsgemäßen Verfahren wird a) eine erste Spracheingabe (2, 3) erfasst und gespeichert, danach wird b) in einem ersten Vergleich (6, 7) eine zweite Spracheingabe erfasst und mit den Einträgen der Datensätze verglichen oder in einem ersten Vergleich (4, 11) eine erste Teilmenge der Datensätze der Datenbank (28) identifiziert. Danach werden c) die Datensätze in Abhängigkeit von dem Ergebnis dieses ersten Vergleichs auf die erste Teilmenge beschränkt, danach wird d) in einem zweiten Vergleich (11a; 12b; 13a) die gespeicherte erste Spracheingabe mit der ersten Teilmenge der Datensätze verglichen und schließlich wird e) in Abhängigkeit von diesem zweiten Vergleich (11a; 12b; 13a) aus der ersten Teilmenge der Datensätze eine Treffermenge (11b; 12c; 13b) ermittelt, die einen oder mehrere Datensätze enthält. Die vorliegende Erfindung betrifft ferner ein dazugehöriges Sprachdialogsystem (20).

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Betreiben eines Sprachdialogsystems, bei dem Spracheingaben mit Einträgen von in einer Datenbank gespeicherten Datensätzen verglichen werden. Die vorliegende Erfindung betrifft ferner ein dazugehöriges Sprachdialogsystem.
Sprachdialogsysteme finden ein breites Anwendungsspektrum für Bediensysteme. Dies betrifft gleichermaßen die Bedienung von Geräten sowie die Erledigung fernmündlicher Aufgaben mittels Sprachcomputer, beispielsweise Telefon-Banking. Auch hat sich die Bedienung von Einrichtungen eines Fahrzeugs über Spracheingaben als wesentliches Merkmal aktueller Benutzerschnittstellen im Fahrzeug etabliert. Zur Eingabe komplexer Sachverhalte wird eine entsprechende Information von einem Sprachdialogsystem sequentiell vom Benutzer abgefragt. Dies geschieht durch einen von dem Sprachdialogsystem geführten Dialog. welcher sich dem Benutzer als eine logisch aufeinander aufbauende Reihe von Fragen darstellt. Die Fragen dienen dabei insbesondere zur Eingrenzung eines Sachverhalts, bis das Sprachdialogsystem zu einer eindeutigen Reaktion in der Lage ist.
Dabei wird mittels einer Spracheingabe die zu durchsuchende Datenmenge in der Datenbank sukzessive reduziert. Am Ende einer oder mehrerer Spracheingaben kann zweckmäßigerweise die Treffermenge in Form einer Trefferliste angezeigt werden, die die wahrscheinlich vom Nutzer gesuchten Daten und damit assoziierten Funktionen enthält. Die Trefferliste kann dabei einen oder mehrere Einträge haben oder auch leer sein. Wenn kein passender Eintrag gefunden wird, kann entweder als Ergebnis eine leere Liste ausgegeben werden oder eine Liste der nächstbesten, möglicherweise nicht relevanten Treffer. Auch kann ein sogenanntes Übereinstimmungsmaß oder Konfidenzmaß, beispielsweise in Prozent, angezeigt werden, das die Relevanz der Einträge in der Trefferliste quantifiziert.
In der DE 10 2005 059 390 A1 wird ein Verfahren zur Spracherkennung in einem Kraftfahrzeug beschrieben, bei dem nacheinander eine erste Spracheingabe erfasst, in dieser Spracheingabe ein erstes Ganzwort erkannt und als Erkennergebnis ausgegeben wird. Falls das Erkennergebnis nicht mit dem eingegebenen Ganzwort übereinstimmt, das heißt falsch erkannt wurde, wird anschließend eine zweite Spracheingabe erfasst, durch die die zu durchsuchende Datenmenge verkleinert wird.
Dabei müssen am Anfang des Sprachdialogs seitens des Sprachdialogsystems oftmals sehr große Datenmengen in einer Datenbank mit den von einem Nutzer gemachten Spracheingaben verglichen werden, welches sich nachteilig auf die Antwortzeiten des Sprachdialogsystems auswirken kann. Andererseits kann aus der nicht vorab eingeschränkten Datenmenge eine unhandlich große Treffermenge resultieren, die den Nutzer zu weiteren Interaktionen veranlasst, wodurch die Dialogdauer verlängert wird.
Hierzu sind aus dem Stand der Technik verschiedene Lösungen bekannt, bereits vorab die Datenmenge in einer zu durchsuchenden Datenbank einzuschränken. Die DE 60 2005 005 597 T2 beschreibt beispielsweise ein Verfahren zur Spracherkennung, bei dem eine Spracheingabe mit in einer Datenbank gespeicherten Menge an Wörtern verglichen wird, wobei die Menge der zu prüfenden Wörter in der Datenbank vorab mittels geographischer Informationen, z. B. Postleitzahlen, Städtenamen oder Funkzellen, die den zu prüfenden Wörtern zugeordnet sind, auf eine Teilmenge reduziert wird.
Die EP 1 793 371 A2 beschreibt ein Verfahren zur Spracherkennung, bei dem die Suche eines Straßennamens in einer Datenbank auf eine Teilmenge reduziert wird, indem der Straßentyp aus der Spracheingabe des Straßennamens extrahiert wird (z. B. „Avenue”) und die Suche auf Datenbankeinträge dieses Straßentyps reduziert wird. Auch kann die Suchmenge weiter eingeschränkt werden, indem automatisch die aktuelle Position eines Fahrzeugs erfasst wird und nur Straßennamen in einem bestimmten Umkreis gesucht werden.
Es ist die Aufgabe der vorliegenden Erfindung, ein alternatives Verfahren und eine entsprechende Vorrichtung zum Betreiben eines Sprachdialogsystems der eingangs genannten Art bereitzustellen, die eine verbesserte Dialogeffizienz aufweisen. Insbesondere soll die Dialogdauer und/oder die Anzahl der Nutzerinteraktionen reduziert werden.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie einem Sprachdialogsystem mit den Merkmalen des Anspruchs 9 gelöst. Vorteilhafte Aus- und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.
Bei dem erfindungsgemäßen Verfahren wird a) eine erste Spracheingabe erfasst und gespeichert. danach wird b) in einem ersten Vergleich eine zweite Spracheingabe erfasst und mit den Einträgen der Datensätze verglichen oder in einem ersten Vergleich eine erste Teilmenge der Datensätze der Datenbank, insbesondere durch eine zweite Spracheingabe, identifiziert. Danach werden c) die Datensätze in Abhängigkeit von dem Ergebnis dieses ersten Vergleichs auf die erste Teilmenge beschränkt, danach wird d) in einem zweiten Vergleich die gespeicherte erste Spracheingabe mit der ersten Teilmenge der Datensätze verglichen und schließlich wird e) in Abhängigkeit von diesem zweiten Vergleich aus der ersten Teilmenge der Datensätze eine Treffermenge ermittelt, die einen oder mehrere Datensätze enthält. Dieser Verfahrensablauf hat insbesondere den Vorteil, dass ein Nutzer die Spracheingaben in der gewohnten Reihenfolge durchführen kann, auch wenn die Reduzierung der zu durchsuchenden Datenmenge nicht durch die erste Spracheingabe, sondern durch eine zeitlich danach erfasste zweite Spracheingabe erfolgen soll.
Ein Datensatz ist insbesondere eine zusammengefasste Einheit von Datenfeldern. Verschiedene Datentypen, beispielsweise Name, Anschrift und Telefonnummer, werden in solchen Datenfeldern angeordnet, um die Daten zu strukturieren und miteinander zu verknüpfen. Die Datensätze sind mathematisch gesehen somit sogenannte „n-Tupel”, bei denen jedem Eintrag eines Datensatzes eine Dimension zugeordnet werden kann. Es kann somit vorgesehen sein, dass bei einem Sprachdialogsystem aufeinanderfolgende Spracheingaben diesen Dimensionen linear zugeordnet werden, welches die Strukturierung verbessert.
Bei der Ermittlung einer Treffermenge kann ein Übereinstimmungsmaß oder Konfidenzmaß definiert werden, wobei die Treffermenge den Datensatz oder die Datensätze mit der größten Übereinstimmung umfasst. Der oder die Treffer können, insbesondere wenn mehrere Treffer ermittelt wurden, beispielsweise in Form einer Trefferliste auf einer Anzeigefläche dargestellt werden. Eine solche Trefferliste, die N mögliche oder wahrscheinliche Treffer umfasst, wird auch als sogenannte „N-BEST-Liste” bezeichnet.
Vorteilhafterweise wird mittels des ersten Vergleichs, insbesondere durch eine zweite Spracheingabe eine zuvor ausgewählte oder vordefinierte Teilmenge bestätigt. Bei immer wiederkehrenden Bedienaktionen über das Sprachdialogsystem kann dadurch vorteilhafterweise auf in der Vergangenheit ausgewählte Teilmengen zurückgegriffen werden, die beispielsweise nach einer kurzen Bestätigungseingabe oder nach Ablauf eines Time-Out, z. B. 5 Sekunden, automatisch übernommen werden. Eine vordefinierte Teilmenge kann auch automatisch durch einen Parameter von Umgebungsbedingungen bestimmt werden, z. B. aus der gegenwärtigen Position eines Fahrzeugs, in dem das Sprachdialogsystem betrieben wird.
In einer Weiterbildung des erfindungsgemäßen Verfahrens ist vorgesehen, dass nach dem Schritt e) in einem Schritt f) eine dritte Spracheingabe erfasst wird, wenn die Treffermenge keine Datensätze oder zumindest nicht den gewünschten Datensatz enthält, dann g) in einem dritten Vergleich die dritte Spracheingabe mit der zuvor im Schritt c) ermittelten ersten Teilmenge der Datensätze verglichen wird und dann h) in Abhängigkeit von diesem dritten Vergleich aus der ersten Teilmenge der Datensätze eine Treffermenge ermittelt wird, die einen oder mehrere Datensätze enthält. Hierdurch muss im Falle einer vom Nutzer fehlerhaft eingegebenen oder systemseitig fehlerhaft empfangenen ersten Spracheingabe nicht die gesamte Eingabesequenz wiederholt werden, sondern nur die erste Spracheingabe, die automatisch mit der bereits ermittelten Teilmenge der Daten verglichen wird.
Unter einem gewünschten Datensatz wird im Sinne der Erfindung der Datensatz verstanden, den der Nutzer durch seine Spracheingaben hatte eingeben wollen. Bei einer Spracheingabe kommt es jedoch gelegentlich zu systemseitigen oder nutzerseitigen Fehlern. So kann sich beispielsweise der Nutzer bei einer Spracheingabe irren oder die Spracheingabe derart undeutlich ausführen, dass sie systemseitig nicht korrekt erfasst werden kann. Andererseits kann eine korrekte Spracheingabe wegen Störgeräuschen fehlerhaft erfasst werden oder es kann wegen zahlreicher gleicher oder ähnlicher Einträge in den einzelnen Datensätzen zu Mehrdeutigkeiten kommen. Aus diesem Grunde ist es für das erfindungsgemäße Verfahren unerheblich, ob eine ermittelte Treffermenge gar keine Datensätze oder nicht den gewünschten Datensatz umfasst, weil in beiden Fällen der Nutzer im Allgemeinen versuchen wird, die Eingabe zu korrigieren.
Es kann vorgesehen sein, dass zwischen den Schritten b) und c) in einem Schritt i) in Abhängigkeit von dem ersten Vergleich eine Treffermenge von Einträgen ermittelt wird und daraufhin in einem Schritt j). falls die im Schritt i) ermittelte Treffermenge keine Datensätze oder zumindest nicht den gewünschten Datensatz enthält, das Verfahren mit dem Schritt b) fortgeführt wird und andernfalls ein Eintrag aus der Treffermenge ausgewählt wird und auf dieser Basis das Verfahren bei dem Schritt c) fortgeführt wird.
Die Auswahl eines Eintrags aus der Treffermenge erfolgt typischerweise als Dialog mit dem Nutzer, der beispielsweise über eine Spracheingabe oder durch Betätigen eines Bedienelements einen zur Auswahl stehenden Treffer verifiziert. Hierdurch wird ermöglicht, dass die Beschränkung der Datenmenge auf eine Teilmenge für den Fall, wenn dies zweckmäßig ist, durch einen weiteren Dialogschritt verfeinert wird und damit entweder eine Fehlfunktion vermieden oder die Datenmenge noch zielsicherer eingeschränkt wird. Beispielsweise könnte bei Verwechselungsgefahr zweier gleich oder ähnlich klingender Treffer der gewünschte Datensatz, auf dessen Basis die Einschränkung der Datenmenge erfolgen soll, explizit vom Nutzer ausgewählt werden.
Für den Fall, dass dann die im Schritt e) ermittelte Treffermenge keine Datensätze oder zumindest nicht den gewünschten Datensatz enthält, wird mit dem Verfahren beim Schritt a) fortgefahren, wobei die Schritte b) und c) ausgelassen werden. In diesem Falle wurde die zweite Spracheingabe vom Nutzer bereits explizit verifiziert, so dass es ausreicht. die erste Spracheingabe zu wiederholen.
In einer Ausgestaltung des erfindungsgemäßen Verfahrens wird auf Basis eines Datensatzes in der Treffermenge eine systemseitige Funktion ausgeführt. Insbesondere wird über das Sprachdialogsystem ein Navigationssystem in einem Fahrzeug bedient, wobei die Spracheingaben Stadtnamen, Straßennamen, Hausnummern und/oder Sonderziele umfassen. Die Reduzierung der zu durchsuchenden Datenmenge ist generell vorteilhaft für Navigationssysteme, da die Bestimmung oder Neuberechnung einer Fahrtroute sofortigen Einfluss auf das Führen des Fahrzeugs haben kann und somit eine schnellere Ergebnislieferung gegebenenfalls Einfädelungen oder Abzweigungen in die Routenplanung einbeziehen kann, die der Fahrer sonst bereits passiert hätte. Die Zwischenspeicherung der ersten, für den Fahrer gewohnten Spracheingabe, beispielsweise der Straßenname, bietet dabei dem Fahrer einen höheren Nutzungskomfort.
Das erfindungsgemäße Verfahren eignet sich insbesondere für solche Spracheingaben, die Ganzworteingaben sind. Ganzworteingaben unterscheiden sich von Satzeingaben dadurch, dass sie nicht aus Sätzen oder Satzfragmenten bestehen, sondern aus einzelnen Wörter, typischerweise Substantiven oder Eigennamen. Dabei kann eine aufwendige semantische Analyse entfallen. Eine Ganzworteingabe kann aber mehrere miteinander assoziierte Eigennamen oder Substantive mit Artikeln, Adjektiven und/oder Präpositionen enthalten, wie dies bei Straßen- oder Ortsnamen durchaus üblich ist, z. B. „Am kalten Born”, „Untere Hauptstraße” oder „Neustadt an der Weinstraße”.
Das erfindungsgemäße Sprachdialogsystem, umfasst Mittel zum Erfassen von Spracheingaben, eine Speichervorrichtung zum Speichern der erfassten Spracheingaben, eine Schnittstelle zu einer durch das Sprachdialogsystem zu steuernde Funktionseinrichtung, die eine Datenbank umfasst, und eine Steuervorrichtung, mittels der die Spracheingaben mit Einträgen von in der Datenbank gespeicherten Datensätzen vergleichbar sind. Sie ist dadurch gekennzeichnet, dass mittels der Steuervorrichtung eine zuerst erfasste, erste Spracheingabe in der Speichervorrichtung zwischenspeicherbar ist, die in der Datenbank gespeicherten Datensätze in Abhängigkeit von dem Ergebnis eines ersten Vergleichs einer danach erfassten zweiten Spracheingabe mit den Einträgen der Datensätze auf eine Teilmenge einschränkbar sind, und in Abhängigkeit von dem Ergebnis eines zweiten Vergleichs der zwischengespeicherten ersten Spracheingabe mit der Teilmenge der Datensätze eine Treffermenge ermittelbar ist, die einen oder mehrere Datensätze enthält. Die Vorrichtung ist insbesondere zum Durchführen des erfindungsgemäßen Verfahrens geeignet. Sie weist somit auch die Vorteile des erfindungsgemäßen Verfahrens auf.
Erfindungsgemäß ist des Weiteren ein Fahrzeug mit einem solchen Sprachdialogsystem ausgestattet.
Die Erfindung wird nun anhand von Ausführungsbeispielen mit Bezug zu den Figuren näher erläutert.
1 zeigt schematisch den Aufbau eines Ausführungsbeispiels des erfindungsgemäßen Sprachdialogsystems,
2 zeigt ein Flussdiagramm eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens zum Betrieben eines Sprachdialogsystems und
die 3a–3c zeigen Ausschnitte der Flussdiagramme von alternativen Ausführungsformen des erfindungsgemäßen Verfahrens zum Betrieben eines Sprachdialogsystems.
Das im Folgenden beschriebene Ausführungsbeispiel betrifft den Einsatz des erfindungsgemäßen Sprachdialogsystems in einem Fahrzeug, insbesondere einem Kraftfahrzeug. Es wird jedoch darauf hingewiesen, dass das Sprachdialogsystem und das Verfahren zum Betreiben desselben auf gleiche Weise auch in anderen Geräten. wie zum Beispiel tragbaren Geräten, eingesetzt werden können.
In 1 ist schematisch der Aufbau eines Ausführungsbeispiels des erfindungsgemäßen Sprachdialogsystems 20 dargestellt. Eine Steuervorrichtung 24 ist mit Mitteln 21 zum Erfassen von Spracheingaben verbunden. Die Mittel 21 zur Spracheingabe umfassen ein Mikrophon zum Empfang akustischer Signale, ein Softwaremodul zur Sprachaktivitätserkennung sowie einen adaptiven Filter zur Störgeräuschunterdrückung. Die Sprachaktivitätserkennung und der adaptive Filter können alternativ auch in anderer Hardware lokalisiert sein und beispielsweise über die Steuervorrichtung 24 mit den Mitteln 21 zur Spracheingabe in Verbindung stehen. Außerdem ist die Steuervorrichtung 24 mit einer Speichervorrichtung 22 zum Speichern von erfassten Spracheingaben verbunden.
Die Steuervorrichtung 24 ist ferner über eine Schnittstelle 23 mit dem Datenbus 26 im Fahrzeug verbunden, über den die Steuervorrichtung 24 Zugriff auf eine Datenbank 28 in einem Navigationssystem 27 hat, das über eine Funkschnittstelle 29 mit der Außenwelt verbunden ist und beispielsweise laufend Positionsdaten zur aktuellen Position des Fahrzeugs empfängt. Die Steuervorrichtung 24 ist mit einer Anzeigefläche 25 verbunden, auf der Ausgabeinhalte des Navigationssystems 27 ausgegeben werden und über die eine zu einer Spracheingabe ermittelte Treffermenge angezeigt werden kann.
Die Steuervorrichtung 24 umfasst einen Prozessor zum Ausführen eines Programms zur Durchführung des erfindungsgemäßen Verfahrens, das nun anhand von Ausführungsbeispielen mit Bezug zu den 2 und 3a–3c näher erläutert wird.
Im Folgenden wird davon ausgegangen, dass beim Ausführen des erfindungsgemäßen Verfahrens Treffermengen ermittelt und angezeigt werden. Je nachdem, ob dabei genau ein oder mehrere wahrscheinliche Ergebnisse ermittelt werden, werden die Treffer als Einzelergebnisse oder als sogenannte N-Best-Listen mit den N am wahrscheinlichsten Ergebnissen dargestellt. Es ist für das erfindungsgemäße Verfahren unerheblich, ob dabei Einzelergebnisse oder N-Best-Listen dargestellt werden und wie aus einer N-Best-Liste ein Datensatz ausgewählt wird. Eine solche Auswahl kann beispielsweise durch eine weitere Spracheingabe, eine manuelle Eingabe, oder durch einen Time-Out erfolgen, nach dessen Ablauf ein in der N-Best-Liste dargestellter, vorausgewählter Datensatz übernommen wird.
In 2 ist ein Flussdiagramm eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens zum Betreiben des in 1 gezeigten Sprachdialogsystems 20 dargestellt. Als Ausgangssituation möchte ein Nutzer, typischerweise der Fahrer des Fahrzeugs, in dem Navigationssystem 27 ein Navigationsziel eingeben. Dazu erfolgt systemseitig eine Aufforderung 1 zur Spracheingabe, wodurch der Nutzer aufgefordert wird, eine Straße mittels einer Ganzworteingabe zu nennen. Der Nutzer folgt dieser Aufforderung mit einer ersten Spracheingabe 2, bei der er sein gewünschtes Navigationsziel nennt, z. B. „North Miranda Avenue”, dessen Aufzeichnung 3 mithilfe der Speichervorrichtung 22 erfolgt.
Um die genannte Straße nicht in der gesamten Datenbank 28 suchen zu müssen, wird die Datenmenge vorab reduziert. Dazu erfolgt systemseitig eine Rückfrage 4 zur Bestätigung. ob eine aktuell ermittelte Teilmenge verwendet werden soll. Die aktuelle Teilmenge kann dabei auf verschiedene Art und Weise ermittelt worden sein. Sie kann auf der zuletzt benutzten Teilmenge oder einer situationsabhängigen Teilmenge, die sich z. B. aus der Tageszeit ergibt, basieren. Sie kann aber auch aufgrund der Positionsdaten des Fahrzeugs, die das Navigationssystem 27 über die Funkschnittstelle 29 empfängt, festgelegt worden sein, indem beispielsweise nur solche Datensätze berücksichtigt werden, denen Positionen in einem Umkreis zur gegenwärtigen Position des Fahrzeugs zugeordnet sind. Wird die aktuell ermittelte Teilmenge vom Nutzer durch eine zweite Spracheingabe Y bestätigt, indem er beispielsweise mit „Ja” antwortet, so wird diese als Teilmenge identifiziert und die Auswahl 11 des Suchergebnisses initiiert.
In 3a ist der zu der Auswahl 11 des Suchergebnisses zugehörige Ausschnitt des Flussdiagramms im Detail dargestellt. Basierend auf der Teilmenge werden in einem zweiten Vergleich 11a eine oder mehrere mögliche Zieladressen berechnet und somit eine Treffermenge 11b ermittelt. Die Treffermenge 11b wird anschließend in einer Präsentation 11c auf der Anzeigefläche 25 dargestellt. Falls die Treffermenge 11b den gewünschten Datensatz umfasst, kann dieses ausgewählt werden, womit das Dialogende 11d erreicht wird. Falls die Treffermenge 11b den gewünschten Datensatz nicht umfasst oder die Treffermenge 11b leer ist, das heißt überhaupt keine Datensätze umfasst, kann die Suche nach Verwurf 11e des Suchergebnisses in einer Wiederholungsschleife 11f wiederholt werden. Da der Nutzer bereits zuvor eine existierende Teilmenge der Datenmenge ausgewählt hat, wird davon ausgegangen, dass der Fehler bei der ersten Spracheingabe 2 lag, sodass nun eine dritte Spracheingabe erfasst wird, die die erste Spracheingabe 2 ersetzt und das Verfahren mit dem zweiten Vergleich 11a wiederholt wird.
Wird bei der Rückfrage 4 zur Bestätigung, ob eine aktuell ermittelte Teilmenge verwendet werden soll, vom Nutzer nicht bestätigt (N), so erfolgt eine systemseitige Aufforderung 5 zu einer zweiten Spracheingabe 6. In dieser kann der Nutzer eine neue Ganzworteingabe zur Reduzierung der Datenmenge machen, wobei typischerweise die Eingabe einer Stadt oder Region vorgesehen sein kann. Bei der zweiten Spracheingabe 6 nennt der Nutzer z. B. „Los Angeles” als neue Stadt, die in einem ersten Vergleich 7 mit den in der Datenbank 28 gespeicherten Städten verglichen werden soll.
Gemäß einer ersten Ausführungsvariante wird das Ergebnis dieses Vergleichs nicht mehr seitens des Nutzers verifiziert und auf der Basis der erfassten zweiten Spracheingabe 6 und dem ersten Vergleich 7 eine Auswahl 12 des Suchergebnisses in der zu reduzierenden Datenmenge initiiert.
In 3b ist der zu der Auswahl 12 des Suchergebnisses zugehörige Ausschnitt des Flussdiagramms im Detail dargestellt. Dabei wird zunächst die aus dem ersten Vergleich 7 resultierende Treffermenge 12a ermittelt, mittels derer eine Teilmenge der Datenmenge ermittelt wird. In einem zweiten Vergleich 12b werden dann eine oder mehrere mögliche Datensätze der Zieladressen berechnet und somit eine Treffermenge 12c ermittelt. Diese Treffermenge 12c basiert auf den beiden vom Nutzer nicht verifizierten Spracheingaben 2, 6. Die Treffermenge 12c wird anschließend in einer Präsentation 12d auf der Anzeigefläche 25 dargestellt. Falls die Treffermenge 12c den gewünschten Datensatz umfasst, kann dieser ausgewählt werden, womit das Dialogende 12e erreicht wird. Falls die Treffermenge 12c den gewünschten Datensatz nicht umfasst oder die Treffermenge 12c leer ist, das heißt überhaupt keine Datensätze umfasst, wird mit dem Verwurf 12f beider Spracheingaben 2, 6 das Verfahren mit der Aufforderung 1 einer neuen ersten Spracheingabe 2 wieder in den Ausgangszustand versetzt.
Bei dieser ersten Ausführungsvariante kann unter eindeutigen Bedingungen durch die besonders straffe Dialogführung das Suchergebnis besonders schnell ermittelt werden. Bei einer erhöhten Fehlerquote ist jedoch eine zweiten Ausführungsvariante vorteilhafter, bei der zu dem Vergleich 7 zunächst eine Treffermenge 8 ermittelt wird, die in einer Präsentation 9 dem Nutzer zur Auswahl oder Verifizierung ausgegeben wird. Dem Nutzer wird beispielsweise eine Trefferliste mit dem vorausgewählten Eintrag „Los Angeles” mit der Rückfrage „Meinten Sie Los Angeles angezeigt, die er mit einem einfachen „Ja” bestätigen kann. Falls hierbei keine Treffer oder nicht der gewünschte Datensatz gefunden wurden, wird das Verfahren in einer Wiederholungsschleife 10 mit einer wiederholten zweiten Spracheingabe 6 fortgeführt, bis die Stadt richtig identifiziert wurde. Auf der Basis der ausgewählten Stadt „Los Angeles” wird die Datenmenge auf eine Teilmenge reduziert und die Auswahl 13 des Suchergebnisses in der so reduzierten Datenmenge initiiert.
In 3c ist der zu der Auswahl 13 des Suchergebnisses zugehörige Ausschnitt des Flussdiagramms im Detail dargestellt. Basierend auf der Teilmenge werden in einem zweiten Vergleich 13a eine oder mehrere mögliche Zieladressen berechnet und somit eine Treffermenge 13b ermittelt. Die Treffermenge 13b wird anschließend in einer Präsentation 13c auf der Anzeigefläche 25 dargestellt. Falls die Treffermenge 13b den gewünschten Datensatz umfasst, kann dieses ausgewählt werden, womit das Dialogende 13d erreicht wird. Falls die Treffermenge 13b den gewünschten Datensatz nicht umfasst oder die Treffermenge 13b leer ist, das heißt überhaupt keine Datensätze umfasst, kann die Suche nach Verwurf 13e des Suchergebnisses in einer Wiederholungsschleife 13f wiederholt werden. Da der Nutzer bereits zuvor die Stadt explizit verifiziert hat, wird davon ausgegangen, dass der Fehler bei der ersten Spracheingabe 2 lag, sodass nun eine dritte Spracheingabe erfasst wird, die die erste Spracheingabe 2 ersetzt und das Verfahren mit dem zweiten Vergleich 13a wiederholt wird.
Mithilfe der vorliegenden Erfindung werden insbesondere Sprachdialogsysteme verbessert, bei denen ein festes Eingabeschema üblich ist, wobei allerdings die erste Eingabe wenig brauchbar für die Reduzierung der zu durchsuchenden Datenmenge ist. Dies ist beispielsweise bei Navigationsgeräten in einigen Ländern, z. B. USA, der Fall, in denen üblicherweise zuerst ein Straßenname und dann eine Stadt eingegeben wird. Im beschriebenen Ausführungsbeispiel wird die Gesamtdatenmenge von mehr als 140.000 Straßennamen durch die Zwischenspeicherung und Vorab-Reduzierung auf „Los Angeles” auf etwa 23.500 reduziert. Diese Reduzierung der Datenmenge bewirkt eine beschleunigte Ergebnislieferung des gewünschten Navigationsziels.
Bezugszeichenliste

1: Aufforderung zur Spracheingabe
2: erste Spracheingabe
3: Aufzeichnung der ersten Spracheingabe
4: Rückfrage zur Bestätigung der aktuellen Teilmenge
5: Aufforderung zur zweiten Spracheingabe
6: zweite Spracheingabe
7: Durchführung des ersten Vergleichs
8: Treffermenge des ersten Vergleichs
9: Präsentation der Treffermenge des ersten Vergleichs
10: Wiederholungsschleife
11: Auswahl des Suchergebnisses
11a: Durchführung des zweiten Vergleichs auf Basis der aktuellen Teilmenge
11b: Treffermenge des zweiten Vergleichs
11c: Präsentation der Treffermenge des zweiten Vergleichs
11d: Dialogende
11e: Verwurf
11f: Wiederholungsschleife
12: Auswahl des Suchergebnisses
12a: Treffermenge des ersten Vergleichs
12b: Durchführung des zweiten Vergleichs auf Basis der neuen Teilmenge
12c: Treffermenge des zweiten Vergleichs
12d: Präsentation der Treffermenge des zweiten Vergleichs
12e: Dialogende
12f: Verwurf
13: Auswahl des Suchergebnisses
13a: Durchführung des zweiten Vergleichs auf Basis der neuen, verifizierten Teilmenge
13b: Treffermenge des zweiten Vergleichs
13c: Präsentation der Treffermenge des zweiten Vergleichs
13d: Dialogende
13e: Verwurf
13f: Wiederholungsschleife
20: Sprachdialogsystem
21: Mittel zum Erfassen von Spracheingaben
22: Speichervorrichtung
23: Schnittstelle
24: Steuervorrichtung
25: Anzeigefläche
26: Datenbus im Fahrzeug
27: Navigationssystem
28: Datenbank
29: Funkschnittstelle

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102005059390 A1 [0004]
DE 602005005597 T2 [0006]
EP 1793371 A2 [0007]

Claims

Verfahren zum Betreiben eines Sprachdialogsystems (20), bei dem Spracheingaben mit Einträgen von in einer Datenbank (28) gespeicherten Datensätzen verglichen werden, umfassend die Schritte, dass a) eine erste Spracheingabe (2, 3) erfasst und gespeichert wird, b) danach in einem ersten Vergleich (6, 7) eine zweite Spracheingabe erfasst und mit den Einträgen der Datensätze verglichen oder in einem ersten Vergleich (4, 11) eine erste Teilmenge der Datensätze der Datenbank (28) identifiziert wird, c) danach die Datensätze in Abhängigkeit von dem Ergebnis dieses ersten Vergleichs auf die erste Teilmenge beschränkt werden, d) danach in einem zweiten Vergleich (11a; 12b; 13a) die gespeicherte erste Spracheingabe mit der ersten Teilmenge der Datensätze verglichen wird und e) in Abhängigkeit von diesem zweiten Vergleich (11a; 12b; 13a) aus der ersten Teilmenge der Datensätze eine Treffermenge (11b; 12c; 13b) ermittelt wird, die einen oder mehrere Datensätze enthält.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass mittels des ersten Vergleichs (4, 11), insbesondere durch eine zweite Spracheingabe, eine zuvor ausgewählte oder vordefinierte Teilmenge bestätigt wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass eine vordefinierte Teilmenge automatisch durch einen Parameter von Umgebungsbedingungen bestimmt wird, in dem das Sprachdialogsystem (20) betrieben wird.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass nach dem Schritt e): f) eine dritte Spracheingabe (11f, 2; 13f, 2) erfasst wird, wenn die Treffermenge keine Datensätze oder zumindest nicht den gewünschten Datensatz enthält, g) in einem dritten Vergleich (11a; 13a) die dritte Spracheingabe mit der zuvor im Schritt c) ermittelten ersten Teilmenge der Datensätze verglichen wird und h) in Abhängigkeit von diesem dritten Vergleich aus der ersten Teilmenge der Datensätze eine Treffermenge (11b; 13b) ermittelt wird, die einen oder mehrere Datensätze enthält.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass zwischen den Schritten b) und c): i) in Abhängigkeit von dem ersten Vergleich eine Treffermenge (8) von Einträgen ermittelt wird und j) falls die im Schritt i) ermittelte Treffermenge (8) keine Datensätze oder zumindest nicht den gewünschten Datensatz enthält, das Verfahren mit dem Schritt b) fortgeführt wird und andernfalls ein Eintrag aus der Treffermenge ausgewählt und auf dieser Basis das Verfahren bei dem Schritt c) fortgeführt wird.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, falls die im Schritt e) ermittelte Treffermenge (13b) keine Datensätze oder zumindest nicht den gewünschten Datensatz enthält, mit dem Verfahren beim Schritt a) fortgefahren wird, wobei die Schritte b) und c) ausgelassen werden.
Verfahren nach einem der vorangegangenen Ansprüche. dadurch gekennzeichnet, dass auf Basis eines Datensatzes der Treffermenge (11b; 12c; 13b) eine systemseitige Funktion ausgeführt wird.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass über das Sprachdialogsystem (20) ein Navigationssystem (27) in einem Fahrzeug bedient wird, wobei die Spracheingaben Stadtnamen, Straßennamen, Hausnummern und/oder Sonderziele umfassen.
Sprachdialogsystem (20), umfassend – Mittel (21) zum Erfassen von Spracheingaben, – eine Speichervorrichtung (22) zum Speichern der erfassten Spracheingaben, – eine Schnittstelle (23) zu einer durch das Sprachdialogsystem (20) zu steuernde Funktionseinrichtung (27), die eine Datenbank (28) umfasst, und – eine Steuervorrichtung (24), mittels der die Spracheingaben mit Einträgen von in der Datenbank (28) gespeicherten Datensätzen vergleichbar sind, dadurch gekennzeichnet, dass mittels der Steuervorrichtung (20) – eine zuerst erfasste, erste Spracheingabe (2, 3) in der Speichervorrichtung (22) zwischenspeicherbar ist, – die in der Datenbank (28) gespeicherten Datensätze in Abhängigkeit von dem Ergebnis eines ersten Vergleichs (4, 11; 6, 7) einer danach erfassten zweiten Spracheingabe mit den Einträgen der Datensätze auf eine Teilmenge einschränkbar sind, und – in Abhängigkeit von dem Ergebnis eines zweiten Vergleichs (11a; 12b; 13a) der zwischengespeicherten ersten Spracheingabe mit der Teilmenge der Datensätze eine Treffermenge (11b; 12c; 13b) ermittelbar ist, die einen oder mehrere Datensätze enthält.
Fahrzeug mit einem Sprachdialogsystem nach Anspruch 9.