DE102015014206B4

DE102015014206B4 - Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe

Info

Publication number: DE102015014206B4
Application number: DE102015014206.2A
Authority: DE
Inventors: Gerd Gruchalski; Stefan Ruff
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2020-06-25
Anticipated expiration: 2035-11-05
Also published as: DE102015014206A1

Abstract

Verfahren zum Eingeben eines Navigationsziels aus einer von mehreren Sprachregionen mittels einer in einer Systemsprache gesprochenen Spracheingabe (16) in ein Navigationssystem (18) eines Kraftfahrzeugs, gekennzeichnet durch die folgenden, durch eine Vorrichtung ausgeführten Schritte:a) Bereitstellen je eines Vokabulars (14) von Zielangaben für jede Sprachregion, wobei die Vokabulare aller Sprachregionen in eine Phonetik der Systemsprache konvertiert sind,b) Bereitstellen von Trägersätzen in der Systemsprache,c) Bereitstellen eines statistischen Spracherkenners (12) zum Erkennen der Spracheingabe (16) und eines auf den Trägersätzen und den Vokabularen der Zielangaben basierenden statistischen Sprachmodells der Systemsprache für den Spracherkenner (12),d) Ermitteln der Zielangabe aus der Spracheingabe (16) mittels des statistischen Spracherkenners (12), wobei der Schritt d) umfasst:d1) Auswählen eines der Vokabulare (14) zum Ermitteln der Zielangabe anhand eines vorbestimmten Auswahlkriteriums,d2) Ermitteln der Zielangabe aus der Spracheingabe (16) auf der Grundlage des ausgewählten Vokabulars (14),e) Suchen der Zielangabe in einer Datenbank eines Navigationssystems (18) und Einstellen von zu der Zielangabe gefundenen Zieldaten des Navigationsziels, dadurch gekennzeichnet, dass das Auswahlkriterium umfasst, dass- ein Stichwortvokabular (20) mit in die Phonetik der Systemsprache konvertierten Stichworten bereitgestellt wird, welche jeweils auf eine Sprachregion verweisen, wobei für jede Sprachregion mindestens ein Stichwort bereitgestellt ist,- die Spracheingabe (16) auf Stichworte aus dem Stichwortvokabular (20) mittels des statistischen Spracherkenners (12) überprüft wird,- anhand zumindest eines gefundenen Stichworts eines der Vokabulare (14) ausgewählt und die Zielangabe anhand des ausgewählten Vokabulars ermittelt wird.

Description

Die Erfindung betrifft ein Verfahren zum Verarbeiten einer Spracheingabe für eine Navigationszieleingabe in einem Navigationssystem eines Kraftfahrzeugs sowie eine Vorrichtung zum Durchführen des Verfahrens.
Heute werden automatische Spracherkenner (ASR - Automatic Speech Recognizer) in Kraftfahrzeugen unter anderem zur Navigationszieleingabe genutzt. Dabei ist eine Zieleingabe bisher auf Ziele aus einem einzigen voreingestellten Land beschränkt. Grund dafür ist, dass ein automatischer Spracherkenner nur für eine Sprachregion betrieben werden kann, um die unterschiedlichen Sprachlaute der verschiedenen Sprachregionen erkennen zu können. So erfordert die deutsche Sprachregion die Erkennung von Umlauten (z.B. Ä, Ü), während die englische Sprachregion z.B. die Erkennung des Lautes „th“ (wie in „Southampton“) erfordert. Möchte man ein Ziel aus einem anderen Land annavigieren, so muss manuell das Land umgestellt werden.
Die EP 1 693 828 A1 offenbart ein Verfahren zur Spracheingabe, mittels welchem ein Element aus einer Gesamtliste von Elementen ausgewählt werden kann. Dabei erkennt eine Spracherkennungseinheit Sprachuntereinheiten einer Spracheingabe, wobei die Sprachuntereinheiten von einer Vergleichseinheit mit gespeicherten Sprachuntereinheiten verglichen werden. Die am besten passenden Elemente werden anschließend in eine sogenannte Kandidatenliste aufgenommen. Es werden wenigstens zwei Spracherkennungseinheiten für unterschiedliche Landessprachen verwendet. Dies macht die Implementierung aufwendig.
Der US 2004/0039570 A1 ist ebenfalls ein Verfahren zur Spracherkennung als bekannt zu entnehmen, wobei jedes eingegebene Wort von mehreren Spracherkennern einen Wert zugeordnet bekommt, welcher die Wahrscheinlichkeit der Zugehörigkeit zu jeweils einer Sprache angibt. Diejenigen Wort-Wahrscheinlichkeits-Kombinationen, bei welchen der Wahrscheinlichkeitswert einen vorgegebenen Schwellenwert überschreitet, werden jeweils einer Lautschrift zugeordnet, welche in einem weiteren Schritt von Betonungslexika und HM-Modellen (HM = Hidden-Markov) final als eingegebenes Wort erkannt werden. Für einige Wörter ist zusätzlich ein Gemischtsprachenerkenner (Mixed HMM) vorgesehen.
Aus der EP 1 975 923 A1 ist ein Verfahren zur Auswahl eines Elements aus einer Gesamtliste von Elementen mittels Spracheingabe bekannt. Dabei werden von einer Spracherkennungseinheit Sprachuntereinheiten erkannt und mit der Gesamtliste von Elementen verglichen. Ausgehend von dem Vergleich wird eine Kandidatenliste von Elementen erstellt, wobei eine sogenannte „Konfusionsmatrix“ („confusion matrix“) verwendet wird. Hiermit werden Fehlerkennungen vermieden, falls ein Nutzer einen Ortsnamen in einer Sprache ausspricht, die von der Systemsprache des Spracherkenners unterschiedlich ist.
Aus der US 2009/0150156 A1 ist eine Spracherkennungsvorrichtung für ein Kraftfahrzeug bekannt, die eine natürlichsprachliche Sprachbedienung von Geräten des Kraftfahrzeugs ermöglicht.
Aus der US 2009/0248395 A1 ist bekannt, bei einem Spracherkenner in dessen Erkennungsvokabular auch Worte aus einer Fremdsprache zu übernehmen, wobei diese Worte aus der Fremdsprache mit einer phonetischen Lautschrift modelliert werden, die der Spracherkenner interpretieren kann.
Aus der US 8,768,704 B1 ist bekannt, einen Text, der in einer ersten Sprache geschrieben ist, klanglich durch eine phonetische Repräsentation zu beschreiben oder zu repräsentieren, die auf einer zweiten Sprache beruht.
Aus der DE 11 2010 005 226 T5 ist bekannt, Phoneme einer Sprache auf Phoneme einer anderen Sprache abzubilden, um hierdurch einen Spracherkenner in die Lage zu versetzen, auch fremdsprachliche Worte erkennen zu können.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zur Auswahl eines solchen Navigationsziels mittels Spracheingabe bereitzustellen, das in einer von mehreren möglichen Sprachregionen liegt.
Diese Aufgabe wird durch ein Verfahren und ein Vorrichtung mit den Merkmalen der unabhängigen Patentansprüche gelöst. Vorteilhafte Ausgestaltungen mit zweckmäßigen Weiterbildungen der Erfindung sind in den übrigen Ansprüchen angegeben.
Die Erfindung betrifft ein Verfahren zum Eingeben eines Navigationsziels aus einer von mehreren Sprachregionen mittels einer in einer Systemsprache gesprochenen Spracheingabe. Die Systemsprache ist die aktuell im Spracherkenner eingestellte oder aktive Erkennungssprache, zu der dann die entsprechenden Sonderlaute (z.B. deutsche Umlaute oder das englische „th“) erkannt werden können. Das Verfahren wird durch eine Vorrichtung durchgeführt, die in einem Navigationssystem eines Kraftfahrzeugs bereitgestellt oder diesem vorgeschaltet sein kann. Es zeichnet sich durch die folgenden, von der Vorrichtung durchgeführten Schritte aus:

a) Bereitstellen je eines Vokabulars von Zielangaben für jede Sprachregion, wobei die Vokabulare aller Sprachregionen in eine Phonetik der Systemsprache konvertiert sind,
b) Bereitstellen von Trägersätzen in der Systemsprache,
c) Bereitstellen eines statistischen Spracherkenners zum Erkennen der Spracheingabe und eines auf den Trägersätzen und den Vokabularen der Zielangaben basierenden statistischen Sprachmodells der Systemsprache für den Spracherkenner,
d) Ermitteln der Zielangabe aus der Spracheingabe mittels des statistischen Spracherkenners,
e) Suchen der Zielangabe in einer Datenbank eines Navigationssystems und Einstellen von zu der Zielangabe in der Datenbank gefundenen Zieldaten des Navigationsziels.

Bei den Sprachregionen handelt es sich um Zusammenschlüsse geographischer Regionen, in denen dieselbe Landessprache gesprochen wird. Beispielsweise bilden Österreich und Deutschland die Sprachregion „Deutsch“. Wahlweise ist es ebenfalls möglich, Regionen in denen mehrere Sprachen gesprochen werden auch mehreren Sprachregionen zuzuweisen. Die Schweiz beispielsweise wäre dann in den Sprachregionen „Deutsch“, „Italienisch“ und „Französisch“ enthalten.
Der statistische Spracherkenner ist vorzugsweise auf der Grundlage von Hidden-Markov-Modellen (HMMs) gebildet und erkennt eine Spracheingabe insbesondere zu jedem Zeitpunkt in nur einer Erkennungssprache oder Systemsprache. Generell kann hier anstelle von HMMs auf eine beliebige andere Erkennertechnologie zurückgegriffen werden. Der Spracherkenner erkennt gesprochene Lautfolgen. Dazu weist der Spracherkenner akustische Modelle (z.B. HMMs) auf, mit denen die in der Systemsprache vorkommenden Laute und Lautfolgen erkannt werden können, also z.B. auch Umlaute „äöü“ bei einem Spracherkenner der Sprache Deutsch. Mögliche, zu erkennende Lautfolgen sind mittels einer Phonetik beschreibbar, z.B. auf der Grundlage von Triphonen. Welche Lautfolgen möglich sind, beschreibt das statistische Sprachmodell (SLM - Statistical Language Model). Das Sprachmodell umfasst hierzu ein Vokabular der möglichen Trägersätze einschließlich Füllworten sowie die zu erkennenden Zielangaben. Jedes Vokabular enthält die gültigen Worte und/oder Wortfolgen sowie deren phonetische Entsprechung oder Repräsentation, d.h. eine Phonetikumschreibung. Trägersätze sind dabei die Äußerungen, die ein Benutzer voraussichtlich macht, um eine bestimmte Absicht auszudrücken. Darin sind die Intention (hier ein Ziel einzugeben, z.B. „Fahre“, „Navigiere“) sowie für die Zieleingabe irrelevante Füllworte („ich möchte“, „in“, „zu“, ...) enthalten. Beispiele für solche Trägersätze sind: „Ich möchte nach ... fahren“ und „Navigiere mich nach ...“. Die durch Auslassungspunkte „...“ repräsentierten möglichen Zielangaben, d.h. das Ziel selbst (Stadt, Straße, Point-of-Interest POI), können dann aus den besagten Vokabularen der Zielangaben ergänzt oder eingefügt werden. Dazu wird das Sprachmodell basierend auf den jeweiligen Trägersätzen sowie den Vokabularen sämtlicher Sprachregionen erstellt. Ist die Systemsprache z.B. Deutsch, können hierbei aber Laute aus einer anderen Sprachregion im Spracherkenner fehlen. Ein Beispiel für einen solchen Laut ist das Englische „th“. Die Vokabulare der Zielangaben werden deshalb erfindungsgemäß in die Phonetik der Systemsprache konvertiert, indem beispielsweise der englische Laut „th“ durch den deutschen Laut „s“ nachgestellt wird, und erst dann in die Trägersätze eingefügt. Spricht nun eine Bedienperson in Deutsch die Spracheingabe: „Ich möchte nach Southampton fahren“ aus, so kann der deutsche Trägersatz mit der englischen Zielangabe „Southampton“ (Ort in Südengland, d.h. Sprachregion „Englisch“) trotz des nicht-deutschen Lauts „th“ mittels des Spracherkenners erkannt werden, weil in seinem deutschen Sprachmodell z.B. eine Vokabel mit der Phonetikumschreibung „Saushämpten“ existiert, die er mittels seiner Akustikmodelle erkennen kann, und weil diese Phonetikumschreibung mit der Zielangabe „Southampton“ verknüpft ist. Dies ist möglich, ohne das Land, für welches Zieldaten ermittelt werden sollen, vorher umzustellen (z.B. von Deutschland auf England).
Bisher und im Weiteren ist nur von einer einzigen Erkennungssprache oder Systemsprache die Rede, weil dies zur Erläuterung der Erfindung ausreicht. Selbstverständlich kann die Erfindung für jede Systemsprache, in der eine Eingabe erfolgen soll, realisiert werden, so dass die erfindungsgemäße Vorrichtung natürlich mehrere Systemsprachen bereitstellen kann, aus denen ein Benutzer z.B. in einem Konfigurationsmenü auswählen kann.
Durch das erfindungsgemäße Verfahren ist es möglich, mittels einer Spracheingabe Navigationsziele aus mehreren Sprachregionen auszuwählen. Das manuelle Einstellen eines Ziellandes der Navigation ist durch das erfindungsgemäße Verfahren vermieden.
Die Erfindung sieht zur Einsparung von Rechenressourcen vor, dass nicht alle Vokabulare zur gleichen Zeit aktiv sind. Hierzu umfasst der Schritt d) die Teilschritte:

d1) Auswählen eines der Vokabulare zum Ermitteln der Zielangabe, anhand eines vorbestimmten Auswahlkriteriums,
d2) Ermitteln der Zielangabe aus der Spracheingabe auf der Grundlage des ausgewählten Vokabulars.

Das erfindungsgemäße Verfahren umfasst dabei das Auswahlkriterium, dass ein Stichwortvokabular mit in die Phonetik der Systemsprache konvertierten Stichworten bereitgestellt wird, wobei die Stichworte jeweils auf eine Sprachregion und somit auf ein bestimmtes der Vokabulare verweisen und für jede Sprachregion mindestens ein Stichwort bereitgestellt ist (z.B. „Straße“ für Deutsch, „rue“ für Französisch, „street“ für Englisch und „via“ für Italienisch). Weiterhin wird die Spracheingabe auf Stichworte aus dem Stichwortvokabular mittels des Spracherkenners überprüft und anhand zumindest eines gefundenen Stichworts eines der Vokabulare ausgewählt und die Zielangabe anhand des ausgewählten Vokabulars ermittelt. Dadurch ergibt sich der Vorteil, dass ein inhaltlicher Bezug zwischen Spracheingabe und Sprachregion ermittelt wird, welcher die Spracheingabe eindeutig einer Sprachregion und somit einem Vokabular zuweisen kann, mittels welchem der statistische Spracherkenner die richtige Zielangabe findet, die z.B. in einem zuerst ausgewählten Vokabular nicht enthalten war (z.B. „Via Appia“ in der Sprachregion Deutsch). Bei mehreren gefundenen Stichworten kann eine Rangfolge entscheiden. Vorzugsweise kann das Stichwortvokabular bei Bedarf immer wieder ergänzt und oder neu generiert werden.
Vorzugsweise kann das Kraftfahrzeug sämtliche zum Betreiben der Spracherkennung erforderlichen Mittel in Form von Software und Hardware bereits ab Werk und/oder onboard aufweisen. Die Vokabulare können bei Bedarf immer wieder ergänzt und/oder neu generiert werden.
In einer vorteilhaften Ausführung des Verfahrens wird das statistisches Sprachmodell (SLM) für den Spracherkenner erstellt, indem sämtliche sprechbaren Teilelemente der Zielangabe (also Land, Stadt, Stadtteil, Straße, POI-Kategorie (Restaurant, Tankstelle), POI-Eigenname) sowie zugehörige Trägersätze gesammelt, normalisiert, annotiert und schließlich zu dem statistischen Sprachmodell kombiniert oder compiliert werden. Eine Normalisierung ist die Vereinheitlichung der Schreib-/Sprechweise von Teilelementen, welche mehrere schriftliche Ausführungsformen aufweisen, beispielsweise die Formen „und“, „&“ oder „Sankt“, „St.“. Eine Annotierung ist eine Aufteilung und Kennzeichnung der einzelnen Teilelemente und das Bewerten beispielsweise als Intention (hier eine Zieleingabe), sinntragende Elemente (z.B. ein bestimmter Ort), und Füllworte (ohne besondere Bedeutung). Der statistische Spracherkenner ist dazu ausgelegt, aus der Spracheingabe die sinntragenden Elemente heraus zu filtern, aus welchen dann die Ermittlung der Zielangabe erfolgt. Daraus ergibt sich der Vorteil, dass eine Spracheingabe keinen vorgegebenen Regeln oder Kommandos entsprechen muss, sondern eine frei formulierte Eingabe erkannt wird. Insbesondere kann auch eine unvollständige Eingabe erkannt werden, falls die sinntragenden Elemente zu Zieldaten in der Datenbank führen. Durch die Beschränkung der weiteren Analyse der Spracheingabe auf die sinntragenden Elemente wird weiterhin Rechenkapazität und -zeit gespart, wodurch ein Benutzer eine schnellere Rückmeldung auf seine Spracheingabe erfährt und auf die begrenzten Rechenkapazitäten eines Kraftfahrzeugs Rücksicht genommen ist.
In einer weiteren vorteilhaften Ausführung des Verfahrens umfasst das Auswahlkriterium, dass das Vokabular der Sprachregion ausgewählt wird, in welcher sich ein Benutzer aktuell befindet. Da davon ausgegangen werden kann, dass das wahrscheinlichste Navigationsziel in der näheren Umgebung des Benutzers vorzufinden ist, wird hierdurch wiederum Rechenkapazität und -zeit gespart, wodurch ein Benutzer eine schnellere Rückmeldung auf seine Spracheingabe erfährt und auf die begrenzten Rechenkapazitäten eines Kraftfahrzeugs Rücksicht genommen ist.
In einer weiteren vorteilhaften Ausführung des Verfahrens umfasst das Auswahlkriterium, dass das Vokabular der Sprachregion ausgewählt wird, zu welcher sich der Benutzer gerade geographische näher als ein bestimmter Grenzwert aufhält. Wie bereits beschrieben ist es als am wahrscheinlichsten anzusehen, dass ein gesuchtes Navigationsziel in der Umgebung des aktuellen Aufenthaltsorts des Benutzers ist. Befindet sich der Benutzer aktuell an einer Grenze zu einer anderen Sprachregion, ist es entsprechend sehr wahrscheinlich, das gesuchte Navigationsziel in der benachbarten Sprachregion zu finden.
In einer weiteren vorteilhaften Ausführung des Verfahrens umfasst das Auswahlkriterium, dass zur Auswahl eines Vokabulars eine Historie der angefahrenen Ziele des Benutzers evaluiert wird. Dadurch ergibt sich der Vorteil, dass ein Navigationsziel, welches der Benutzer in der Vergangenheit bereits mehrmals verwendet hat, wiedererkannt wird. Möchte ein Benutzer sich beispielsweise nach einem Ausflug nach Hause navigieren lassen, wird aus der Fahrtenhistorie des Benutzers sofort erkannt, dass das Ziel „nach Hause“ bereits mehrmals verwendet wurde und immer in einer bestimmten Sprachregion lag.
Die oben genannten Methoden zur Auswahl eines der Vokabulare zum Ermitteln zumindest einer Zielangabe können ebenfalls in Kombination verwendet werden oder nacheinander, um zumindest eine Zieleingabe zu ermitteln, falls zum Beispiel ein Auswahlkriterium fehl schlägt.
Des Weiteren betrifft die Erfindung eine Vorrichtung zur Auswahl eines Navigationsziels aus einer von mehreren Sprachregionen mittels einer in einer Systemsprache gesprochenen Spracheingabe. Die erfindungsgemäße Vorrichtung zeichnet sich dadurch aus, dass die Vorrichtung einen statistischen Spracherkenner und ein statistisches Sprachmodell basierend auf Trägersätzen in der Systemsprache und je einem Vokabular von Zielangaben für jede Sprachregion in der Phonetik der Systemsprache aufweist. Des Weiteren ist die Vorrichtung dazu eingerichtet, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.
Weitere Vorteile, Merkmale und Einzelheiten der Erfindung ergeben sich aus der nachfolgenden Beschreibung bevorzugter Ausführungsbeispiele sowie anhand der Zeichnung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar, ohne den Rahmen der Erfindung zu verlassen.
Die Zeichnung zeigt in der einzigen Figur (Fig.) eine schematische Darstellung einer erfindungsgemäßen Vorrichtung 10, welche einen statistischen Spracherkenner 12 mit einem oder mehreren Sprachmodellen für jeweils eine einstellbare Systemsprache und für jede Systemsprache jeweils mehrere Vokabulare 14 umfasst, mittels welcher aus einer Spracheingabe 16 eine Erkennung eines Navigationsziels erfolgt. In dem Beispiel sei der übersichtlicheren Darstellung halber zunächst davon ausgegangen, dass nur ein Sprachmodell für eine Systemsprache vorhanden ist.
Der statistische Spracherkenner 12 greift in dem Beispiel auf eines der Vokabulare 14 zu und stellt die für die Zielangabe in einer Datenbank (nicht dargestellt) gefundenen Zieldaten als Navigationsziel ein. Dabei steht für jede Sprachregion, in welcher ein Navigationsziel gefunden werden soll, ein Vokabular 14 zur Verfügung. Eines dieser Vokabulare 14 muss ausgewählt werden, um auf dessen Grundlage mittels des statistischen Spracherkenners 12 die Zielangabe zu erkennen. Zur Auswahl des einen Vokabulars wird eine aktuelle Position 22, ein Stichwortvokabular 20 und/oder eine Historie 24 der angefahrenen Ziele verwendet. Die Zielangaben in den Vokabularen 14 liegen in der Phonetik der jeweils aktiven Systemsprache vor oder werden in diese Phonetik konvertiert. Die Sprache des statistischen Spracherkenners 12 ist vorzugsweise identisch mit der Systemsprache des Kraftfahrzeugs.
Nachfolgend ist eine beispielhafte Durchführung des erfindungsgemäßen Verfahrens beschrieben.
Ab Werk werden die Vokabulare 14 bereitgestellt, welche die Zielangaben jeweils einer Sprachregion beinhalten. Für die Sprachregionen werden alle Länder, beispielsweise eines Kontinents, mit gemeinsamer Landessprache zu einer Sprachregion zusammengefasst, also beispielsweise für Europa:

- Deutschland, Österreich, Schweiz für Deutsch
- Frankreich, Belgien, Schweiz für Französisch
- England, Schottland, Wales, Irland für Englisch.

Dabei wird eine phonetische Repräsentation für alle abzudeckenden Länder in der Systemsprache des statistischen Spracherkenners 12 erzeugt. Dabei müssen gegebenenfalls die Phonetiken der Quell- und Zielsprache aufeinander abgebildet werden. Dies geschieht vorzugsweise mittels eines „crossmapping“-Verfahrens.
Für vier Länder (Deutschland, Österreich, England, Italien) und zwei Systemsprachen (Deutsch, Englisch) ergeben sich die Vokabulare z.B. folgendermaßen für die Systemsprache Deutsch:

Systemsprache des statistischen Spracherkenners: Deutsch.
- - Vokabular: Deutschland und Österreich (Deutsch)
- - Vokabular: Großbritannien (Englisch) konvertiert in deutsche Phonetik
- - Vokabular: Italien (Italienisch) konvertiert in deutsche Phonetik.

Die Vokabulare enthalten jeweils sämtliche gesammelten Trägersätze samt Füllworten auf Deutsch, in die die jeweiligen Ziele (ggf. zuvor konvertiert) eingebettet werden können. Die Konvertierung der fremdsprachlichen Vokabulare (hier im Beispiel Englisch und Italienisch) in die Phonetik der Systemsprache (Deutsch) macht die Nutzung eines einzigen Spracherkenners für alle vorgesehenen Sprachregionen (im Beispiel: Deutsch, Englisch, Italienisch) möglich.
Im Falle, dass der statistische Spracherkenner 12 für die Systemsprache Englisch ausgelegt ist:

- Vokabular: Deutschland und Österreich (Deutsch) konvertiert in englische Phonetik
- Vokabular: Großbritannien (Englisch)
- Vokabular: Italien (Italienisch) konvertiert in englische Phonetik.

Die Vokabulare enthalten somit jeweils sämtliche relevanten Trägersätze und Füllworte auf Englisch, in die die jeweiligen Ziele (ggf. zuvor konvertiert) eingebettet werden können.
Nach der Spracheingabe 16 können durch den statistischen Spracherkenner 12 nun die einzelnen Anteile der Spracheingabe 16 normalisiert und in sinntragende Anteile, optionale Anteile, Füllworte annotiert werden. Der Umfang der Aufteilung in einzelne Teilphrasen bis hin zu Einzelworten hängt dabei direkt von der Leistungsfähigkeit der Algorithmen des verwendeten Spracherkenners 12 und des zur Auflösung des Ziels benutzten Navigationssystems 18 ab. Die sinntragenden Anteile werden zum Ermitteln der Zielangabe verwendet.
Die Kombination der drei Elemente Trägersätze, Füllwortidentifikation und konvertierte Zielangaben zu einem gemeinsamen statistischen Sprachmodell zusammen mit der beschriebenen Nachbearbeitung ergibt hierbei den Vorteil, dass eine gesprochene Navigationszieleingabe ohne vorherige Auswahl oder Ankündigung der Zielsprachregion möglich ist. Die dazu nötige Annotierung und Normalisierung der Vokabulare stellen dabei Arbeitsschritte dar, die im Voraus schon bei der Erstellung der Daten durchgeführt werden können und damit nicht mehr beim eigentlichen Erkennungsvorgang im Kraftfahrzeug durchgeführt werden müssen. Dort können die erstellten Daten unmittelbar angewendet werden.
Die Rechenleistung aktueller embedded, also im Kraftfahrzeug fest integrierter, Navigationsgeräte ist derzeit nicht ausreichend, um bei einer Spracheingabe alle Länder/Regionen eines Kontinents parallel zu durchsuchen. Daher wird ein Mechanismus benötigt, um möglichst gut abzuschätzen, in welcher Sprachregion der Benutzer ein Ziel eingeben möchte, um dann eine Spracherkennung für genau diese Sprachregion durchzuführen. Mit anderen Worten muss eines der Vokabulare ausgewählt werden, auf dessen Grundlage anschließend eine Zielangabe ermittelt wird.
Dazu beginnt man die Suche zunächst in der Sprachregion, in der sich der Benutzer aktuell befindet. Neben den Vokabularen für die Sprachregionen ist in einer Ausführungsform ein Stichwortvokabular 20 in die erfindungsgemäße Vorrichtung integriert, welches Stichworte enthält, die häufig in den Adressen der verschiedenen Sprachregionen vorkommen.
Dieses Stichwortvokabular 20 setzt sich für die jeweilige Spracheregion z.B. zusammen aus:

- Namen aller in der Sprachregion enthaltenen Länder,
- Größte Städte aller in der Sprachregion enthaltenen Länder,
- Wichtigste Städte aller in der Sprachregion enthaltenen Länder (typische Urlaubsziele, entlang wichtiger Verkehrswege oder dergleichen),
- Typische Worte die (sprachspezifisch) in Straßennamen vorkommen, beispielsweise:
- Deutsch: Straße, Weg, Platz, Gasse,
- Englisch: Street, Lane, Way, Drive, Avenue,
- Italienisch: Via, Piazza, Corso,
- Spanisch: Calle, Carrer, Avenida, Camino.

Enthält nun das Ergebnis einer Spracherkennung Worte aus diesem speziellen Stichwortvokabular 20, kann man darüber Rückschlüsse ziehen, für welche Sprachregion der Benutzer ein Ziel eingeben möchte. Außerdem wird die Gefahr reduziert, dass die Spracherkennung Fehlerkennungen erzeugt, wenn ein Stichwortvokabular 20 zur Auswahl der Sprachregion verwendet wird.
In einem konkreten Fall soll angenommen werden, dass der Benutzer sich in Deutschland befindet und spricht: „Fahre mich nach Rom in die Via Appia zwanzig“ (Systemsprache: Deutsch, „Via Appia“: Sprachregion Italienisch). Die Spracherkennung basierend auf den Adressdaten der Sprachregion Deutschland/Österreich/Schweiz (= aktueller Standort) ergibt Folgendes:

„fahre mich nach“: Trägersatz, zeigt die Absicht an, ansonsten nicht relevant
„Rom“: Teil des italienischen Vokabulars (große Stadt), enthalten im Stichwortvokabular,
„in die“: Füllworte, nicht relevant
„Via“: Teil des italienischen Vokabulars (häufiges Wort in italienischen Straßennamen), enthalten im Stichwortvokabular,
„Appia“: kann in Deutsch nicht erkannt werden
„zwanzig“: Hausnummer (unabhängig von Land)

Daraus zieht der Spracherkenner 12 folgende Schlussfolgerungen:

1. Aus der Spracheingabe 16 konnte keine sinnvolle Adresse in der Sprachregion Deutschland/Österreich/Schweiz extrahiert werden.
2. Es wurden anhand des Stichwortvokabulars 20 zwei Worte erkannt, die darauf hindeuten, dass es sich um eine Adresse in der Sprachregion „Italienisch“ handelt.

Annahme: Der Benutzer möchte eine Adresse in der Sprachregion „Italienisch“ eingeben.
Daraufhin wird eine erneute Spracherkennung, vorzugsweise auf einer gepufferten, also zwischengespeicherten, Version der Spracheingabe 16, durchgeführt, diesmal allerdings auf Grundlage des Vokabulars 14 der Sprachregion „Italienisch“. Die Adresse wird nun korrekt und komplett erkannt.
Wenn der Benutzer ein Ziel im Ausland eingeben will, kann er auch explizit das Zielland nennen, z.B. „Fahre mich nach Rom in die Via Appia zwanzig in Italien“. Das Land wird dann mit sehr hoher Wahrscheinlichkeit erkannt und die Umschaltung auf das Vokabular 14 der italienischen Sprachregion erfolgt wie oben beschrieben. Dies funktioniert auch für kleine, wenig bekannte Städte, wenn der Ländername im Stichwortvokabular 20 enthalten ist.
Für die Fälle in denen der Benutzer ein Ziel außerhalb der aktuellen Sprachregion eingeben möchte und dieses Ziel kein Zielland und auch keine Worte aus dem Stichwortvokabular 20 enthält (zum Beispiel spricht der Benutzer nur den Namen einer kleinen Stadt) wird eine alternative Strategie benötigt, um die Zielregion abzuschätzen. Bei solch einer Äußerung wird die Spracherkennung in der aktuellen Sprachregion fehlschlagen und keinen direkten Hinweis auf die Zielregion geben. In diesem Fall werden folgende Kriterien in Betracht gezogen:

- Aktuelle Position:
- Befindet sich der Benutzer Nahe an der Grenze zu einer anderen Sprachregion, besteht eine hohe Wahrscheinlichkeit, dass das gesprochene Ziel in dieser Sprachregion zu finden ist.
- Historie der angefahrenen Ziele:
- Ist der Benutzer in der Vergangenheit häufig in eine bestimmte Sprachregion gefahren, besteht eine erhöhte Wahrscheinlichkeit, dass sich die Spracheingabe 16 auf diese Sprachregion bezieht.
- Wahrscheinliche Reiseziele aufgrund allgemeiner Statistiken.

Insgesamt zeigt das Beispiel, wie durch die Erfindung mittels einer Spracheingabe eine Auswahl eines Navigationsziels aus einer von mehreren Sprachregionen erfolgen kann.

Claims

Verfahren zum Eingeben eines Navigationsziels aus einer von mehreren Sprachregionen mittels einer in einer Systemsprache gesprochenen Spracheingabe (16) in ein Navigationssystem (18) eines Kraftfahrzeugs, gekennzeichnet durch die folgenden, durch eine Vorrichtung ausgeführten Schritte: a) Bereitstellen je eines Vokabulars (14) von Zielangaben für jede Sprachregion, wobei die Vokabulare aller Sprachregionen in eine Phonetik der Systemsprache konvertiert sind, b) Bereitstellen von Trägersätzen in der Systemsprache, c) Bereitstellen eines statistischen Spracherkenners (12) zum Erkennen der Spracheingabe (16) und eines auf den Trägersätzen und den Vokabularen der Zielangaben basierenden statistischen Sprachmodells der Systemsprache für den Spracherkenner (12), d) Ermitteln der Zielangabe aus der Spracheingabe (16) mittels des statistischen Spracherkenners (12), wobei der Schritt d) umfasst: d1) Auswählen eines der Vokabulare (14) zum Ermitteln der Zielangabe anhand eines vorbestimmten Auswahlkriteriums, d2) Ermitteln der Zielangabe aus der Spracheingabe (16) auf der Grundlage des ausgewählten Vokabulars (14), e) Suchen der Zielangabe in einer Datenbank eines Navigationssystems (18) und Einstellen von zu der Zielangabe gefundenen Zieldaten des Navigationsziels, dadurch gekennzeichnet, dass das Auswahlkriterium umfasst, dass - ein Stichwortvokabular (20) mit in die Phonetik der Systemsprache konvertierten Stichworten bereitgestellt wird, welche jeweils auf eine Sprachregion verweisen, wobei für jede Sprachregion mindestens ein Stichwort bereitgestellt ist, - die Spracheingabe (16) auf Stichworte aus dem Stichwortvokabular (20) mittels des statistischen Spracherkenners (12) überprüft wird, - anhand zumindest eines gefundenen Stichworts eines der Vokabulare (14) ausgewählt und die Zielangabe anhand des ausgewählten Vokabulars ermittelt wird.
Verfahren nach Anspruch 1, wobei der statistische Spracherkenner (12) dazu ausgelegt ist, aus der Spracheingabe (16) vorbestimmte sinntragende Elemente heraus zu filtern, aus welchen die Ermittlung der Zielangabe erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Auswahlkriterium umfasst, dass das Vokabular (14) der Sprachregion ausgewählt wird, in welcher sich das Kraftfahrzeug aktuell befindet.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Auswahlkriterium umfasst, dass das Vokabular (14) der Sprachregion ausgewählt wird, zu welcher sich der Benutzer gerade geographisch näher als ein bestimmter Grenzwert aufhält.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Auswahlkriterium umfasst, dass zur Auswahl eines der Vokabulare (14) eine Historie der angefahrenen Ziele des Benutzers evaluiert wird.
Vorrichtung (10) zur Eingabe eines Navigationsziels aus einer von mehreren Sprachregionen mittels einer in einer Systemsprache gesprochenen Spracheingabe (16), dadurch gekennzeichnet, dass a) die Vorrichtung (10) einen statistisches Spracherkenner (12) und ein Sprachmodell basierend auf Trägersätzen in der Systemsprache und je einem Vokabular (14) von Zielangaben für jede Sprachregion in einer Phonetik der Systemsprache aufweist, b) die Vorrichtung (10) dazu eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche durchzuführen.