-
Technisches Gebiet
-
Die vorliegende Offenbarung betrifft allgemein Navigationssysteme. Konkret wird eine Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems im Rahmen einer Routenführung angegeben.
-
Hintergrund
-
Navigationssysteme mit Sprachausgabe, insbesondere für Fahrzeuge, haben den Markt erobert. Kein modernes Navigationssystem ist ohne Sprachausgabe erhältlich. Die Vorteile der Sprachausgabe liegen auf der Hand: jede rein visuelle Anzeige, wenn sie nicht im Umfeld eines hochmodernen Head-Up-Displays (HUD) für Fahrzeuge erfolgt, kann den Fahrer vom Verkehrsgeschehen ablenken. Dies liegt daran, dass der Fahrer den direkten Blick auf das vor ihm Liegende leicht zur Seite oder nach unten (oder, vor allem bei portablen Navigationssystemen, nach oben) richten muss, um die ihm dargereichten Informationen rein visuell aufzunehmen. Es sei angemerkt, dass selbst HUD-basierte Systeme in der Regel eine Sprachausgabe aufweisen, um die Ablenkung des Fahrers so gering wie möglich zu halten. Schon geringere Ablenkungen, wie die Verwendung von Mobiltelefonen ohne Freisprechanlage, wurden vom deutschen Gesetzgeber verboten.
-
So vorteilhaft und wünschenswert die Sprachausgabe bei Navigationssystemen ist, so schwierig ist die technische Implementierung von Text-to-speech(TTS-)Mechanismen, insbesondere in Navigationssystemen mit oft systembedingt knappen Verarbeitungsressourcen. Beinahe jede lebende Sprache, gleich welchem Sprachstamm sie angehört, stellt ein hochkomplexes, nicht immer stringent logisches Regelwerk dar, das mittels Computerlogik stets nur angenähert werden kann.
-
Ein möglicher TTS-Ansatz gemäß dem Stand der Technik besteht in der Verwendung von Graphemen, d. h. den typischerweise kleinsten bedeutungsunterscheidenden graphischen Einheiten des Schriftsystems einer bestimmten Sprache. Ein geschriebenes Wort (z. B. in Gestalt eines Text-Strings), das durch mehrere Grapheme ausgedrückt ist, kann beispielsweise mit einem der folgenden Mechanismen in ein gesprochenes, akustisches Signal umgewandelt werden.
-
1 zeigt ein graphembasiertes Sprachausgabesystem 100, das eine Datenbank 1001, eine Sprachsynthesevorrichtung 1003 und eine akustische Ausgabeeinrichtung 1002 umfasst. Die Sprachsynthesevorrichtung 1003 umfasst die Funktionen Graphem-zu-Phonem-Umwandler (g2p) und akustische Signalerzeugung (wave-gen). Die Datenbank 1001 kann Grapheme in verschiedenen Sprachen speichern, dargestellt sind deutsch, polnisch und tschechisch.
-
Zunächst erfolgt im Schritt g2p eine Umwandlung in Phoneme (kleinste bedeutungsunterscheidende Einheit der hörbaren Sprache), anschließend in Schritt wave-gen die Sprachsynthetisierung. Im Schritt g2p können sowohl automatische Verfahren eingesetzt werden, die Aussprache, Betonung und Dauer bestimmen, als auch manuelle Verfahren, bei denen manuell erstellte Ausnahme-Lexika für Sätze, Wärter und Wort-Teile Verwendung finden. Im Schritt wave-gen wird aus einem Phonem ein akustisches Signal erzeugt.
-
Problematisch hierbei ist, dass es unterschiedliche Phonem-Formate gibt, zum Beispiel abhängig vom Hersteller der Sprachsynthese-Software. Manche Phonem-Formate sind sprachabhängig, also nur dann verwendbar, wenn der Konverter in Schritt wave-gen auf die zum Phonem passende Sprache eingestellt ist.
-
2 zeigt ein phonembasiertes Sprachausgabesystem 100, das die Datenbank 1001 und die bereits beschriebene Funktion wave-gen (hier als einziger Bestandteil der Sprachsynthesevorrichtung 1003) und die akustische Ausgabeeinrichtung 1002 umfasst. Wie in 2 gezeigt, enthält die Datenbank 1001 nicht nur die geschriebenen Orts- und Straßennamen (als Grapheme), sondern auch die entsprechenden Phoneme, beide in verschiedenen Sprachen, dargestellt sind deutsch, polnisch und tschechisch. Diese Phoneme haben in der Regel eine bessere Qualität als diejenigen, die ein automatischer Konverter (vgl. obiger Schritt g2p) erzeugen kann. Sowohl Grapheme als auch Phoneme werden regelmäßig im Nominativ gespeichert.
-
Für eine textuelle Darstellung auf dem Bildschirm eines Navigationssystems reicht der Nominativ meist aus. Für das Verwenden von Orts- und Straßennamen in einem gesprochenen Satz entstehen hier aber Probleme: ”Bitte nehmen Sie die zweite Ausfahrt des Hauptplatz” ist grammatikalisch falsch, da der Nominativ anstelle des Genitivs verwendet wurde.
-
Eine weit verbreitete Lösung besteht in einer Umgehung des Problems, nämlich darin, den Satz einfach umzustellen: ”Bitte nehmen Sie am Hauptplatz die zweite Ausfahrt” löst im Deutschen das Problem, da der hier nötige Dativ (zufällig) dem in der Datenbank gespeicherten Nominativ entspricht. Von Nachteil ist, dass einerseits nicht in jedem Falle die Umstellung zum gewünschten Ergebnis führt bzw. keine Lösung möglich ist und somit nicht alle Kasus grammatikalisch richtig ausgesprochen werden. In solchen Situationen wird die Annäherung an die richtige Aussprache bewertet und die niedrigere Qualität in Kauf genommen oder ein anderes Verfahren (wie z. B. die vorstehend beschriebenen Verfahren) gewählt.
-
3 zeigt ein mehrfachwandelndes Sprachausgabesystem 100. Die Datenbank 1001 und die akustische Ausgabeeinrichtung 1002 sind mit den entsprechenden Elementen aus 2 identisch. Die Sprachsynthesevorrichtung 1003 umfasst weitere Funktionen, die nachstehend beschrieben sind.
-
Die Mehrfachwandlung stellt eine alternative Lösung dar, in der ein Regelwerk auf Basis von Graphemen erstellt wird, z. B.: Genitiv-Regel: Aus ***platz wird ***plattes. Dieses Regelsystem eignet sich besonders für ost-europäische Sprachen, da es dort mehr Kasus gibt, die bei Routenführungs-Ansagen den Nominativ verbieten.
-
Die gewünschten Grapheme (z. B. Hauptplatz im Nominativ) werden im Schritt reg-expr. mittels eines Regelwerks in den passenden Fall (z. B. Genitiv) dekliniert. Dieses Regelwerk ist jedoch nur durch Experten mit entsprechenden Sprach- und Verfahrenskenntnissen erstellbar und daher teuer, z. B.:
\(.*/)'Plak\(.*/) --> \1Pla'Ku/2
\(.*/)Na'mezti\(.*/) --> \1Na'meztim/2
-
In den (bereits beschriebenen) Schritten g2p und wave-gen werden Phoneme erzeugt und anschließend das akustische Signal ausgegeben.
-
Von Nachteil ist, dass die optimierten Phoneme in der Datenbank nicht verwendet werden. Stattdessen werden die Grapheme umgeformt und der automatische Konverter (g2p) verwendet. Dieser erzeugt meist eine geringere Qualität in der Aussprache, da dieser nur Regeln und nur wenige Ausnahmefälle kennt. Auch benötigt der Schritt g2p Rechenzeit und macht das System unnötig träge.
-
Hierzu ein Beispiel:
Graphem = Hauptplatz -> (reg-expr) Hauptplatzes -> (g2p) 'Aoptplases -> wave-gen.
-
Korrekt wäre 'Aoptplazes. Es ergibt sich eine Abweichung an der markierten Stelle.
-
Oft gilt als akzeptabel, wenn eine Sprachsynthese manche Wörter inkorrekt oder nur teilweise korrekt ausspricht. Aber gerade bei Navigationssystemen ist die Gefahr groß, dass manche Straßen- und Ortsnamen, die auf der täglichen Fahrstrecke des Fahrers liegen, sehr oft ausgesprochen werden und die resultierende falsche Aussprache die Benutzererfahrung mindert.
-
In diesem Zusammenhang offenbart die Druckschrift
DE 100 42 942 A1 die Verwendung von phonetischen Transkriptionen, die erstens einen Prozess, aus einem Graphem ein Phonem zu erzeugen, und zweitens das erzeugte Phonem umfassen. Weiterhing lehrt diese Druckschrift die Verwendung von Füllpartikeln. Letztere werden verwendet, um Phoneme aus Graphemen zu erzeugen, indem Teile der Grapheme (Teilwörter) in einer graphembasierten Datenbank gespeichert werden und die zugehörigen Teil-Phoneme wieder zusammengesetzt werden. Als Füllpartikel wird hier z. B. ein Genitiv-'s am vorderen Teilwort angesehen: ”Rechtsstreit” wird beispielsweise zerlegt in das Teilwort ”Recht”, den Füllpartikel ”s” und das Teilwort ”streit”. Diese 3 Teile werden einzeln mittels einer Datenbank in Phoneme übersetzt und anschließend wieder zusammengefügt. Diese Druckschrift lehrt also, wie zusammengesetzte Wörter zerlegt, Teilstücke zu Phonemen transkribiert (umgewandelt) und diese wieder zusammengefügt werden.
-
Die Druckschrift
DE 689 13 669 T2 behandelt das Identifizieren von Sprachgruppen sowie das Umschreiben von Graphemen in Phoneme.
-
Kurzer Abriss
-
Die vorliegende Erfindung trachtet nach einer Lösung für zumindest eines der vorstehend beschriebenen sowie nach Lösungen weiterer Probleme. Insbesondere soll die Benutzererfahrung bei der Verwendung von Navigationssystemen mit sprachbasierter Routenführung gesteigert werden.
-
Gemäß einem ersten Aspekt wird ein Verfahren zur Ausgabe eines akustischen Signals mittels eines Navigationssystems bereitgestellt, wobei das Navigationssystem zumindest eine Datenbank und eine akustische Ausgabeeinrichtung umfasst. Das Verfahren umfasst die Schritte Speichern einer Vielzahl von Phonemen in einem ersten Zustand in der zumindest einen Datenbank, Auswählen zumindest eines der Vielzahl von Phonemen auf der Grundlage eines im Rahmen einer Routenführung empfangenen Steuersignals, Bestimmen eines gewünschten zweiten Zustands des zumindest einen ausgewählten Phonems auf der Grundlage des empfangenen Steuersignals, Ändern zumindest eines Teils des ausgewählten Phonems, um das ausgewählte Phonem in den spezifizierten zweiten Zustand zu überführen, auf der Grundlage eines Regelwerks, und Umwandeln des Phonems in dem zweiten Zustand in ein akustisches Signal zur Ausgabe mittels der akustischen Ausgabeeinrichtung.
-
Es können bereits vorliegende Phoneme verwendet werden und zum Beispiel der Kasus mittels Ersetzungsregeln dekliniert werden.
-
In einer Ausgestaltung kann der Schritt Andern ein Anhängen eines Anhangs an das ausgewählte Phonem umfassen. Dies kann die Änderung des ausgewählten Phonems vereinfachen.
-
Das empfangene Steuersignal kann aus einem Routenberechnungsmodul des Navigationssystems stammen. Ferner kann das Navigationssystem in einem Fahrzeug angeordnet sein. Das empfangene Steuersignal kann eine erste Kennung einer Bezeichnung eines durch das Navigationssystem ermittelten Orts und eine zweite Kennung eines auszugebenden Manöverhinweises umfassen. In letzterem Fall kann das akustische Signal eine auszugebende Bezeichnung eines durch das Navigationssystem ermittelten Orts umfassen. Wenn dem so ist, dann kann der ermittelte Ort zumindest eine der folgenden Angaben umfassen: Ländername, Stadt, Straße, Platz und Point-Of-Interest.
-
Der Speicherschritt kann weiterhin Speichern einer Vielzahl von vordefinierten Kontextinformationen, die den zweiten Zustand definieren, umfassen. Ferner kann der Auswahlschritt weiterhin Auswählen des zumindest einen Phonems auf der Grundlage der ersten Kennung und Auswählen zumindest einer vordefinierten Kontextinformation auf der Grundlage der zweiten Kennung umfassen. Der Bestimmungsschritt kann Bestimmen des gewünschten zweiten Zustands des Phonems auf der Grundlage der ausgewählten Kontextinformation umfassen. Schließlich kann das Verfahren noch Ausgeben des akustischen Signals mittels der akustischen Ausgabeeinrichtung umfassen, in dem die Bezeichnung als das Phonem in dem zweiten Zustand ausgegeben wird.
-
Diese zusätzlichen (optionale) Merkmale ermöglichen beispielsweise eine optimale Ausnutzung der bereits gespeicherten Phoneme bei gleichzeitiger optimaler Ausnutzung der Systemressourcen, da die Entscheidung über den zweiten Zustand allein aus den Kontextinformationen bestimmbar und das ausgewählte Phonem direkt in den zweiten Zustand überführbar ist. Mit anderen Worten wird z. B. der zu verwendende Kasus nicht bereits von dem Navigationssystem bestimmt, sondern geht aus dem zu sprechenden Satz hervor, der in der Datenbank hinterlegt ist.
-
In einer Ausgestaltung kann das Phonem ein grammatikalisches Nomen darstellen. Der erste Zustand des Phonems kann ein undeklinierter Kasus des Nomens sein, und der zweite Zustand des Phonems ein deklinierter Kasus des Nomens. In diesem Fall kann der Schritt Ändern zumindest den Teil des Phonems des undeklinierten Nomens ändern, um das deklinierte Nomen zu erzeugen. Im letzteren Fall kann der Schritt Ändern ein Anhängen eines Anhang zur Deklination an das undeklinierte Nomen umfassen, um das deklinierte Nomen zu erzeugen. Dies ermöglicht eine optimale Deklination z. B. eines Straßennamens unter Ausnutzung der bereits gespeicherten Phoneme.
-
In der genannten Ausgestaltung kann ferner der undeklinierte Kasus ein Nominativ sein, während der deklinierte Kasus zumindest einer aus Genitiv, Dativ, Akkusativ, Vokativ, Lokativ, Instrumental, Ablativ, Allativ und Präpositiv sein kann. Der zu ändernde Teil des Phonems kann durch einen regulären Ausdruck ersetzt werden. Im letzteren Fall kann der Anhang durch einen regulären Ausdruck bestimmt sein. Dies ermöglicht eine weiter verbesserte Deklination z. B. von Straßennamen unter Verwendung der regulären Ausdrücke (die zum Beispiel selbst als fertiges Phonem einer jeweiligen Fallendung, z. B. ein gesprochenes Genitiv-s, vorliegen).
-
Die Phoneme können jeweils in einer Vielzahl von Sprachen in der Sprachdatenbank vorliegen. Dabei kann das Verfahren weiterhin Auswählen einer der Vielzahl von Sprachen auf der Grundlage einer Benutzereingabe umfassen. Dies ermöglicht wiederum eine optimale Ausnutzung der bereits vorhandenen Phoneme unter Berücksichtigung der gewünschten Sprache.
-
Die Vielzahl von Sprachen können romanische und germanische Sprachen umfassen, und der deklinierte Kasus kann einer aus Genitiv, Dativ und Akkusativ sein. Dies ermöglicht die Verwendung z. B. deutscher, französischer oder englischer Sprache und eine Anpassung an den jeweiligen Kasus basierend auf den Phonemen.
-
Alternativ oder zusätzlich hierzu kann die Vielzahl von Sprachen slawische und baltische Sprachen umfassen. Der deklinierte Kasus kann hier einer aus Genitiv, Dativ, Vokativ und Lokativ sein. Ferner kann der deklinierte Kasus weiterhin einen Instrumental und Präpositiv umfassen, insoweit die slawische oder baltische Sprache diesen Kasus umfasst. Dies ermöglicht die Anpassung des Sprachausgabesystems z. B. an die polnische, tschechische oder slowakische Sprache unter Berücksichtigung der Tatsache, dass in diesen Sprachen z. T. der Akkusativ vom Nominativ verschieden ist (dies ist im Deutschen häufig nicht der Fall). Ferner ist auch der Kasus Lokativ (Ortsabhängigkeit des Nomens) abgedeckt, der im Deutschen nicht existiert und gerade bei einem Navigationssystem häufig vorkommen kann.
-
Alternativ oder zusätzlich hierzu kann die Vielzahl von Sprachen oghusische Sprachen umfassen. Hierbei kann der deklinierte Kasus einer aus Genitiv, Dativ, und Lokativ sein. Der deklinierte Kasus kann weiterhin einen aus Instrumental, Ablativ und Allativ umfassen, insoweit die oghusische Sprache diesen Kasus umfasst. Dies ermöglicht die Anpassung des Sprachausgabesystems z. B. an die türkische Sprache unter Berücksichtigung der Tatsache, dass in dieser Sprache z. T. der Akkusativ vom Nominativ verschieden ist. Ferner sind auch die Kasus Ablativ (woher?) und Allativ (wohin?) abgedeckt, die im Deutschen nicht existieren und gerade bei Navigationssystemen häufig vorkommen, wie z. B. in Angaben vom Typ ”Verlassen Sie die x-Straße und biegen Sie in die y-Gasse ein”.
-
In einer weiteren Ausgestaltung kann das Phonem ein grammatikalisches Nomen darstellen. Der erste Zustand des Phonems kann ein Singular des Nomens sein, und der zweite Zustand des Phonems kann zumindest einer aus Dual, Paral, Trial, Quadral, Paukal, Plural und Distributiv des Nomens sein. Alternativ oder zusätzlich kann das Phonem ein grammatikalisches Nomen darstellen. Der erste Zustand des Phonems kann ein Maskulinum des Nomens sein, und der zweite Zustand des Phonems zumindest einer aus Femininum und Neutrum des Nomens (oder umgekehrt). Dies erlaubt eine ggf. nötige Anpassung des Nomens auch an den Numerus und/oder Genus.
-
Die Erfindung sieht ebenfalls ein Computerprogrammprodukt mit Programmcodeabschnitten zum Durchführen des erfindungsgemäßen Verfahrens vor, wenn das Computerprogrammprodukt auf einer oder mehreren Computereinrichtungen (z. B. einem Navigationssystem) ausgeführt wird. Das Computerprogrammprodukt kann auf einem computerlesbaren Aufzeichnungsmedium aufgezeichnet sein.
-
In einem dritten Aspekt ist eine Vorrichtung zur Ausgabe eines akustischen Signals mittels eines Navigationssystems vorgesehen, wobei das Navigationssystem zumindest eine Datenbank und eine akustische Ausgabeeinrichtung umfasst, und wobei die Vorrichtung zumindest einen Prozessor umfasst, der die Vorrichtung anpasst zum Speichern einer Vielzahl von Phonemen in einem ersten Zustand in der zumindest einen Datenbank, Auswählen zumindest eines der Vielzahl von Phonemen auf der Grundlage eines im Rahmen einer Routenführung empfangenen Steuersignals, Bestimmen eines gewünschten zweiten Zustands des zumindest einen ausgewählten Phonems auf der Grundlage des empfangenen Steuersignals, Ändern zumindest eines Teils des ausgewählten Phonems, um das ausgewählte Phonem in den spezifizierten zweiten Zustand zu überführen, und zwar auf der Grundlage eines Regelwerks, und Umwandeln des Phonems in dem zweiten Zustand in ein akustisches Signal zur Ausgabe mittels der akustischen Ausgabeeinrichtung.
-
In einem vierten Aspekt wird ein Navigationssystem bereitgestellt, das eine Vorrichtung gemäß dem dritten Aspekt umfasst.
-
Es sei darauf hingewiesen, dass die Vorrichtung und/oder das System jedwedes der hier beschriebenen technischen Details implementieren kann, die für den Verfahrensaspekt beschrieben wurden. Mit anderen Worten kann die Vorrichtung und/oder kann das System weitere Komponenten umfassen, die eingerichtet sind, um irgendeinen der offenbarten Verfahrensschritte durchzuführen.
-
Kurze Beschreibung der Zeichnungen
-
Die beiliegenden Zeichnungen zeigen Ausführungsbeispiele, auf die die vorliegende Erfindung jedoch in keiner Weise einzuschränken ist. In den Zeichnungen bezeichnen gleiche Bezugszeichen dieselben oder ähnliche Funktionsblbcke bzw. -schritte. Es sei darauf hingewiesen, dass die Darstellung von einzelnen Funktionsblöcken oder -schritten nicht die Möglichkeit ausschließt, dass die jeweilige zu Grunde liegende Funktionalität auf mehreren Einrichtungen bzw. in mehreren Schritten zu implementieren ist. Es zeigen:
-
1 ein rein graphembasiertes Sprachausgabesystem;
-
2 ein rein phonembasiertes Sprachausgabesystem;
-
3 ein mehrfachwandelndes Sprachausgabesystem;
-
4 ein erstes Prinzipschema eines Sprachausgabesystems gemäß einem Ausführungsbeispiel;
-
5 ein zweites Prinzipschema eines Navigationssystems gemäß einem Ausführungsbeispiel;
-
6 die Komponenten, die in einem Ausführungsbeispiel von einer Vorrichtung umfasst sind; und
-
7 ein Verfahren (und demgemäß die Interaktion zwischen den Komponenten) gemäß einem Ausführungsbeispiel.
-
Detaillierte Beschreibung
-
In der nachstehenden Beschreibung werden, zum Zwecke der Erklärung nicht aber der Einschränkung, spezifische Details (wie einzelne Signalisierungsschritte) beschrieben, um ein grundlegendes Verständnis der hier vorgestellten Technik zu gewährleisten. Es ist für den Fachmann ersichtlich, dass die vorliegende Technik in anderen Ausführungsbeispielen verwirklicht werden kann, die von diesen spezifischen Details abweichen. Beispielsweise werden die Ausführungsbeispiele in erster Linie im Kontext einer Sprachsynthesevorrichtung und eines Navigationssystems beschrieben; dies schließt jedoch nicht aus, dass weniger oder mehr Vorrichtungen verwendet werden, um die vorliegende Offenbarung zu implementieren.
-
Des Weiteren erschließt sich dem Fachmann, dass die nachstehend erklärten Dienste, Funktionen und Schritte unter Verwendung von Software, die in Kombination mit einem Mikroprozessor vorgesehen ist, oder unter Verwendung einer anwendungsspezifischen integrierten Schaltung (ASIC, Application Specific Integrated Circuit), eines digitalen Signalprozessors (DSP) oder eines Allzweckcomputers implementiert werden kann. Es sei ebenso darauf hingewiesen, dass obwohl die nachstehenden Ausführungsbeispiele im Kontext von Verfahren und Vorrichtungen beschrieben werden, die hier vorgestellte Technik ebenso in einem Computerprogrammprodukt sowie in einem System verwirklicht werden kann, das einen Computerprozessor und einen an den Prozessor gekoppelten Speicher umfasst, wobei der Speicher eines oder mehrere Programmen enthält, das oder die hier offenbarten Dienste, Funktionen und Schritte ausführt oder ausführen.
-
4 zeigt ein erstes Prinzipschema eines Systems 200 gemäß einem Ausführungsbeispiel zur Implementierung insbesondere eines Navigationssystems. Wie in 4 gezeigt ist, umfasst das System 200 eine Datenbank 2001, die sowohl Grapheme als auch Phoneme in einem ersten Zustand (z. B. Nominativ) speichern kann, eine akustische Ausgabeeinrichtung 2002 und eine Sprachsynthesevorrichtung 2003. Die Sprachsynthesevorrichtung 2003 kann die Funktion reg-exp zum Anhängen bzw. Ändern eines Teils eines ausgewählten Phonems z. B. durch einen regulären Ausdruck umfassen, so dass das Phonem in einen zweiten Zustand (z. B. dekliniert in den Genitiv) vorliegt, und die bereits beschriebene Funktion wave-gen zur Umwandlung des Phonems im zweiten Zustand in ein akustisches Signal. Das so erzeugte akustische Signal kann wiederum mittels der akustischen Ausgabeeinrichtung 2002 ausgegeben werden.
-
Die Phoneme können in einem Format wie Nuance-LH+, StarRec®, internationalephoneme o. ä. implementiert sein. Die vorliegende Offenbarung ist jedoch nicht darauf eingeschränkt.
-
Als Anwendungsbeispiel kann, wie in 4 gezeigt ist, ein Regelwerk definiert werden, wobei das Regelwerk dazu eingerichtet ist, um den Kasus z. B. von Straßen- und Ortsnamen für das Navigationssystem, die z. B. im Nominativ gespeichert sind, direkt auf Phoneme anzuwenden. Im Schritt reg-exp werden mittels dieses Regelwerks, wie z. B. Regular Expressions, Phoneme analysiert und in den passenden Fall umgeformt. Zwei hierfür geeignete Regeln lauten z. B.:
\(.*/)'Plak\(.*/) --> \1Pla'Ku/2
z. B.: 'Plak Pilzutz'kiego --> Pla'ku Pilzutz'kiego (polnisch)
\(.*/)Na'mezti\(.*/) --> \1Na'meztim/2
z. B.: Na'meZti Mirr'u --> Na'meztim Mirr'u (tschechisch)
-
Ein regulärer Ausdruck (oder Regular Expression) kann als Such-Muster innerhalb eines Text-Strings verstanden werden. Manchmal wird auch die Kombination aus Such-Muster und Ersetzungs-Muster als regulärer Ausdruck bezeichnet. Ein regulärer Ausdruck kann beispielsweise einen Phonem-Anhang beschreiben.
-
Eingabe-Parameter eines Regel-Werkes, das auf regulären Ausdrücken basiert, können sein:
- – Phonem im Nominativ
- – Sprache des Phonems
- – benötigter Fall
-
Ausgabe-Parameter kann sein:
- – Phonem im gewünschten Fall
-
Implementierung kann sein:
- – Ein Regelwerk, z. B. als „Regular Expressions” (d. h. reguläre Ausdrücke) formuliert, wird hier für Phoneme eingesetzt.
-
5 zeigt ein zweites Prinzipschema eines Systems 200 für Navigationszwecke, welches auf dem System gemäß 4 basiert. Wie in 5 gezeigt ist, umfasst das Navigationssystem 200 die Datenbank 2001, die sowohl Grapheme als auch Phoneme in einem ersten Zustand (z. B. Nominativ) als auch optional Kontextinformationen (z. B. einen vorgefertigten Satz als Graphem, in das nur noch das Phonem im passenden Kasus eingepasst werden muss) speichern kann, die akustische Ausgabeeinrichtung 2002 und die Sprachsynthesevorrichtung 2003 sowie eine Navigationseinrichtung 2004 mit einem Routenführungsmodul. Die Sprachsynthesevorrichtung 2003 kann die vorstehend beschriebenen Funktionen g2p, reg-exp und wave-gen umfassen. Das so erzeugte akustische Signal kann wiederum mittels der akustischen Ausgabeeinrichtung 2002 ausgegeben werden. Ferner kann das System 200 noch Signale 2005, 2006 und 2007 generieren und/oder verarbeiten, die nachstehend ausführlicher beschrieben werden.
-
6 zeigt die Komponenten, die in einem Ausführungsbeispiel von der Vorrichtung (Sprachsynthesevorrichtung) 2003 umfasst sind. Die (Sprachsynthese-)Vorrichtung 2003 umfasst eine Kernfunktionalität 20031, die z. B. als zumindest eine CPU (zentrale Verarbeitungseinheit, „Central Processing Unit”) oder Mikroprozessor, als dedizierte Schaltung (mit den vorstehend beschriebenen Implementierungsvarianten) oder als Softwaremodul implementiert sein kann. Ferner umfasst die Vorrichtung 2003 einen Speicher 20032, einen Sender 20033 und einen Empfänger 20034, die zur Kommunikation der Vorrichtung 2003 mit einer anderen Vorrichtung (z. B. der Datenbank 2001, dem Navigationssystem 2004 oder akustischen Ausgabeeinrichtung 2002) oder mit dem Benutzer dienen können, Des Weiteren umfasst die Vorrichtung 2003 eine Auswahleinrichtung 20035, eine Bestimmungseinrichtung 20036, eine Änderungseinrichtung 20037 (die optional wiederum eine Anhängeinrichtung 20038 umfassen kann) und eine Umwandlungseinrichtung 20039. Ebenso umfasst die Datenbank 2001 eine Kernfunktionalität 20011, einen Speicher 20012, einen Sender 20013 und einen Empfänger 20014, umfasst die akustische Sprachausgabeeinrichtung 2002 eine Kernfunktionalität 20021, einen Speicher 20022, einen Sender 20023 und einen Empfänger 20024, und umfasst die Navigationseinrichtung 2004 eine Kernfunktionalität 20041, einen Speicher 20042, einen Sender 20043 und einen Empfänger 20044.
-
Die Kernfunktionalität 20041 der Navigationseinrichtung 2004 kann ein Softwarebasiertes Routenberechnungsmodul umfassen. Dieses Routenberechnungsmodul kann dazu ausgelegt sein, verschiedene Steuersignale 2005, 2006, 2007 zu erzeugen, zu senden (über den Sender 20043), zu empfangen (über den Empfänger 20044) und zu verarbeiten. So kann das Steuersignal 2005 ”Prepare Prompt” eine oder mehrere Kennungen hinsichtlich der aus der Datenbank 2001 auszuwählenden Phoneme an die Sprachsynthesevorrichtung 2003 kommunizieren. Die darauf basierende Auswahl und ggf. Sprachsynthese kann mittels des Steuersignals 2006 ”Preparation Finished” gegenüber der Navigationseinrichtung 2004 bestätigt werden, worauf diese mittels des Steuersignals 2007 ”Prompt Now” die Sprachesynthesevorrichtung 2003 zur Ausgabe des synthetisierten akustischen Signals mittels der akustischem Ausgabeeinrichtung 2002 auffordert.
-
Wie in 6 durch die gestrichelte Erweiterung der Kernfunktionalitäten 200x1 (wobei x = 1, 2, 3 und/oder 4) angedeutet ist, können alle der vorstehend genannten Einrichtungen, die innerhalb der gestrichelten Linien dargestellt sind, sowohl als eigenständige Einrichtungen als auch als Unterfunktionalitäten der Kernfunktionalität implementiert sein. Alle der vorstehend genannten Einrichtungen, die den gestrichelten Bereich überlappen, können durch die Kernfunktionalität 200x1 angesteuert werden bzw. können der Kernfunktionalität 200x1 Informationen bereitstellen.
-
Die Kernfunktionalitäten 200x1 können zum Beispiel durch in den Speichern 200x2 residente Software konfiguriert sein, um verschiedene Dateneingaben zu verarbeiten und um die Funktionen des Speichers 200x2, des Senders 200x3 und des Empfängers 200x4 (sowie der Auswahleinrichtung 20035, der Bestimmungseinrichtung 20036, der Änderungseinrichtung 20037, der Anhängeeinrichtung 20038 und der Umwandlungseinrichtung 20039 der Sprachsynthesevorrichtung 2003) zu steuern.
-
Der Speicher 200x2 kann zum Speichern von Codeabschnitten zum Ausführen der Verfahren gemäß den vorstehend beschriebenen Aspekten dienen, wenn sie auf der Kernfunktionalität 200x2 laufen.
-
Es sei darauf hingewiesen, dass der Sender 200x3 und der Empfänger 200x4 alternativ als ein einstöckiger Sendeempfänger vorgesehen sein können, wie in 6 gezeigt ist. Es sei ferner darauf hingewiesen, dass die Sender/Empfänger implementiert werden können als: physikalische Sender/Empfänger zum Sendeempfangen über eine Luftschnittstelle (z. B. zwischen dem Navigationssystem 2004 und einem nicht gezeigten Verkehrsleitsystem), als verkehrslenkende Funktionseinheiten/Schnittstellen zwischen Netzwerkelementen (z. B. zum Senden/Empfangen von Datenpaketen zwischen der Sprachsynthesevorrichtung 2003 und dem Navigationssystem 2004 und der Datenbank 2001), als Funktionalität zum Schreiben/Lesen von Informationen in/aus einen/einem gegebenen Speicherbereich (z. B. zwischen der Sprachsynthesevorrichtung 2003 und der Datenbank 2001 oder der Navigationsvorrichtung 2004, wenn diese in einer Netzwerkeinheit zusammengefasst sind) oder als irgendeine geeignete Kombination der vorstehend beschriebenen Anordnungen. Zumindest eine der Auswahleinrichtung 20035, Bestimmungseinrichtung 20036, Änderungseinrichtung 20037, Anhängeeinrichtung 20038 und Umwandlungseinrichtung 20039 (der Sprachsynthesevorrichtung 2003) oder die jeweiligen ausgeführten Funktionalitäten können ebenso als Chipset, Modul oder Untereinheit implementiert werden.
-
7 zeigt ein Ausführungsbeispiel eines Verfahrens zum Ausgeben eines akustischen Signals mittels eines Navigationssystems (z. B. gemäß 5). In dem in 7 gezeigten Signalflussplan ist der Signalfluss zwischen Elementen in horizontaler Richtung angegeben, wohingegen zeitliche Aspekte zwischen den Signalisierungen in der vertikalen Anordnung der Signalflussabfolge sowie in den Abfolgenummern wiedergegeben sind. Es sei darauf hingewiesen, dass die in 7 gezeigten zeitlichen Aspekte keinen der gezeigten Verfahrensschritte auf die In 7 gezeigte Schrittabfolge festlegen: Dies betrifft insbesondere Verfahrensschritte, die voneinander funktional disjunkt sind. Beispielsweise ist der Schritt S1 (Speichern von Phonemen) im Wesentlichen zeitgleich mit dem Schritt S2 (Auswählen zumindest eines Phonems) gezeigt. Dies schließt jedoch nicht aus, dass das Speichern der Phoneme in Schritt S1 bereits lange vor Inbetriebnahme der erfindungsgemäßen Vorrichtung erfolgt ist.
-
Unter Bezugnahme auf den Signalflussplan gemäß 7 (der zusammen mit der Sprachsynthesevorrichtung 2003, der Datenbank 2001 und der Navigationseinrichtung 2004 in 5 und 6 zu lesen ist), speichert in Schritt S1 der Speicher 20012 der Datenbank 2001 eine Vielzahl von Phonemen in einem ersten Zustand in der zumindest einen Datenbank, um sie an die zumindest eine Datenbank zu binden. Optional kann in dem Speicher 20012 der Datenbank 2001 ferner eine Vielzahl von vordefinierten Kontextinformationen gespeichert werden, die den zweiten Zustand definieren. Wie in 5 gezeigt, können diese Kontextinformationen z. B. ein vordefinierter Satz (z. B. als Graphem abgespeichert) sein, wobei sich der zweite Zustand (z. B. der gewünschte Kasus) durch Einbetten des Phonems in das Satzgefüge ergibt.
-
In Schritt S2 führt die Auswahleinrichtung 20035 ein Auswählen zumindest eines der Vielzahl von Phonemen auf der Grundlage eines im Rahmen einer Routenführung empfangenen Steuersignals durch. Das Steuersignal kann aus einem (nicht gezeigten) Routenberechnungsmodul der Navigationseinrichtung 2004 stammen. Wie durch das Signal 2005 in 5 gezeigt ist, kann außerdem das empfangene Steuersignal eine erste Kennung (ID_Hauptplatz) einer Bezeichnung eines durch die Navigationseinrichtung 2004 ermittelten Orts und eine zweite Kennung (ID_In_200m_rechts) eines auszugebenden Routenführungs- oder Manöverhinweises umfassen. Die erste Kennung kann zur Auswahl des Phonems (hier: 'Aoptplaz) herangezogen werden (im einfachsten Fall kann eine einfache Indexierung herangezogen werden). Die zweite Kennung kann zum Aufruf einer entsprechenden Kontextinformation herangezogen werden, so dass sich – wie oben beschrieben – der gewünschte zweite Zustand (z. B. der gewünschte Kasus) durch Einbetten des Phonems in das Satzgefüge ergibt. Dies ist vorteilhaft, da die Navigationseinrichtung 2004 lediglich eine einfache Nachricht mit zwei Kennungen an die Sprachsynthesevorrichtung 2003 senden muss, was zu einer verschlankten Signalisierung beiträgt (was beispielsweise vorteilhaft ist, wenn die Navigationseinrichtung 2004 nicht mit der Datenbank 2001 bzw. Vorrichtung 2003 ko-lokalisiert ist, sondern z. B. ein knapp bemessener (und ggf. geteilter) Bus zur Datenübertragung zwischen den vorstehenden Vorrichtungen vorgesehen ist).
-
In Schritt S3 bestimmt die Bestimmungseinrichtung 20036 der Sprachsynthesevorrichtung 2003 einen gewünschten zweiten Zustand des zumindest einen ausgewählten Phonems auf der Grundlage des empfangenen Steuersignals. Wie bereits beschrieben, kann der gewünschte zweite Zustand des Phonems auf der Grundlage der ausgewählten Kontextinformation bestimmt werden, insbesondere kann die zweite Kennung zum Aufruf einer entsprechenden Kontextinformation herangezogen werden, so dass der gewünschte zweite Zustand (z. B. der gewünschte Kasus) durch Einbetten des Phonems in das Satzgefüge bestimmt werden kann. In diesem Zusammenhang kann das Phonem ein grammatikalisches Nomen darstellen. Ferner kann der erste Zustand des Phonems ein undeklinierter Kasus (z. B. Nominativ) des Nomens und der zweite Zustand des Phonems ein deklinierter Kasus (z. B. Genitiv, Dativ, Akkusativ, Vokativ, Lokativ, Instrumental, Ablativ, Allativ und/oder Präpositiv) des Nomens sein.
-
In Schritt S4 ändert die Änderungseinrichtung 20037 der Sprachsynthesevorrichtung 2003 zumindest einen Teil des ausgewählten Phonems, um das ausgewählte Phonem in den spezifizierten zweiten Zustand zu überführen, und zwar auf der Grundlage eines Regelwerks. In diesem Fall kann die Anhängeinrichtung 20038 der Vorrichtung 2003 einen Anhang an das ausgewählte Phonem anhängen. Insbesondere dieser Anhang (aber auch der zu ändernde Teil) kann durch einen regulären Ausdruck (z. B. eine immer gleiche Kasusendung, die als Phonem hinterlegt ist, wie das bereits beschriebene Genitiv-s oder das Phonem der Erfindung ”es” bei Phonemen wie 'Aoptplaz) gebildet sein. Die Änderung kann zumindest einen Teil des Phonems des undeklinierten Nomens ändern, um das deklinierte Nomen zu erzeugen, oder kann einen Anhang zur Deklination an das undeklinierte Nomen anhängen, um das deklinierte Nomen zu erzeugen, wie soeben beschrieben.
-
Das vorstehend beschriebene Regelwerk kann beispielsweise wie folgt aufgebaut sein:
Regel | Ziel-Fall | Filter/Muster | Ersetzung |
#1 | Genitiv | \(.*\)plaz | \1 plazes |
#2 | Genitiv | \(.*\)doaf | \1 doafes |
#3 | Mehrzahl | \(.\)stäle | \1 stäln |
-
In Schritt S5 wandelt die Umwandlungseinrichtung 20039 das Phonem in dem zweiten Zustand in ein akustisches Signal um zur Ausgabe aus der akustischen Ausgabeeinrichtung 2002. Das akustische Signal kann eine auszugebende Bezeichnung eines durch die Navigationseinrichtung 2004 ermittelten Orts umfassen. In diesem Fall kann der ermittelte Ort zumindest eine der folgenden Angaben umfassen: Ländername, Stadt, Straße, Platz und Point-Of-Interest.
-
In einem optionalen Schritt S6 gibt die Sprachsynthesevorrichtung 2003 das akustische Signal über den Sender 20033 an die akustische Ausgabeeinrichtung 2002 aus, weiche die Bezeichnung als das Phonem in dem zweiten Zustand akustisch wiedergibt. Im einfachsten Fall ist die Sprachausgabeeinrichtung ein Lautsprecher, der das akustische Signal (als Ausgabe der Funktion wave gen) wiedergibt. Die akustische Ausgabeeinrichtung 2003 kann aber auch komplexer aufgebaut sein, z. B. kann die Sprachsynthese sich mit der Erzeugung der Phoneme begnügen, wobei dann die Funktion wave gen auf die akustische Ausgabeeinrichtung 2002 ausgelagert werden kann.
-
Eine weitere Ausgestaltung ist in 5 durch Signale 2006 ”Preparation Finished” und 2007 ”Prompt Now” gezeigt. Das Vorbereiten einer Sprachausgabe kann vorbestimmte Zeit (je nach System z. B. 1 bis 5 Sekunden) dauern. Somit kann die Navigationseinrichtung 2004 das Steuersignal 2005 um die vorbestimmte Zeit früher (vorzugsweise plus eine zeitliche Sicherheitszugabe) zu der Vorrichtung 2003 senden, um das auszugebende Phonem bereits vorzubereiten. Nach Empfang des Steuersignals 2005 würden dann die Schritte S2 (Auswählen) bis S4 (Ändern) (oder bis S5, Umwandeln, je nach Ausstattung der akustischen Ausgabeeinrichtung 2002) bereits stattfinden und eine erfolgreiche Fertigstellung des Phonems durch Signal 2006 könnte an das Navigationssystem 2004 zurückgemeldet werden. Wird die akustische Ausgabe tatsächlich benötigt, dann gibt die Navigationseinrichtung 2004 das Signal 2007 aus, woraufhin dann Schritte S5 und S6, Ausgeben, (oder lediglich S6) durchgeführt werden können. Dieses Vorgehen ist vorteilhaft, um die vorgestellte Technik z. B. an Echtzeitbedingungen anzupassen.
-
Wie bereits erwähnt, können die Phoneme in einer Vielzahl von Sprachen vorliegen und können demgemäß auf der Grundlage einer Benutzereingabe ausgewählt werden. Im Falle von romanischen und germanischen Sprachen kann der deklinierte Kasus einer aus Genitiv, Dativ und Akkusativ sein. Im Falle von slawischen und baltischen Sprachen kann der deklinierte Kasus einer aus Genitiv, Dativ, Vokativ, und Lokativ (Instrumental und Präpositiv, falls existent) sein. Im Falle von oghusischen Sprachen kann der deklinierte Kasus einer aus Genitiv, Dativ, und Lokativ (Instrumental, Ablativ und Allativ, falls existent) sein.
-
Schließlich kann der erste Zustand des Phonems noch ein Singular des Nomens sein, während der zweite Zustand des Phonems zumindest einer aus Dual, Paral, Trial, Quadral, Paukal, Plural und Distributiv des Namens sein kann. Ferner kann der erste Zustand des Phonems ein Maskulinum des Nomens sein, kann der zweite Zustand des Phonems zumindest einer aus Femininum und Neutrum des Nomens sein.
-
Wie aus den vorstehend beschriebenen Ausführungsbeispielen offensichtlich wurde, führt die vorgestellte Technik zu einem oder mehreren Vorteilen.
-
Im Falle von in Kraftfahrzeugen fest installierten Navigationssystemen können die Zulieferer für ein (Navigations-)Projekt vorab ausgewählt werden und müssen nicht geändert werden, so dass auch die Software-Version nach der Auslieferung selten geändert wird (da eine Nachrüstung mit Software derzeit nur in einer Werkstatt durchgeführt werden kann). Somit stellt auch die Implementierung auf der Grundlage von Phonemen kein Problem dar.
-
Die Phonem-Formate sind oft sprachabhängig. Daher kann die Sprache vor dem Anwenden des Algorithmus gewählt werden. Im Falle einer Festinstallation wird die Spracheinstellung auf Systemebene für alle betroffenen Fahrzeugkomponenten durchgeführt. Somit gilt zu einer Zeit nur eine Sprache, und das hier vorgestellte System kann die entsprechenden Einstellungen vornehmen. In manchen Fällen ist das System zweisprachig: Namen von Orten, Straßen, etc. werden in der Landessprache wiedergegeben, während alle anderen Sätze und Satzteile in der Systemsprache ausgesprochen werden. Bei herkömmlichen (Navigations-)Projekten in der Automobil-Branche werden auch länderspezifische Varianten hergestellt, so dass für verschiedene Märkte die jeweils benötigten sprachabhängigen regulären Ausdrücke im Zuge des Projektes erstellt werden können und nur der jeweils benötigte Teil bei Auslieferung beigestellt werden muss.
-
Oft sind vor Fertigstellung des Navigationssystems nicht alle Sprachen (mitsamt ihren Eigenheiten) bekannt, und so fallen Qualitätsverluste erst im Test auf. Diese späte Erkennung führt meist zu Terminüberschreitungen oder großer Kompromissbereitschaft um Termine zu halten. Die vorgeschlagene Technik hilft somit bei der Projektabwicklung, da sie von vorne herein die o. g. Fehler vermeidet.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 10042942 A1 [0019]
- DE 68913669 T2 [0020]