DE102012202391A1

DE102012202391A1 - Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen

Info

Publication number: DE102012202391A1
Application number: DE102012202391A
Authority: DE
Inventors: Jens Walther
Original assignee: Continental Automotive GmbH
Current assignee: Continental Automotive GmbH
Priority date: 2012-02-16
Filing date: 2012-02-16
Publication date: 2013-08-22
Also published as: EP2815395A1; WO2013120794A1; CN104115222B; US9436675B2; US20150302001A1; CN104115222A

Abstract

Es werden Verfahren zur Phonetisierung von textenthaltenden Datensätzen (2) und eine zur Durchführung des Verfahrens eingerichtete Einrichtung beschrieben, bei denen die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als phonetisierte Datensätze (8) gespeichert werden, wobei die Grapheme in einer Präprozessierung für die Phonetisierung aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden. Es ist vorgesehen, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten (5, 6) oder unterschiedlichen Teilen von Recheneinheiten (5, 6) durchgeführt wird.

Description

Die Erfindung betrifft ein Verfahren und eine Einrichtung zur Phonetisierung von textenthaltenden Datensätzen, insbesondere unterschiedlicher Inhalte, wie z. B. Musiktitel, Musikinterpreten, Musikalben oder Telefonbucheinträge, Kontaktnamen oder dergleichen, die in sprachgesteuerten Benutzerschnittstellen zur Steuerung bestimmter Abläufe benutzt werden, in denen der Benutzer diese Inhalte enthaltende Sprachbefehle an die Benutzerschnittstelle weitergibt. Ohne dass die Erfindung auf diesen bevorzugten Anwendungsfall beschränkt ist, liegt ein bevorzugtes Anwendungsgebiet der Erfindung im Bereich von Kraftfahrzeugsteuergeräten, insbesondere Multimedia-Steuereinheiten in Kraftfahrzeugen, die der Information, Unterhaltung und/oder Kommunikation in Kraftfahrzeugen dienen. Derartige Steuereinheiten können insbesondere Musikwiedergabe- und Telefonfunktionen enthalten.
Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buchstabenfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als phonetisierte Datensätze, beispielsweise in einer phonetisierten Datenliste, gespeichert. Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeutungsunterscheidende Einheit bildet, eine distinktive Funktion aufweist. Der Begriff "Phoneme" wird in dem vorliegenden Text, insbesondere als Folge mehrerer einzelner Phonem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunterscheidende Einheit dar, und ist häufig durch die Buchstaben einer Schrift definiert.
Bei dem vorgeschlagenen Verfahren werden die Grapheme in einer Präprozessierung für die eigentliche Phonetisierung aufbereitet, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden, bevor die Konvertierung in Phoneme durchgeführt wird. Die phonetisierte Datenliste, beispielsweise in Form der phonetisierten Datensätze, kann dann in an sich bekannter Weise beispielsweise bei der Spracherkennung einer sprachgesteuerten Benutzerschnittstelle genutzt werden.
Die Präprozessierung hat den Hintergrund, dass die Grapheme (und auch die Phoneme) sprachbezogen sind, von der jeweils verwendeten Sprache abhängen. Häufig finden sich gerade in Datensätzen jedoch Einträge unterschiedlicher Sprachen, die zur Phonetisierung gekennzeichnet und angepasst werden müssen. Entsprechend kann die Präprozessierung durch Erkennung fremdsprachiger Texte, aber auch durch Ersetzen von Abkürzungen, Weglassen von Präfixen (wie "Herr", "Frau", "Dr.", dem englischen Artikel "the" oder dergleichen), Expandieren von Akronymen und/oder Anbieten von Aussprachevarianten realisiert sein, die durch den Benutzer auswählbar sind.
Durch eine solche Präprozessierung können die meist sprachbezogenen Einschränkungen der Graphem-zu-Phonem-Konvertierung, bei der nur eine bestimmte vorgegebene Anzahl an Ziffern und zu buchstabierenden Zeichenfolgen unterstützt wird, zumindest teilweise aufgehoben werden, indem die von dem bei der Phonetisierung verwendeten, sprachabhängigen akustischen Modellen nicht unterstützten Zeichen der Grapheme ersetzt werden.
In bestehenden Systemen besteht bei der Präprozessierung jedoch das Problem, dass diese Verfahren den eigentlichen Graphem-zu-Phonem-Konvertierungen vorgeschaltet sind, die Zeit, die für die Präprozessierung benötigt wird, sich zur Gesamtlatenz für die Graphem-zu-Phonem-Konvertierung addiert.
Da die Präprozessierung je nach betriebenem Aufwand auch sehr rechenintensiv sein kann, ist entweder mit langen Latenzzeiten zu rechnen oder die Leistungsfähigkeit der Präprozessierung einzuschränken, beispielsweise indem bei der Phonetisierung nicht unterstützte Zeichen der Graphem-Darstellung ignoriert werden. Aufgrund der Ressourcenknappheit bei der Präprozessierung sind die bekannten Implementierungen einer Präprozessierung auch nur bedingt an konkrete Anwendungsanforderungen anpassbar und insbesondere fest programmiert, insbesondere im Hinblick auf die Zahl der Varianten und der zur Verfügung stehenden Ersetzungen bzw. Modifikationen.
Aufgabe der vorliegenden Erfindung ist es daher, eine Phonetisierung vorzuschlagen, bei der der Zeitbedarf für die Präprozessierung und die anschließende Konvertierung der Grapheme in Phoneme reduziert wird.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruchs 1, eine Einrichtung mit den Merkmalen des Anspruchs 7 und ein Computerprogrammprodukt mit den Merkmalen des Anspruchs 8 gelöst.
Bei dem vorgeschlagenen Verfahren ist insbesondere vorgesehen, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten oder Teilen von Recheneinheiten, insbesondere unterschiedlichen Prozessoren oder Prozessorteilen, durchgeführt werden. Die unterschiedlichen Recheneinheiten können in verschiedenen Recheneinrichtungen oder in einer Recheneinrichtung als Dual- oder Multi-Recheneinheit, insbesondere Dual- oder Multi-Prozessor, verwirklicht sein.
Das parallele Durchführen der Präprozessierung der Grapheme und der Konvertierung der Grapheme in Phoneme kann insbesondere derart erfolgen, dass zur Phonetisierung vorgesehenen Grapheme in einem ersten Schritt in einer ersten Recheneinheit präprozessiert, an eine zweiten Recheneinheit übertragen und in der zweiten Recheneinheit phonetisiert, in Phoneme konvertiert, werden. Während der Phonetisierung der Grapheme in der zweiten Recheneinheit können dann nachfolgend zur Phonetisierung vorgesehene Grapheme in der ersten Recheneinheit prozessiert werden.
Wie bereits erwähnt, liegen die Datensätze meist als Grapheme, also als Folgen einzelner Graphem-Symbole (insbesondere Buchstaben), vor, so dass nach Kapazität der jeweiligen Recheneinheiten in jeder Recheneinheit jeweils eine Teilfolge verarbeitet werden kann, beispielsweise im Stile eines FIFO-Pufferspeichers (first-in-first-out). Gegebenenfalls kann erfindungsgemäß zwischen der ersten und der zweiten Recheneinheit ein Zwischenspeicher vorgesehen sein, um die Rechenprozesse beider Recheneinheiten zeitlich aufeinander abzustimmen und Schwankungen in der Rechenleistung der beiden Recheneinheiten durch Zwischenspeichern der präprozessierten Grapheme kurzfristig ausgleichen zu können.
Eine besonders vorteilhafte Verwendung des erfindungsgemäß vorgeschlagenen Verfahrens ergibt sich bei einer dynamischen Spracherkennung, bei der die Grapheme erst während der Anwendung aus sich ständig ändernden textenthaltenden Datensätzen erzeugt werden, im Gegensatz zu einer Verwendung mit einer statischen Datenbank, bei der die Phonetisierung der Grapheme einmal erfolgt und die Sprachsteuerung dann auf die fest gespeicherten Phoneme zugreift.
Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, vorliegenden Datensätze in Graphem-Teilpakte, die auch als Pakete von Graphem-Teilfolgen bezeichnet werden können, zerlegt werden, wobei jeweils ein Graphem-Teilpaket in einer ersten Recheneinheit präprozessiert und anschließend in einer anderen zweiten Recheneinheit phonetisiert, in Phoneme konvertiert, wird und wobei beide Recheneinheiten dazu eingerichtet sind, unterschiedliche Graphem-Teilpakete parallel, insbesondere zeitgleich, zu verarbeiten. Die paketweise Aufteilung der zu verarbeitenden Daten ermöglicht eine besonders effektive Ausnutzung der zur Verfügung stehenden Prozessorressourcen, so dass eine zeitlich optimierte Durchführung der Phonetisierung mit Präprozessierung und Konvertierung möglich wird.
Hierbei ist es erfindungsgemäß besonders vorteilhaft, wenn die Größe eines Graphem-Teilpaketes vorgegeben wird, beispielsweise abgestimmt auf die zur Verfügung stehende Rechenleistung der Recheneinheit (d. h. pattformabhängig). Beispielsweise kann ein Graphem-Teilpaket mit einer maximalen Länge von 50 Einträgen (respektive Graphem-Symbolen) vorgegeben werden. Es hat sich herausgestellt, dass Graphem-Teilpakete, deren Größe auf die Plattform (Recheneinheit) abgestimmt ist, besonders effektiv präprozessiert und konvertiert werden können, da sich in diesem Fall ein optimales Verhältnis von zu verarbeitender Datenmenge zu dem Messaging Overhead ergibt. Der Messaging Overhead entsteht, weil die Datenpakete (Graphem-Teilpakete) zwischen den verschiedenen Recheneinheiten bzw. Teilen von Recheneinheiten ausgetauscht und der Austausch aufeinander abgestimmt erfolgen muss. Da beide Recheneinheiten die Daten zwischenspeichern müssen, muss ferner die jeweils verarbeitete Datenmenge eines Graphem-Teilpakets begrenzt werden, um in jeder Recheneinheit eine effektive und schnelle Verarbeitung zu ermöglichen.
In diesem Zusammenhang kann es erfindungsgemäß auch besonders vorteilhaft sein, die Größe eines Pakets durch Anwendung definierter Regeln, insbesondere vor oder eingangs der Präprozessierung, zu bestimmen, um den inhaltlichen Kontext einzelner Graphem-Symbole bei der Präprozessierung und Konvertierung zu berücksichtigen. Diese Regeln können beispielsweise das Erkennen bestimmter Graphem-Symbole, die Leer- oder Trennzeichen repräsentieren, und/oder eine inhaltliche Bewertung beinhalten, gegebenenfalls kombiniert mit einer maximal und gegebenenfalls auch einer minimal vorgegebenen Länge der Teilfolgen, d. h. einer Längenbegrenzung oder einem Längenintervall für die Teilfolgen. Durch die maximal vorgegebene Länge kann insbesondere die Rechenleistung der Recheneinheit berücksichtigt werden. Die minimal vorgegebene Länge sichert eine kontextsensitive Präprozessierung und/oder Konvertierung, bei der zusammenhängende Grapheme auch inhaltlich bewertet und berücksichtigt werden können.
In einer besonderen Ausführungsform des vorgeschlagenen Verfahrens kann die Präprozessierung erfindungsgemäß einen grammatikbasierten Parser umfassen, welcher insbesondere Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei gegebenenfalls unterschiedliche Sprachen berücksichtigt werden können. Besonders bevorzugt ist dieser grammatikbasierter Parser beispielsweise durch Vorgabe von regelenthaltenden Dateien parametrisierbar. Dies hat zur Folge, dass die Regeln für das Pattern-Matching und/oder die Verknüpfung von Regeln erfindungsgemäß leicht editierbar, erweiterbar und austauschbar sind. Hierfür ist ein Rückgriff auf bestehende Softwaremodule möglich, beispielsweise die GNU-Parser-generatoren Flex und Bison, deren Anwendung insbesondere für dynamische Datenbanken erst durch die erfindungsgemäß vorgeschlagene parallele Prozessierung der Präprozessierung und Konvertierung der einzelnen Graphem-Teilfolgen möglich ist.
Ein weiterer, erfindungsgemäßer Aspekt der vorgeschlagenen Präprozessierung liegt darin, dass diese eine Konvertierung von durch das akustische Modell der Graphem-zu-Phonem-Konvertierung (beispielsweise aufgrund einer fehlenden Sprachunterstützung) nicht unterstützter Zeichen (beispielsweise einer anderen Sprache) in durch das akustische Modell unterstützte Graphem-Symbole, insbesondere in lateinische Basiszeichen bzw. Buchstaben, umfassen kann. Hierdurch lässt sich eine flexible Sprachunterstützung für Datenbanken unterschiedlichster Inhalte erreichen, die besonders bevorzugt auch entsprechend dem vorgenannten Aspekt parametrierbar und/oder anpassbar ist, so dass die Präprozessierung, beispielsweise im Rahmen eines Firmware-Updates, automatisch angepasst werden kann, wenn sich vorgesehene Dateninhalte und damit die textenthaltenden Datensätze, welche zur Phonetisierung vorgesehen sind, ändern.
Die Erfindung betrifft auch eine Einrichtung zur Phonetisierung von textenthaltenden Datensätzen, beispielsweise in einer oder zur Verwendung in einer sprachgesteuerten Benutzerschnittstelle, wie einer Multimedia-Steuereinheit eines Kraftfahrzeugs, insbesondere mit einer Musiksteuerung, einem Autotelefon- und/oder einer Freisprecheinrichtung, wobei ein Multimedia-Steuereinheit über einen Datenspeicher, beispielsweise eine Datenbank, mit den textenthaltenden Datensätzen verfügt, die gegebenenfalls auch in einer grafischen Benutzerschnittstelle darstellbar sind. Die Einrichtung ist mit einer Datenschnittstelle zum Eingeben bzw. Einlesen der textenthaltenden Datensätze, beispielsweise in Form von Listeneinträgen, ausgestattet und weist einer Recheneinrichtung auf, welche zur Konvertierung der als Grapheme vorliegenden Datensätze in Phoneme und zur vorausgehenden Präprozessierung eingerichtet ist. Erfindungsgemäß weist die Recheneinrichtung mindestens eine erste Recheneinheit und eine zweite Recheneinheit auf, wobei die erste und die zweite Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet sind.
Entsprechend betrifft die Erfindung auch ein Computerprogramm mit Programmproduktmitteln, welche dazu geeignet sind, eine Recheneinrichtung einer Einrichtung zur Phonetisierung von textenthaltenden Datensätzen mit zwei Recheneinheiten, insbesondere wie zuvor beschrieben, zur Durchführung des zuvor beschriebenen Verfahrens oder Teilen hiervon einzurichten.
Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeichnungen. Dabei bilden alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung, auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezügen.
Die einzige 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zur Phonetisierung von textenthaltenden Datensätzen 2.
1 zeigt eine besonders bevorzugte Ausführungsform einer Einrichtung 1 zur Phonetisierung von textenthaltenden Datensätzen 2, die in einem Datenspeicher oder einer Datenbank enthalten sind. Die Einrichtung 1 zur Phonetisierung kann in eine sprachgesteuerten Benutzerschnittstelle, wie einer Multimedia-Steuereinheit eines Kraftfahrzeugs, integriert sein, und weist eine Datenschnittstelle 3 zur Eingabe oder zum Einlesen der textenthaltenden Datensätze 2 auf. Ferner ist in der Einrichtung 1 eine Recheneinrichtung 4 vorgesehen, welche zur Konvertierung der als Grapheme vorliegenden, textenthaltenden Datensätze 2 und zur Präprozessierung der Grapheme vor der Konvertierung in Phoneme eingerichtet ist. Dieser Aspekt der Recheneinrichtung 4 ist in 1 der Deutlichkeit halber neben der Einrichtung 1 dargestellt, obwohl diese Recheneinrichtung 4 Teil der Einrichtung 1 bzw. der diese enthaltenden Benutzerschnittstelle ist.
Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5 und eine zweite Recheneinheit 6 auf, die erfindungsgemäß zur parallelen, voneinander unabhängigen Abarbeitung von Daten geeignet sind.
Es wird darauf hingewiesen, dass die in 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu beschreibenden Funktionen der erfindungsgemäßen Lösung darstellt und nicht sämtlichen auf der Recheneinrichtung 4 bzw. in Recheneinheiten 5, 6 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren wiedergibt.
Die erste Recheneinheit 5 ist zur Präprozessierung der Grapheme und die zweite Recheneinheit 6 zur Konvertierung der Grapheme in Phoneme eingerichtet, wobei die zweite Recheneinheit 6 vorzugsweise auch einen Spracherkenner aufweisen kann, der durch die sprachgesteuerte Benutzerschnittstelle verwendet wird und auf gespeicherte phonetisierte Datensätze beispielsweise in Form einer phonetisierten Datenliste zugreift.
Das erfindungsgemäß vorgeschlagene Verfahren zur Phonetisierung erfolgt dabei wie nachfolgend beschrieben:
Nach Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung 1 zur Phonetisierung werden die Grapheme, d. h. die Folge der einzelnen Graphem-Symbole, zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. Einheiten zerlegt. Dies ist durch den Pfeil 7 dargestellt, der in 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 7 in einer gegebenenfalls auch zusätzlichen Recheneinheit der Recheneinrichtung 4 stattfindet und beispielsweise als erster Prozessschritt einer Präprozessierung aufgefasst werden kann.
Anschließend wird die Graphem-Teilfolge der ersten Recheneinheit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert werden, beispielsweise durch Ersetzung von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen und/oder Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind.
Die in der ersten Recheneinheit 5 implementierte Präprozessierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei gegebenenfalls unterschiedliche Sprachen berücksichtigt werden können. Außerdem werden in der in der ersten Recheneinheit 5 implementierten Präprozessierung von durch das akustische Modell der Graphem-zu-Phonem-Konvertierung nicht unterstützte Zeichen in durch das akustische Modell unterstütze Graphem-Symbole konvertiert.
Nach der Präprozessierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Recheneinheit 6 zugeführt, in welcher die eigentliche Graphem-zu-Phonem-Konvertierung stattfindet. Dieses Verfahren ist allgemein bekannt und muss daher an dieser Stelle nicht näher beschrieben werden.
Als Ergebnis der Graphem-zu-Phonem-Konvertierung in der zweiten Recheneinheit 6 wird eine phonetisierte Datenliste 8 erzeugt und in der Recheneinrichtung 4 bzw. einer Speichereinrichtung der Einrichtung 1 zur Phonetisierung gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle eine sprachgesteuerte Benutzerschnittstelle auf diese phonetisierte Datenliste 8 zugreifen kann. Die phonetisierte Datenliste 8 stellt also die phonetisierten Datenätze dar.
Durch das parallele Prozessieren der Präprozessierung und der Konvertierung in verschiedenen unabhängigen Recheneinheiten addiert sich somit nur die Wartezeit für ein erstes Paket auf die Gesamtlatenz für die Phonetisierung der textenthaltenden Datensätze, auch wenn eine aufwendige Präprozessierung durchgeführt wird, die neben einer Ersetzung von Akronymen und dergleichen auch eine sprachabhängige Konvertierung der von dem akustischen Modell der Phonetisierung nicht unterstütze Zeichen anderer Sprachen in lateinische Basiszeichen umfassen kann. Durch die parallele Prozessierung ist es auch möglich, eine umfassende Präprozessierung vorzunehmen und diese parametrierbar einzustellen, so dass die Präprozessierungsregeln einfach in das System einsteuerbar sind. Außerdem sind diese Regeln gut dokumentiert und einfach verständlich zu ändern.
Ferner erfolgt erfindungsgemäß eine effiziente Ausnutzung der Prozessorressourcen bei der Phonetisierung, so dass trotz einer aufwendigen Präprozessierung die Wartezeiten für das zur Verfügung stellen der phonetisierten Datenliste, die zur Sprachsteuerung genutzt wird, nur unmerklich ansteigt.
Nachfolgend wird noch ein konkretes Ausführungsbeispiel beschrieben, bei dem das erfindungsgemäße Verfahren in einem Fahrzeug-Entertainmentgerät zum Einsatz kommt. Das Fahrzeug-Entertainmentgerät weist eine Schnittstelle für Bluetooth-Geräte, USB-Datenträger, iPod-Geräte oder dergleichen auf. Die dort enthaltenen Musikstücke werden von der als Head Unit bezeichneten Zentraleinheit des Fahrzeug-Entertainmentgeräts gelesen, wobei Metaattribute der Musikstücke in einer Datenbank abgelegt werden. Diese Datenbank kann über eine graphische Schnittstelle durchsucht und einzelne oder mehrere Titel können abgespielt werden. Neben der haptischen Auswahl von Musikstücken gibt es auch eine sprachbasierte Bedienung des Fahrzeug-Entertainmentgeräts, wobei die Auswahl der Musikstücke (Alben, Interpreten) über deren Namen erfolgen soll.
Oft sind die Metaattribute der Musikstücke nicht für die Sprachbedienung geeignet, so dass es dem Benutzer des Systems nicht oder nur auf unnatürliche Weise möglich ist, seine Auswahl auch einzugeben. Ein bekannter Ansatz zur Lösung des Problems besteht im Vergleich der Charakteristika des Audiosignals in einer auf dem System aufgespielten Datenbank, die die Metaattribute so dem Spracherkenner zur Verfügung stellt, dass der Benutzer die Titel einfach anwählen kann. Nachteil einer solchen Lösung ist, dass die Datenbank nicht die neuesten Titel kennt, und daher ständig aktualisiert werden muss. Zudem werden Lizenzkosten fällig und es entsteht ein für Embedded Systeme signifikanter Speicherbedarf, der die Fixkosten eines solchen Produkts erhöhen würde.
Stattdessen wird eine erfindungsgemäße Präprozessierung angewendet, die insbesondere die folgenden Verfahrensschritte aufweist:

1. Nachdem das Fahrzeug-Entertainmentgerät ein angestecktes USB-Gerät oder dergleichen erkannt hat, wird eine geräteinterne Datenbank durch Indizierung der Musikstücke und ihrer Metaattribute befüllt.
2. Die Metaattribute werden nach Kategorien sortiert aus der Datenbank des Fahrzeug-Entertainmentgeräts in die sprachgensteuerte Benutzerschnittstelle des Fahrzeug-Entertainmentgeräts gelesen.
3. Die beispielsweise durch geeignet eingerichtete Recheneinheit 4 der sprachgesteuerten Benutzerschnittstelle als Einrichtung 1 zum Phonetisieren liest die Daten paketweise bzw. zerlegt die Daten in einzelne Pakete einer vordefinierten Größe, d. h. in Graphem-Teilfolgen bzw. Graphem-Teilpakete. Ein Graphem-Teilpaket wird an den Präprozessor (die erste Recheinheit 5) gegeben.
4. Die erste Recheneinheit 5 (Präprozessor) besteht im Wesentlichen aus einem Parsermodul, das die Daten nach bestimmten Mustern durchsucht. Diese Muster sind teilweise sprachabhängig und sind daher je nach ausgewählter Sprache austauschbar. Als Eingabe erhält die erste Recheneinheit 5, d. h. der Präprozessor, das Graphem aus der Datenbank (primäres Graphem) sowie den aktuellen Kategoriebezeichner.
5. Die erste Recheneinheit 5 legt dann bei der Präprozessierung beispielsweise einen Alternativtext an und korrigiert das primäre Graphem. So wird beispielsweise das häufig anzutreffende Suffix „feat. <Artist>“ für das primäre Graphem expandiert zu „featuring <Artist>“. In der Alternative wird das primäre Graphem „feat. <Artist>“ entfernt. Oft enthält das Attribut für Titel, den Index auf dem Album sowie den Künstler und Albumnamen. Das primäre Graphem wird dann um die unnötigen Teile bereinigt. Eine Alternative wird für diesen Fall nicht erstellt.
6. Das präprozessierte Graphem-Teilpaket wird an den Spracherkenner weitergereicht, der vorzugsweise auf einer anderen zweiten Recheneinheit 6 residiert.
7. Parallel zu der aufwändigen Phonetisierung (g2p) in der zweiten Recheinheit 6 wird das zweite Teilpakt, bzw. allgemeiner ein weiteres Graphem-Teilpaket, am Präprozessor, d. h. in der ersten Recheneinheit 5, verarbeitet.
8. Parallel zu dem Präprozessor (erste Recheneinheit 5) und dem Spracherkenner mit der Graphem-zu-Phonem-Konvertierung (zweite Recheneinheit 6) fragt die sprachgesteuerte Benutzerschnittstelle 1 die nächsten Pakete bei der Datenbank an, so dass eine Kette von Paketverarbeitungen in der sprachgesteuerten Benutzerschnittstelle 1 anliegt. Von den parallelen Arbeitsschritten Datenbankanfrage, Präprozessierung und Phonetisierung ist die Letztere die langsamste. Durch die Parallelität von Präprozessor und Spracherkenner entsteht keine additionale Latenz, die über die Präprozessierung des ersten Teilpaketes hinausgeht.

Als Ergebnis entsteht in dem Ausführungsbeispiel eine für den Benutzer verbesserte Bedienung, ohne dass eine signifikante Verschlechterung der Latenz oder eine Erhöhung des Speicherverbrauchs entsteht.
Bezugszeichenliste

1: Einrichtung zur Phonetisierung
2: textenthaltende Datensätze
3: Datenschnittstelle
4: Recheneinrichtung
5: erste Recheneinheit, Präprozessierung
6: zweite Recheneinheit, Konvertierung
7: Zerlegung in Graphem-Teilfolgen
8: phonetisierte Datenliste, phonetisierte Datensätze

Claims

Verfahren zur Phonetisierung von textenthaltenden Datensätzen (2), bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als phonetisierte Datensätze (8) gespeichert werden, wobei die Grapheme in einer Präprozessierung für die Phonetisierung aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden, dadurch gekennzeichnet, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten (5, 6) oder unterschiedlichen Teilen von Recheneinheiten (5, 6) durchgeführt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die als Grapheme vorliegenden Datensätze (2) in Graphem-Teilpakete zerlegt werden, wobei jeweils ein Graphem-Teilpaket in einer Recheneinheit (5) präprozessiert und anschließend in einer anderen Recheneinheit (6) phonetisiert wird und beide Recheneinheiten (5, 6) dazu eingerichtet sind, unterschiedliche Graphem-Teilfolgen parallel zu verarbeiten.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Größe eines Teilpakets vorgegeben wird, insbesondere durch eine von der Recheneinheit (5) abhängige Konstante von Datenmenge der Graphem-Teilpakte zu dem Messaging Overhead, der bei der Kommunikation zwischen den beiden Recheneinheiten (5, 6) entsteht.
Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass die Größe eines Paktes durch Anwendung definierter Regeln bestimmt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Präprozessierung einen grammatikbasierten Parser umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Präprozessierung eine Konvertierung von durch das akustische Modell der Graphem-zu-Phonem-Konvertierung nicht unterstütze Zeichen in Graphem-Symbole des akustischen Modells umfasst.
Einrichtung zur Phonetisierung von textenthaltenden Datensätzen (2) mit einer Datenschnittstelle (3) zum Eingeben der textenthaltenden Datensätzen (2) und mit einer Recheneinrichtung (4), welche zur Konvertierung der als Grapheme vorliegenden Datensätze in Phoneme und zur Präprozessierung der Grapheme eingerichtet ist, dadurch gekennzeichnet, dass die Recheneinrichtung (4) mindestens eine erste Recheneinheit (5) und eine zweite Recheneinheit (6) aufweist, wobei die erste und die zweite Recheneinheit (5, 6) zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 eingerichtet sind.
Computerprogrammprodukt mit Programmcodemitteln, welche dazu geeignet sind, eine Recheneinrichtung (4) einer Einrichtung (1) zur Phonetisierung von textenthaltenden Datensätzen (2) mit mindestens zwei Recheneinheiten (5, 6) zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 einzurichten.