DE102012202391A1 - Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen - Google Patents

Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen Download PDF

Info

Publication number
DE102012202391A1
DE102012202391A1 DE102012202391A DE102012202391A DE102012202391A1 DE 102012202391 A1 DE102012202391 A1 DE 102012202391A1 DE 102012202391 A DE102012202391 A DE 102012202391A DE 102012202391 A DE102012202391 A DE 102012202391A DE 102012202391 A1 DE102012202391 A1 DE 102012202391A1
Authority
DE
Germany
Prior art keywords
grapheme
graphemes
text
preprocessing
arithmetic unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102012202391A
Other languages
English (en)
Inventor
Jens Walther
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive GmbH
Original Assignee
Continental Automotive GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive GmbH filed Critical Continental Automotive GmbH
Priority to DE102012202391A priority Critical patent/DE102012202391A1/de
Priority to PCT/EP2013/052650 priority patent/WO2013120794A1/de
Priority to CN201380008815.8A priority patent/CN104115222B/zh
Priority to EP13705421.9A priority patent/EP2815395A1/de
Priority to US14/378,896 priority patent/US9436675B2/en
Publication of DE102012202391A1 publication Critical patent/DE102012202391A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

Es werden Verfahren zur Phonetisierung von textenthaltenden Datensätzen (2) und eine zur Durchführung des Verfahrens eingerichtete Einrichtung beschrieben, bei denen die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als phonetisierte Datensätze (8) gespeichert werden, wobei die Grapheme in einer Präprozessierung für die Phonetisierung aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden. Es ist vorgesehen, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten (5, 6) oder unterschiedlichen Teilen von Recheneinheiten (5, 6) durchgeführt wird.

Description

  • Die Erfindung betrifft ein Verfahren und eine Einrichtung zur Phonetisierung von textenthaltenden Datensätzen, insbesondere unterschiedlicher Inhalte, wie z. B. Musiktitel, Musikinterpreten, Musikalben oder Telefonbucheinträge, Kontaktnamen oder dergleichen, die in sprachgesteuerten Benutzerschnittstellen zur Steuerung bestimmter Abläufe benutzt werden, in denen der Benutzer diese Inhalte enthaltende Sprachbefehle an die Benutzerschnittstelle weitergibt. Ohne dass die Erfindung auf diesen bevorzugten Anwendungsfall beschränkt ist, liegt ein bevorzugtes Anwendungsgebiet der Erfindung im Bereich von Kraftfahrzeugsteuergeräten, insbesondere Multimedia-Steuereinheiten in Kraftfahrzeugen, die der Information, Unterhaltung und/oder Kommunikation in Kraftfahrzeugen dienen. Derartige Steuereinheiten können insbesondere Musikwiedergabe- und Telefonfunktionen enthalten.
  • Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buchstabenfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als phonetisierte Datensätze, beispielsweise in einer phonetisierten Datenliste, gespeichert. Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeutungsunterscheidende Einheit bildet, eine distinktive Funktion aufweist. Der Begriff "Phoneme" wird in dem vorliegenden Text, insbesondere als Folge mehrerer einzelner Phonem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunterscheidende Einheit dar, und ist häufig durch die Buchstaben einer Schrift definiert.
  • Bei dem vorgeschlagenen Verfahren werden die Grapheme in einer Präprozessierung für die eigentliche Phonetisierung aufbereitet, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden, bevor die Konvertierung in Phoneme durchgeführt wird. Die phonetisierte Datenliste, beispielsweise in Form der phonetisierten Datensätze, kann dann in an sich bekannter Weise beispielsweise bei der Spracherkennung einer sprachgesteuerten Benutzerschnittstelle genutzt werden.
  • Die Präprozessierung hat den Hintergrund, dass die Grapheme (und auch die Phoneme) sprachbezogen sind, von der jeweils verwendeten Sprache abhängen. Häufig finden sich gerade in Datensätzen jedoch Einträge unterschiedlicher Sprachen, die zur Phonetisierung gekennzeichnet und angepasst werden müssen. Entsprechend kann die Präprozessierung durch Erkennung fremdsprachiger Texte, aber auch durch Ersetzen von Abkürzungen, Weglassen von Präfixen (wie "Herr", "Frau", "Dr.", dem englischen Artikel "the" oder dergleichen), Expandieren von Akronymen und/oder Anbieten von Aussprachevarianten realisiert sein, die durch den Benutzer auswählbar sind.
  • Durch eine solche Präprozessierung können die meist sprachbezogenen Einschränkungen der Graphem-zu-Phonem-Konvertierung, bei der nur eine bestimmte vorgegebene Anzahl an Ziffern und zu buchstabierenden Zeichenfolgen unterstützt wird, zumindest teilweise aufgehoben werden, indem die von dem bei der Phonetisierung verwendeten, sprachabhängigen akustischen Modellen nicht unterstützten Zeichen der Grapheme ersetzt werden.
  • In bestehenden Systemen besteht bei der Präprozessierung jedoch das Problem, dass diese Verfahren den eigentlichen Graphem-zu-Phonem-Konvertierungen vorgeschaltet sind, die Zeit, die für die Präprozessierung benötigt wird, sich zur Gesamtlatenz für die Graphem-zu-Phonem-Konvertierung addiert.
  • Da die Präprozessierung je nach betriebenem Aufwand auch sehr rechenintensiv sein kann, ist entweder mit langen Latenzzeiten zu rechnen oder die Leistungsfähigkeit der Präprozessierung einzuschränken, beispielsweise indem bei der Phonetisierung nicht unterstützte Zeichen der Graphem-Darstellung ignoriert werden. Aufgrund der Ressourcenknappheit bei der Präprozessierung sind die bekannten Implementierungen einer Präprozessierung auch nur bedingt an konkrete Anwendungsanforderungen anpassbar und insbesondere fest programmiert, insbesondere im Hinblick auf die Zahl der Varianten und der zur Verfügung stehenden Ersetzungen bzw. Modifikationen.
  • Aufgabe der vorliegenden Erfindung ist es daher, eine Phonetisierung vorzuschlagen, bei der der Zeitbedarf für die Präprozessierung und die anschließende Konvertierung der Grapheme in Phoneme reduziert wird.
  • Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruchs 1, eine Einrichtung mit den Merkmalen des Anspruchs 7 und ein Computerprogrammprodukt mit den Merkmalen des Anspruchs 8 gelöst.
  • Bei dem vorgeschlagenen Verfahren ist insbesondere vorgesehen, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten oder Teilen von Recheneinheiten, insbesondere unterschiedlichen Prozessoren oder Prozessorteilen, durchgeführt werden. Die unterschiedlichen Recheneinheiten können in verschiedenen Recheneinrichtungen oder in einer Recheneinrichtung als Dual- oder Multi-Recheneinheit, insbesondere Dual- oder Multi-Prozessor, verwirklicht sein.
  • Das parallele Durchführen der Präprozessierung der Grapheme und der Konvertierung der Grapheme in Phoneme kann insbesondere derart erfolgen, dass zur Phonetisierung vorgesehenen Grapheme in einem ersten Schritt in einer ersten Recheneinheit präprozessiert, an eine zweiten Recheneinheit übertragen und in der zweiten Recheneinheit phonetisiert, in Phoneme konvertiert, werden. Während der Phonetisierung der Grapheme in der zweiten Recheneinheit können dann nachfolgend zur Phonetisierung vorgesehene Grapheme in der ersten Recheneinheit prozessiert werden.
  • Wie bereits erwähnt, liegen die Datensätze meist als Grapheme, also als Folgen einzelner Graphem-Symbole (insbesondere Buchstaben), vor, so dass nach Kapazität der jeweiligen Recheneinheiten in jeder Recheneinheit jeweils eine Teilfolge verarbeitet werden kann, beispielsweise im Stile eines FIFO-Pufferspeichers (first-in-first-out). Gegebenenfalls kann erfindungsgemäß zwischen der ersten und der zweiten Recheneinheit ein Zwischenspeicher vorgesehen sein, um die Rechenprozesse beider Recheneinheiten zeitlich aufeinander abzustimmen und Schwankungen in der Rechenleistung der beiden Recheneinheiten durch Zwischenspeichern der präprozessierten Grapheme kurzfristig ausgleichen zu können.
  • Eine besonders vorteilhafte Verwendung des erfindungsgemäß vorgeschlagenen Verfahrens ergibt sich bei einer dynamischen Spracherkennung, bei der die Grapheme erst während der Anwendung aus sich ständig ändernden textenthaltenden Datensätzen erzeugt werden, im Gegensatz zu einer Verwendung mit einer statischen Datenbank, bei der die Phonetisierung der Grapheme einmal erfolgt und die Sprachsteuerung dann auf die fest gespeicherten Phoneme zugreift.
  • Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, vorliegenden Datensätze in Graphem-Teilpakte, die auch als Pakete von Graphem-Teilfolgen bezeichnet werden können, zerlegt werden, wobei jeweils ein Graphem-Teilpaket in einer ersten Recheneinheit präprozessiert und anschließend in einer anderen zweiten Recheneinheit phonetisiert, in Phoneme konvertiert, wird und wobei beide Recheneinheiten dazu eingerichtet sind, unterschiedliche Graphem-Teilpakete parallel, insbesondere zeitgleich, zu verarbeiten. Die paketweise Aufteilung der zu verarbeitenden Daten ermöglicht eine besonders effektive Ausnutzung der zur Verfügung stehenden Prozessorressourcen, so dass eine zeitlich optimierte Durchführung der Phonetisierung mit Präprozessierung und Konvertierung möglich wird.
  • Hierbei ist es erfindungsgemäß besonders vorteilhaft, wenn die Größe eines Graphem-Teilpaketes vorgegeben wird, beispielsweise abgestimmt auf die zur Verfügung stehende Rechenleistung der Recheneinheit (d. h. pattformabhängig). Beispielsweise kann ein Graphem-Teilpaket mit einer maximalen Länge von 50 Einträgen (respektive Graphem-Symbolen) vorgegeben werden. Es hat sich herausgestellt, dass Graphem-Teilpakete, deren Größe auf die Plattform (Recheneinheit) abgestimmt ist, besonders effektiv präprozessiert und konvertiert werden können, da sich in diesem Fall ein optimales Verhältnis von zu verarbeitender Datenmenge zu dem Messaging Overhead ergibt. Der Messaging Overhead entsteht, weil die Datenpakete (Graphem-Teilpakete) zwischen den verschiedenen Recheneinheiten bzw. Teilen von Recheneinheiten ausgetauscht und der Austausch aufeinander abgestimmt erfolgen muss. Da beide Recheneinheiten die Daten zwischenspeichern müssen, muss ferner die jeweils verarbeitete Datenmenge eines Graphem-Teilpakets begrenzt werden, um in jeder Recheneinheit eine effektive und schnelle Verarbeitung zu ermöglichen.
  • In diesem Zusammenhang kann es erfindungsgemäß auch besonders vorteilhaft sein, die Größe eines Pakets durch Anwendung definierter Regeln, insbesondere vor oder eingangs der Präprozessierung, zu bestimmen, um den inhaltlichen Kontext einzelner Graphem-Symbole bei der Präprozessierung und Konvertierung zu berücksichtigen. Diese Regeln können beispielsweise das Erkennen bestimmter Graphem-Symbole, die Leer- oder Trennzeichen repräsentieren, und/oder eine inhaltliche Bewertung beinhalten, gegebenenfalls kombiniert mit einer maximal und gegebenenfalls auch einer minimal vorgegebenen Länge der Teilfolgen, d. h. einer Längenbegrenzung oder einem Längenintervall für die Teilfolgen. Durch die maximal vorgegebene Länge kann insbesondere die Rechenleistung der Recheneinheit berücksichtigt werden. Die minimal vorgegebene Länge sichert eine kontextsensitive Präprozessierung und/oder Konvertierung, bei der zusammenhängende Grapheme auch inhaltlich bewertet und berücksichtigt werden können.
  • In einer besonderen Ausführungsform des vorgeschlagenen Verfahrens kann die Präprozessierung erfindungsgemäß einen grammatikbasierten Parser umfassen, welcher insbesondere Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei gegebenenfalls unterschiedliche Sprachen berücksichtigt werden können. Besonders bevorzugt ist dieser grammatikbasierter Parser beispielsweise durch Vorgabe von regelenthaltenden Dateien parametrisierbar. Dies hat zur Folge, dass die Regeln für das Pattern-Matching und/oder die Verknüpfung von Regeln erfindungsgemäß leicht editierbar, erweiterbar und austauschbar sind. Hierfür ist ein Rückgriff auf bestehende Softwaremodule möglich, beispielsweise die GNU-Parser-generatoren Flex und Bison, deren Anwendung insbesondere für dynamische Datenbanken erst durch die erfindungsgemäß vorgeschlagene parallele Prozessierung der Präprozessierung und Konvertierung der einzelnen Graphem-Teilfolgen möglich ist.
  • Ein weiterer, erfindungsgemäßer Aspekt der vorgeschlagenen Präprozessierung liegt darin, dass diese eine Konvertierung von durch das akustische Modell der Graphem-zu-Phonem-Konvertierung (beispielsweise aufgrund einer fehlenden Sprachunterstützung) nicht unterstützter Zeichen (beispielsweise einer anderen Sprache) in durch das akustische Modell unterstützte Graphem-Symbole, insbesondere in lateinische Basiszeichen bzw. Buchstaben, umfassen kann. Hierdurch lässt sich eine flexible Sprachunterstützung für Datenbanken unterschiedlichster Inhalte erreichen, die besonders bevorzugt auch entsprechend dem vorgenannten Aspekt parametrierbar und/oder anpassbar ist, so dass die Präprozessierung, beispielsweise im Rahmen eines Firmware-Updates, automatisch angepasst werden kann, wenn sich vorgesehene Dateninhalte und damit die textenthaltenden Datensätze, welche zur Phonetisierung vorgesehen sind, ändern.
  • Die Erfindung betrifft auch eine Einrichtung zur Phonetisierung von textenthaltenden Datensätzen, beispielsweise in einer oder zur Verwendung in einer sprachgesteuerten Benutzerschnittstelle, wie einer Multimedia-Steuereinheit eines Kraftfahrzeugs, insbesondere mit einer Musiksteuerung, einem Autotelefon- und/oder einer Freisprecheinrichtung, wobei ein Multimedia-Steuereinheit über einen Datenspeicher, beispielsweise eine Datenbank, mit den textenthaltenden Datensätzen verfügt, die gegebenenfalls auch in einer grafischen Benutzerschnittstelle darstellbar sind. Die Einrichtung ist mit einer Datenschnittstelle zum Eingeben bzw. Einlesen der textenthaltenden Datensätze, beispielsweise in Form von Listeneinträgen, ausgestattet und weist einer Recheneinrichtung auf, welche zur Konvertierung der als Grapheme vorliegenden Datensätze in Phoneme und zur vorausgehenden Präprozessierung eingerichtet ist. Erfindungsgemäß weist die Recheneinrichtung mindestens eine erste Recheneinheit und eine zweite Recheneinheit auf, wobei die erste und die zweite Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet sind.
  • Entsprechend betrifft die Erfindung auch ein Computerprogramm mit Programmproduktmitteln, welche dazu geeignet sind, eine Recheneinrichtung einer Einrichtung zur Phonetisierung von textenthaltenden Datensätzen mit zwei Recheneinheiten, insbesondere wie zuvor beschrieben, zur Durchführung des zuvor beschriebenen Verfahrens oder Teilen hiervon einzurichten.
  • Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeichnungen. Dabei bilden alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung, auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezügen.
  • Die einzige 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zur Phonetisierung von textenthaltenden Datensätzen 2.
  • 1 zeigt eine besonders bevorzugte Ausführungsform einer Einrichtung 1 zur Phonetisierung von textenthaltenden Datensätzen 2, die in einem Datenspeicher oder einer Datenbank enthalten sind. Die Einrichtung 1 zur Phonetisierung kann in eine sprachgesteuerten Benutzerschnittstelle, wie einer Multimedia-Steuereinheit eines Kraftfahrzeugs, integriert sein, und weist eine Datenschnittstelle 3 zur Eingabe oder zum Einlesen der textenthaltenden Datensätze 2 auf. Ferner ist in der Einrichtung 1 eine Recheneinrichtung 4 vorgesehen, welche zur Konvertierung der als Grapheme vorliegenden, textenthaltenden Datensätze 2 und zur Präprozessierung der Grapheme vor der Konvertierung in Phoneme eingerichtet ist. Dieser Aspekt der Recheneinrichtung 4 ist in 1 der Deutlichkeit halber neben der Einrichtung 1 dargestellt, obwohl diese Recheneinrichtung 4 Teil der Einrichtung 1 bzw. der diese enthaltenden Benutzerschnittstelle ist.
  • Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5 und eine zweite Recheneinheit 6 auf, die erfindungsgemäß zur parallelen, voneinander unabhängigen Abarbeitung von Daten geeignet sind.
  • Es wird darauf hingewiesen, dass die in 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu beschreibenden Funktionen der erfindungsgemäßen Lösung darstellt und nicht sämtlichen auf der Recheneinrichtung 4 bzw. in Recheneinheiten 5, 6 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren wiedergibt.
  • Die erste Recheneinheit 5 ist zur Präprozessierung der Grapheme und die zweite Recheneinheit 6 zur Konvertierung der Grapheme in Phoneme eingerichtet, wobei die zweite Recheneinheit 6 vorzugsweise auch einen Spracherkenner aufweisen kann, der durch die sprachgesteuerte Benutzerschnittstelle verwendet wird und auf gespeicherte phonetisierte Datensätze beispielsweise in Form einer phonetisierten Datenliste zugreift.
  • Das erfindungsgemäß vorgeschlagene Verfahren zur Phonetisierung erfolgt dabei wie nachfolgend beschrieben:
    Nach Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung 1 zur Phonetisierung werden die Grapheme, d. h. die Folge der einzelnen Graphem-Symbole, zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. Einheiten zerlegt. Dies ist durch den Pfeil 7 dargestellt, der in 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 7 in einer gegebenenfalls auch zusätzlichen Recheneinheit der Recheneinrichtung 4 stattfindet und beispielsweise als erster Prozessschritt einer Präprozessierung aufgefasst werden kann.
  • Anschließend wird die Graphem-Teilfolge der ersten Recheneinheit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert werden, beispielsweise durch Ersetzung von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen und/oder Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind.
  • Die in der ersten Recheneinheit 5 implementierte Präprozessierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei gegebenenfalls unterschiedliche Sprachen berücksichtigt werden können. Außerdem werden in der in der ersten Recheneinheit 5 implementierten Präprozessierung von durch das akustische Modell der Graphem-zu-Phonem-Konvertierung nicht unterstützte Zeichen in durch das akustische Modell unterstütze Graphem-Symbole konvertiert.
  • Nach der Präprozessierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Recheneinheit 6 zugeführt, in welcher die eigentliche Graphem-zu-Phonem-Konvertierung stattfindet. Dieses Verfahren ist allgemein bekannt und muss daher an dieser Stelle nicht näher beschrieben werden.
  • Als Ergebnis der Graphem-zu-Phonem-Konvertierung in der zweiten Recheneinheit 6 wird eine phonetisierte Datenliste 8 erzeugt und in der Recheneinrichtung 4 bzw. einer Speichereinrichtung der Einrichtung 1 zur Phonetisierung gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle eine sprachgesteuerte Benutzerschnittstelle auf diese phonetisierte Datenliste 8 zugreifen kann. Die phonetisierte Datenliste 8 stellt also die phonetisierten Datenätze dar.
  • Durch das parallele Prozessieren der Präprozessierung und der Konvertierung in verschiedenen unabhängigen Recheneinheiten addiert sich somit nur die Wartezeit für ein erstes Paket auf die Gesamtlatenz für die Phonetisierung der textenthaltenden Datensätze, auch wenn eine aufwendige Präprozessierung durchgeführt wird, die neben einer Ersetzung von Akronymen und dergleichen auch eine sprachabhängige Konvertierung der von dem akustischen Modell der Phonetisierung nicht unterstütze Zeichen anderer Sprachen in lateinische Basiszeichen umfassen kann. Durch die parallele Prozessierung ist es auch möglich, eine umfassende Präprozessierung vorzunehmen und diese parametrierbar einzustellen, so dass die Präprozessierungsregeln einfach in das System einsteuerbar sind. Außerdem sind diese Regeln gut dokumentiert und einfach verständlich zu ändern.
  • Ferner erfolgt erfindungsgemäß eine effiziente Ausnutzung der Prozessorressourcen bei der Phonetisierung, so dass trotz einer aufwendigen Präprozessierung die Wartezeiten für das zur Verfügung stellen der phonetisierten Datenliste, die zur Sprachsteuerung genutzt wird, nur unmerklich ansteigt.
  • Nachfolgend wird noch ein konkretes Ausführungsbeispiel beschrieben, bei dem das erfindungsgemäße Verfahren in einem Fahrzeug-Entertainmentgerät zum Einsatz kommt. Das Fahrzeug-Entertainmentgerät weist eine Schnittstelle für Bluetooth-Geräte, USB-Datenträger, iPod-Geräte oder dergleichen auf. Die dort enthaltenen Musikstücke werden von der als Head Unit bezeichneten Zentraleinheit des Fahrzeug-Entertainmentgeräts gelesen, wobei Metaattribute der Musikstücke in einer Datenbank abgelegt werden. Diese Datenbank kann über eine graphische Schnittstelle durchsucht und einzelne oder mehrere Titel können abgespielt werden. Neben der haptischen Auswahl von Musikstücken gibt es auch eine sprachbasierte Bedienung des Fahrzeug-Entertainmentgeräts, wobei die Auswahl der Musikstücke (Alben, Interpreten) über deren Namen erfolgen soll.
  • Oft sind die Metaattribute der Musikstücke nicht für die Sprachbedienung geeignet, so dass es dem Benutzer des Systems nicht oder nur auf unnatürliche Weise möglich ist, seine Auswahl auch einzugeben. Ein bekannter Ansatz zur Lösung des Problems besteht im Vergleich der Charakteristika des Audiosignals in einer auf dem System aufgespielten Datenbank, die die Metaattribute so dem Spracherkenner zur Verfügung stellt, dass der Benutzer die Titel einfach anwählen kann. Nachteil einer solchen Lösung ist, dass die Datenbank nicht die neuesten Titel kennt, und daher ständig aktualisiert werden muss. Zudem werden Lizenzkosten fällig und es entsteht ein für Embedded Systeme signifikanter Speicherbedarf, der die Fixkosten eines solchen Produkts erhöhen würde.
  • Stattdessen wird eine erfindungsgemäße Präprozessierung angewendet, die insbesondere die folgenden Verfahrensschritte aufweist:
    • 1. Nachdem das Fahrzeug-Entertainmentgerät ein angestecktes USB-Gerät oder dergleichen erkannt hat, wird eine geräteinterne Datenbank durch Indizierung der Musikstücke und ihrer Metaattribute befüllt.
    • 2. Die Metaattribute werden nach Kategorien sortiert aus der Datenbank des Fahrzeug-Entertainmentgeräts in die sprachgensteuerte Benutzerschnittstelle des Fahrzeug-Entertainmentgeräts gelesen.
    • 3. Die beispielsweise durch geeignet eingerichtete Recheneinheit 4 der sprachgesteuerten Benutzerschnittstelle als Einrichtung 1 zum Phonetisieren liest die Daten paketweise bzw. zerlegt die Daten in einzelne Pakete einer vordefinierten Größe, d. h. in Graphem-Teilfolgen bzw. Graphem-Teilpakete. Ein Graphem-Teilpaket wird an den Präprozessor (die erste Recheinheit 5) gegeben.
    • 4. Die erste Recheneinheit 5 (Präprozessor) besteht im Wesentlichen aus einem Parsermodul, das die Daten nach bestimmten Mustern durchsucht. Diese Muster sind teilweise sprachabhängig und sind daher je nach ausgewählter Sprache austauschbar. Als Eingabe erhält die erste Recheneinheit 5, d. h. der Präprozessor, das Graphem aus der Datenbank (primäres Graphem) sowie den aktuellen Kategoriebezeichner.
    • 5. Die erste Recheneinheit 5 legt dann bei der Präprozessierung beispielsweise einen Alternativtext an und korrigiert das primäre Graphem. So wird beispielsweise das häufig anzutreffende Suffix „feat. <Artist>“ für das primäre Graphem expandiert zu „featuring <Artist>“. In der Alternative wird das primäre Graphem „feat. <Artist>“ entfernt. Oft enthält das Attribut für Titel, den Index auf dem Album sowie den Künstler und Albumnamen. Das primäre Graphem wird dann um die unnötigen Teile bereinigt. Eine Alternative wird für diesen Fall nicht erstellt.
    • 6. Das präprozessierte Graphem-Teilpaket wird an den Spracherkenner weitergereicht, der vorzugsweise auf einer anderen zweiten Recheneinheit 6 residiert.
    • 7. Parallel zu der aufwändigen Phonetisierung (g2p) in der zweiten Recheinheit 6 wird das zweite Teilpakt, bzw. allgemeiner ein weiteres Graphem-Teilpaket, am Präprozessor, d. h. in der ersten Recheneinheit 5, verarbeitet.
    • 8. Parallel zu dem Präprozessor (erste Recheneinheit 5) und dem Spracherkenner mit der Graphem-zu-Phonem-Konvertierung (zweite Recheneinheit 6) fragt die sprachgesteuerte Benutzerschnittstelle 1 die nächsten Pakete bei der Datenbank an, so dass eine Kette von Paketverarbeitungen in der sprachgesteuerten Benutzerschnittstelle 1 anliegt. Von den parallelen Arbeitsschritten Datenbankanfrage, Präprozessierung und Phonetisierung ist die Letztere die langsamste. Durch die Parallelität von Präprozessor und Spracherkenner entsteht keine additionale Latenz, die über die Präprozessierung des ersten Teilpaketes hinausgeht.
  • Als Ergebnis entsteht in dem Ausführungsbeispiel eine für den Benutzer verbesserte Bedienung, ohne dass eine signifikante Verschlechterung der Latenz oder eine Erhöhung des Speicherverbrauchs entsteht.
  • Bezugszeichenliste
  • 1
    Einrichtung zur Phonetisierung
    2
    textenthaltende Datensätze
    3
    Datenschnittstelle
    4
    Recheneinrichtung
    5
    erste Recheneinheit, Präprozessierung
    6
    zweite Recheneinheit, Konvertierung
    7
    Zerlegung in Graphem-Teilfolgen
    8
    phonetisierte Datenliste, phonetisierte Datensätze

Claims (8)

  1. Verfahren zur Phonetisierung von textenthaltenden Datensätzen (2), bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als phonetisierte Datensätze (8) gespeichert werden, wobei die Grapheme in einer Präprozessierung für die Phonetisierung aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden, dadurch gekennzeichnet, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten (5, 6) oder unterschiedlichen Teilen von Recheneinheiten (5, 6) durchgeführt wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die als Grapheme vorliegenden Datensätze (2) in Graphem-Teilpakete zerlegt werden, wobei jeweils ein Graphem-Teilpaket in einer Recheneinheit (5) präprozessiert und anschließend in einer anderen Recheneinheit (6) phonetisiert wird und beide Recheneinheiten (5, 6) dazu eingerichtet sind, unterschiedliche Graphem-Teilfolgen parallel zu verarbeiten.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Größe eines Teilpakets vorgegeben wird, insbesondere durch eine von der Recheneinheit (5) abhängige Konstante von Datenmenge der Graphem-Teilpakte zu dem Messaging Overhead, der bei der Kommunikation zwischen den beiden Recheneinheiten (5, 6) entsteht.
  4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass die Größe eines Paktes durch Anwendung definierter Regeln bestimmt wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Präprozessierung einen grammatikbasierten Parser umfasst.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Präprozessierung eine Konvertierung von durch das akustische Modell der Graphem-zu-Phonem-Konvertierung nicht unterstütze Zeichen in Graphem-Symbole des akustischen Modells umfasst.
  7. Einrichtung zur Phonetisierung von textenthaltenden Datensätzen (2) mit einer Datenschnittstelle (3) zum Eingeben der textenthaltenden Datensätzen (2) und mit einer Recheneinrichtung (4), welche zur Konvertierung der als Grapheme vorliegenden Datensätze in Phoneme und zur Präprozessierung der Grapheme eingerichtet ist, dadurch gekennzeichnet, dass die Recheneinrichtung (4) mindestens eine erste Recheneinheit (5) und eine zweite Recheneinheit (6) aufweist, wobei die erste und die zweite Recheneinheit (5, 6) zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 eingerichtet sind.
  8. Computerprogrammprodukt mit Programmcodemitteln, welche dazu geeignet sind, eine Recheneinrichtung (4) einer Einrichtung (1) zur Phonetisierung von textenthaltenden Datensätzen (2) mit mindestens zwei Recheneinheiten (5, 6) zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 einzurichten.
DE102012202391A 2012-02-16 2012-02-16 Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen Ceased DE102012202391A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE102012202391A DE102012202391A1 (de) 2012-02-16 2012-02-16 Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
PCT/EP2013/052650 WO2013120794A1 (de) 2012-02-16 2013-02-11 Verfahren und einrichtung zur phonetisierung von textenthaltenden datensätzen
CN201380008815.8A CN104115222B (zh) 2012-02-16 2013-02-11 用于将包含文字的数据组转为语音的方法和装置
EP13705421.9A EP2815395A1 (de) 2012-02-16 2013-02-11 Verfahren und einrichtung zur phonetisierung von textenthaltenden datensätzen
US14/378,896 US9436675B2 (en) 2012-02-16 2013-02-11 Method and device for phonetizing data sets containing text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102012202391A DE102012202391A1 (de) 2012-02-16 2012-02-16 Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen

Publications (1)

Publication Number Publication Date
DE102012202391A1 true DE102012202391A1 (de) 2013-08-22

Family

ID=47747578

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102012202391A Ceased DE102012202391A1 (de) 2012-02-16 2012-02-16 Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen

Country Status (5)

Country Link
US (1) US9436675B2 (de)
EP (1) EP2815395A1 (de)
CN (1) CN104115222B (de)
DE (1) DE102012202391A1 (de)
WO (1) WO2013120794A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013219828B4 (de) * 2013-09-30 2019-05-02 Continental Automotive Gmbh Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
US10002543B2 (en) * 2014-11-04 2018-06-19 Knotbird LLC System and methods for transforming language into interactive elements
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
DE69232112T2 (de) * 1991-11-12 2002-03-14 Fujitsu Ltd Vorrichtung zur Sprachsynthese
US6959279B1 (en) * 2002-03-26 2005-10-25 Winbond Electronics Corporation Text-to-speech conversion system on an integrated circuit
US20080228485A1 (en) * 2007-03-12 2008-09-18 Mongoose Ventures Limited Aural similarity measuring system for text
US20120010888A1 (en) * 2006-07-18 2012-01-12 Stephens Jr James H Method and System for Speech Synthesis and Advertising Service

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US538893A (en) * 1895-05-07 Bar or tack for boots or shoes
WO1994023423A1 (en) * 1993-03-26 1994-10-13 British Telecommunications Public Limited Company Text-to-waveform conversion
US5873061A (en) * 1995-05-03 1999-02-16 U.S. Philips Corporation Method for constructing a model of a new word for addition to a word model database of a speech recognition system
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
DE10042943C2 (de) * 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
EP1618556A1 (de) * 2003-04-30 2006-01-25 Loquendo S.p.A. Verfahren zur graphem-phonem zuordnung und system zur erzeugung eines regelsatzes
US8069045B2 (en) * 2004-02-26 2011-11-29 International Business Machines Corporation Hierarchical approach for the statistical vowelization of Arabic text
US20060031069A1 (en) * 2004-08-03 2006-02-09 Sony Corporation System and method for performing a grapheme-to-phoneme conversion
US7831549B2 (en) * 2004-09-17 2010-11-09 Nokia Corporation Optimization of text-based training set selection for language processing modules
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
JP2007264503A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声合成装置及びその方法
US7873517B2 (en) * 2006-11-09 2011-01-18 Volkswagen Of America, Inc. Motor vehicle with a speech interface
JP2008225254A (ja) 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
CN101312038B (zh) 2007-05-25 2012-01-04 纽昂斯通讯公司 用于合成语音的方法
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
WO2010046782A2 (en) * 2008-10-24 2010-04-29 App Tek Hybrid machine translation
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US8498857B2 (en) * 2009-05-19 2013-07-30 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
CN102280104B (zh) * 2010-06-11 2013-05-01 北大方正集团有限公司 一种基于智能标引的文件语音化处理方法和系统
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统
US9484045B2 (en) * 2012-09-07 2016-11-01 Nuance Communications, Inc. System and method for automatic prediction of speech suitability for statistical modeling
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
DE69232112T2 (de) * 1991-11-12 2002-03-14 Fujitsu Ltd Vorrichtung zur Sprachsynthese
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
US6959279B1 (en) * 2002-03-26 2005-10-25 Winbond Electronics Corporation Text-to-speech conversion system on an integrated circuit
US20120010888A1 (en) * 2006-07-18 2012-01-12 Stephens Jr James H Method and System for Speech Synthesis and Advertising Service
US20080228485A1 (en) * 2007-03-12 2008-09-18 Mongoose Ventures Limited Aural similarity measuring system for text

Also Published As

Publication number Publication date
EP2815395A1 (de) 2014-12-24
WO2013120794A1 (de) 2013-08-22
CN104115222B (zh) 2016-10-19
US9436675B2 (en) 2016-09-06
US20150302001A1 (en) 2015-10-22
CN104115222A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
JP6956337B2 (ja) 関連性の検出及びレビューのためのコンテンツの対話型表現
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
Schmidt EXMARaLDA and the FOLK tools-two toolsets for transcribing and annotating spoken language.
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
Das et al. A novel system for generating simple sentences from complex and compound sentences
DE102006034192A1 (de) Spracherkennungsverfahren, -system und -vorrichtung
DE102012202391A1 (de) Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE112018005844B4 (de) Verfahren, Programmprodukt, sowie Computersystem zum Fuzzy Matching von phonetischen Mustern bei der Verarbeitung von natürlicher Sprache
DE602004010804T2 (de) Sprachantwortsystem, Sprachantwortverfahren, Sprach-Server, Sprachdateiverarbeitungsverfahren, Programm und Aufzeichnungsmedium
EP0814457B1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
DE112014006591B4 (de) Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
DE60119643T2 (de) Homophonewahl in der Spracherkennung
DE102013219828B4 (de) Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
EP3665619B1 (de) Verfahren zum erzeugen einer sprachansage als rückmeldung zu einer handschriftlichen nutzereingabe sowie entsprechende bedienvorrichtung und kraftfahrzeug
DE102016125162B4 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten
Samlowski The syllable as a processing unit in speech production: evidence from frequency effects on coarticulation
DE102017103533A1 (de) Verfahren und Vorrichtung zur textbezogenen Vorschau von Inhalten von Audiodateien
JP2000029894A (ja) 主題文抽出方式
Niccum Sentiment Analysis Using Tensor2Tensor

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final