EP2815395A1 - Method and device for phonetising data sets containing text - Google Patents

Method and device for phonetising data sets containing text

Info

Publication number
EP2815395A1
EP2815395A1 EP13705421.9A EP13705421A EP2815395A1 EP 2815395 A1 EP2815395 A1 EP 2815395A1 EP 13705421 A EP13705421 A EP 13705421A EP 2815395 A1 EP2815395 A1 EP 2815395A1
Authority
EP
European Patent Office
Prior art keywords
graphemes
grapheme
arithmetic unit
preprocessing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP13705421.9A
Other languages
German (de)
French (fr)
Inventor
Jens Walther
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive GmbH
Original Assignee
Continental Automotive GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive GmbH filed Critical Continental Automotive GmbH
Publication of EP2815395A1 publication Critical patent/EP2815395A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the invention relates to a method and a device for phonetizing text-containing data records, in particular different contents, such.
  • a preferred field of application of the invention is in the field of motor vehicle control devices, in particular multimedia control units in motor vehicles, which serve for information, entertainment and / or communication in motor vehicles.
  • Such control units may in particular contain music playback and telephone functions.
  • the data sets present as graphemes are converted into phonemes, ie a sequence of individual phoneme symbols, and used as phonetized data sets, for example in a phonetized data list stored.
  • a phoneme is a sound representation that forms the smallest meaningful unit in a language, has a distinctive function.
  • phonemes is understood in the present text, in particular as a consequence of a plurality of individual phoneme symbols.
  • grapheme which is understood in the present text in particular as a consequence of individual grapheme symbols.
  • a grapheme represents the smallest significance in the graphical representation of a text. outgoing unit, and is often defined by the letters of a script.
  • the graphemes are prepared in a recuperzes tion for the actual phonation, in particular by the grapheme language-defined and / or user-defined modified before the conversion is performed in phonemes.
  • the phonetized data list for example in the form of the phonetized data sets, can then be used in a manner known per se, for example in the speech recognition of a voice-controlled user interface.
  • preprocessing has the background that the graphemes (and also the phonemes) are language-dependent, depending on the language used. Frequently, however, data records in particular contain entries of different languages which must be identified and adapted for phonetization. Accordingly, preprocessing can be achieved by recognizing foreign-language texts, but also by replacing abbreviations, omitting prefixes (such as "Mr.”, “Mrs.”, “Dr.”, the English article “the” or the like), expanding acronyms and / or Offering pronunciation variants that are selectable by the user.
  • Such preprocessing can at least partially override the most speech-related limitations of grapheme-to-phoneme conversion, which only supports a given number of digits and strings to be spelled, by using the speech-dependent acoustic speech used in the phonation Models unsupported characters of graphemes are replaced.
  • the preprocessing can also be very compute-intensive, depending on the effort involved, either long latencies or the performance of the preprocessing can be expected, for example by ignoring unsupported characters of the grapheme representation during phonation. Due to the scarcity of resources in the
  • preprocessing the known implementations of preprocessing are only conditionally adaptable to specific application requirements and in particular hard-coded, in particular with regard to the number of variants and the available substitutions or modifications.
  • the preprocessing of the graphemes and the conversion of the graphemes into phonemes are performed in parallel on different arithmetic units or parts of arithmetic units, in particular different processors or processor parts.
  • the different arithmetic units can be implemented in different computing devices or in a computing device as a dual or multi-arithmetic unit, in particular dual or multi-processor.
  • the parallel execution of the preprocessing of the graphemes and the conversion of the graphemes into phonemes can, in particular, In such a way that graphemes provided for phononization are preprocessed in a first step in a first arithmetic unit, transmitted to a second arithmetic unit and phonetized in the second arithmetic unit, converted into phonemes. During the phononization of the graphemes in the second arithmetic unit, graphemes provided subsequently for phononization can then be processed in the first arithmetic unit.
  • the data sets are usually in the form of graphemes, that is to say sequences of individual grapheme symbols (in particular letters), so that in each case a subsequence can be processed according to the capacity of the respective arithmetic unit, for example in the style of a FIFO buffer memory ( first-in-first-out).
  • a buffer may be provided between the first and the second arithmetic unit so as to be able to synchronize the arithmetic processes of both arithmetic units and to compensate for fluctuations in the arithmetic performance of the two arithmetic units by buffering the preprocessed graphemes in the short term.
  • a particularly advantageous use of the proposed method according to the invention results in a dynamic speech recognition in which the graphemes are generated only during the application of constantly changing text-containing data sets, in contrast to a use with a static database in which the phonemization of the graphemes is done once and the voice control then accesses the fixed phonemes.
  • the data sets present as graphemes can be decomposed into grapheme sub-pacts, which may also be referred to as packets of grapheme subsequences, one graphem subpacket each preconditioned in a first arithmetic unit siert and then phonetized in another second arithmetic unit, converted into phonemes, and wherein both arithmetic units are adapted to process different grapheme sub-packets in parallel, in particular at the same time.
  • the packet-wise distribution of the data to be processed allows a particularly effective use of the available processor resources, so that a temporally optimized implementation of the phonation with preprocessing and conversion is possible.
  • the size of a grapheme subpacket is specified, for example, matched to the available computing power of the arithmetic unit (that is, dependent on the platform). For example, a grapheme sub-packet with a maximum length of 50 entries (or graphem symbols) can be specified. It has been found that grapheme subpackets whose size is matched to the platform (arithmetic unit) can be preprocessed and converted particularly effectively, since in this case an optimal ratio of the amount of data to be processed to the messaging
  • rules may include, for example, the recognition of certain grapheme symbols, the blank or Represent delimiters, and / or include a content assessment, optionally combined with a maximum and possibly also a minimum predetermined length of the subsequences, ie a length limit or a length interval for the subsequences. Due to the maximum predetermined length, in particular the computing power of the arithmetic unit can be taken into account.
  • the minimally specified length ensures context-sensitive pre-processing and / or conversion, in which coherent graphemes can also be assessed and taken into account in terms of content.
  • the preprocessing according to the invention may comprise a grammar-based parser, which in particular comprises rules for the text modification and / or pronunciation variants, it being possible for different languages to be taken into account.
  • this grammatical parser is parameterizable, for example, by specifying rule-containing files.
  • Another aspect of the proposed preprocessing according to the invention is that it involves a conversion from the acoustic model of the grapheme-to-phoneme conversion (for example due to a missing one)
  • the invention also relates to a device for phonetizing text-containing data records, for example in or for use in a voice-controlled user interface, such as a multimedia control unit of a motor vehicle, in particular with a music control, a car telephone and / or a hands-free device, wherein a multimedia Control unit via a data storage, such as a database, with the text-containing data records has that can also be displayed in a graphical user interface if necessary.
  • the device is equipped with a data interface for inputting or reading in the text-containing data records, for example in the form of list entries, and has a computing device which is set up to convert the data records present as graphemes into phonemes and to the preceding preprocessing.
  • the computing device has at least one first arithmetic unit and one second arithmetic unit, wherein the first and the second arithmetic unit are set up to carry out the above-described method or parts thereof.
  • the invention also relates to a computer program with program product means which are suitable for setting up a computing device of a device for phonetizing text-containing data records with two arithmetic units, in particular as described above, for carrying out the method described above or parts thereof.
  • a computer program with program product means which are suitable for setting up a computing device of a device for phonetizing text-containing data records with two arithmetic units, in particular as described above, for carrying out the method described above or parts thereof.
  • the device 1 shows a particularly preferred embodiment of a device 1 for phononizing text-containing data records 2 contained in a data memory or a database.
  • the device 1 for phonetization can be integrated into a voice-controlled user interface, such as a multimedia control unit of a motor vehicle, and has a data interface 3 for inputting or reading in the text-containing data records 2.
  • a computing device 4 is provided in the device 1, which is set up to convert the textual data records 2 present as graphemes and to preprocess the graphemes before conversion into phonemes. This aspect of the computing device 4 is shown in FIG. 1 for the sake of clarity next to the device 1, although this computing device 4 is part of the device 1 and the user interface parts containing them.
  • This computing device 4 has a first arithmetic unit 5 and a second arithmetic unit 6, which are suitable according to the invention for the parallel, independent processing of data.
  • computing device 4 shown in FIG. 1 only needs to be described more precisely below. represents writing functions of the solution according to the invention and not all of the computing device 4 or in computing units 5, 6 of the computing device 4 running processes and processes reproduces.
  • the first arithmetic unit 5 is set up for preprocessing the graphemes and the second arithmetic unit 6 for converting the graphemes into phonemes, wherein the second arithmetic unit 6 may preferably also have a voice recognizer used by the voice-controlled user interface parts and stored phonetized data records, for example in form a phonetized data list.
  • Preprocessing can be understood.
  • the grapheme subsequence is fed to the first arithmetic unit 5, which takes over the preprocessing of the graphemes.
  • the graphemes of each grapheme subsequence can be modified in a language-defined and / or user-defined manner, for example by replacing abbreviations, recognizing foreign-language texts, omitting prefixes, expanding acronyms and / or offering language variants which can be selected by the user.
  • the preprocessing implemented in the first arithmetic unit 5 preferably comprises a grammar-based parser, which comprises rules for the text modification and / or pronunciation variants, it being possible for different languages to be taken into account.
  • characters not supported by the acoustic model of the grapheme-to-phoneme conversion are converted to grapheme symbols supported by the acoustic model.
  • a phonetized data list 8 is generated and stored in the arithmetic unit 4 or a memory device of the phonemeization device 1, so that a voice-controlled user interface phonetises a voice-controlled user interface Data list 8 can access.
  • the phonetized data list 8 thus represents the phonetized data sets.
  • the vehicle entertainment device has an interface for Bluetooth devices, USB data carriers, iPod devices or the like.
  • the pieces of music contained therein are read by the central unit of the vehicle entertainment device designated as the head unit, wherein meta-attributes of the pieces of music are stored in a database.
  • This database can be searched via a graphical interface and single or multiple titles can be played.
  • haptic selection of pieces of music there is also a voice-based operation of the vehicle entertainment device, where the selection of pieces of music (albums, artists) on their name should be made.
  • the meta-attributes of the pieces of music are not suitable for voice control, so that it is not or only unnaturally possible for the user of the system to also enter his selection.
  • One known approach to solving the problem is to compare the characteristics of the audio signal in a database hosted on the system, which provides the meta-attributes to the speech recognizer so that the user can easily select the titles.
  • the disadvantage of such a solution is that the database does not know the latest title and therefore has to be constantly updated.
  • licensing costs are due and a Bedded systems require significant memory, which would increase the fixed cost of such a product.
  • a device-internal database is filled by indexing the pieces of music and their Metaattribute.
  • the meta-attributes are sorted by category from the database of the vehicle entertainment device into the voice-controlled user interface parts of the vehicle
  • the computing unit 4 of the voice-controlled user interface sections reads the data packet by packet or breaks the data into individual packets of a predefined size, i. H. in grapheme subsequences or grapheme subpackets. A grapheme subpacket is given to the preprocessor (the first computing unit 5).
  • the first arithmetic unit 5 essentially consists of a parser module, which searches the data for specific patterns. These patterns are partly language dependent and therefore interchangeable depending on the selected language.
  • the first arithmetic unit 5 receives the grapheme from the database (primary grapheme) as well as the current category descriptor. 5.
  • the first arithmetic unit 5 then creates an alternative text in the preprocessing, for example, and corrects the primary grapheme. So is the example common suffix "feat. ⁇ Artist>"for the primary graphem expands to" featuring ⁇ Artist>".
  • the primary grapheme "feat. Often the attribute for title contains the index on the album as well as the artist and album name, and the primary grapheme is then cleaned up with the unnecessary parts, and an alternative is not created for this case.
  • the preprocessed grapheme subpackage is forwarded to the speech recognizer, which preferably resides on another second arithmetic unit 6.

Abstract

The invention relates to a method for phonetising data sets (2) containing text and to a device for carrying out said method. The data sets (2) which are in form of graphemes are converted into phonemes and are saved as phonetisied data sets (8) in said device. The graphemes are prepared in a pre-processor for phonetising, in particular by modifying in a speech-defined and/or user-defined manner. According to the invention, the pre-processing of the graphemes and the conversion of the graphemes into phonemes is carried out parallel to different calculation units (5, 6) or in different parts of calculation units (5, 6).

Description

Beschreibung description
Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen Method and device for phononizing text-containing data records
Die Erfindung betrifft ein Verfahren und eine Einrichtung zur Phonetisierung von textenthaltenden Datensätzen, insbesondere unterschiedlicher Inhalte, wie z. B. Musiktitel, Musikinterpreten, Musikalben oder Telefonbucheinträge, Kontaktnamen oder dergleichen, die in sprachgesteuerten Benutzerschnittstellen zur Steuerung bestimmter Abläufe benutzt werden, in denen der Benutzer diese Inhalte enthaltende Sprachbefehle an die Benutzerschnittstelle weitergibt. Ohne dass die Erfindung auf diesen bevorzugten Anwendungsfall beschränkt ist, liegt ein bevorzugtes Anwendungsgebiet der Erfindung im Bereich von Kraftfahrzeugsteuergeräten, insbesondere Multimedia-Steuereinheiten in Kraftfahrzeugen, die der Information, Unterhaltung und/oder Kommunikation in Kraftfahrzeugen dienen. Derartige Steuereinheiten können insbesondere Musikwiedergabe- und Telefonfunktionen enthalten. The invention relates to a method and a device for phonetizing text-containing data records, in particular different contents, such. Music titles, music interpreters, music albums or phonebook entries, contact names or the like, used in voice-operated user interfaces to control certain operations in which the user forwards the voice commands containing that content to the user interface. Without limiting the invention to this preferred application, a preferred field of application of the invention is in the field of motor vehicle control devices, in particular multimedia control units in motor vehicles, which serve for information, entertainment and / or communication in motor vehicles. Such control units may in particular contain music playback and telephone functions.
Bei dem erfindungsgemäß vorgeschlagenen Verfahren werden die als Grapheme, als Folge von einzelnen Graphem-Symbolen, insbesondere als Buchstabenfolge oder standardisierte Buchsta- benfolge, vorliegenden Datensätze in Phoneme, d. h. eine Folge einzelner Phonem-Symbole, konvertiert und als phonetisier- te Datensätze, beispielsweise in einer phonetisierten Datenliste, gespeichert. Entsprechend der üblichen Definition ist ein Phonem eine Lautdarstellung, die in einer Sprache die kleinste bedeutungsunterscheidende Einheit bildet, eine distinktive Funktion aufweist. Der Begriff "Phoneme" wird in dem vorliegenden Text, insbesondere als Folge mehrerer einzelner Phonem-Symbole verstanden. Entsprechendes gilt für den Begriff Grapheme, der in dem vorliegenden Text insbesondere als Folge einzelner Graphem-Symbole verstanden wird. Ähnlich einem Phonem stellt ein Graphem (Graphem-Symbol) die in der grafischen Darstellung eines Textes kleinste bedeutungsunter- scheidende Einheit dar, und ist häufig durch die Buchstaben einer Schrift definiert. In the method proposed according to the invention, the data sets present as graphemes, as a sequence of individual grapheme symbols, in particular as a letter sequence or standardized letter sequence, are converted into phonemes, ie a sequence of individual phoneme symbols, and used as phonetized data sets, for example in a phonetized data list stored. According to the usual definition, a phoneme is a sound representation that forms the smallest meaningful unit in a language, has a distinctive function. The term "phonemes" is understood in the present text, in particular as a consequence of a plurality of individual phoneme symbols. The same applies to the term grapheme, which is understood in the present text in particular as a consequence of individual grapheme symbols. Similar to a phoneme, a grapheme (grapheme symbol) represents the smallest significance in the graphical representation of a text. outgoing unit, and is often defined by the letters of a script.
Bei dem vorgeschlagenen Verfahren werden die Grapheme in einer Präprozes sierung für die eigentliche Phonetisierung aufbereitet, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden, bevor die Konvertierung in Phoneme durchgeführt wird. Die phonetisierte Datenliste, beispielsweise in Form der phonetisierten Datensätze, kann dann in an sich bekannter Weise beispielsweise bei der Spracherkennung einer sprachgesteuerten Benutzerschnittstelle genutzt werden. In the proposed method, the graphemes are prepared in a Präprozes tion for the actual phonation, in particular by the grapheme language-defined and / or user-defined modified before the conversion is performed in phonemes. The phonetized data list, for example in the form of the phonetized data sets, can then be used in a manner known per se, for example in the speech recognition of a voice-controlled user interface.
Die Präprozes sierung hat den Hintergrund, dass die Grapheme (und auch die Phoneme) sprachbezogen sind, von der jeweils verwendeten Sprache abhängen. Häufig finden sich gerade in Datensätzen jedoch Einträge unterschiedlicher Sprachen, die zur Phonetisierung gekennzeichnet und angepasst werden müssen. Entsprechend kann die Präprozessierung durch Erkennung fremdsprachiger Texte, aber auch durch Ersetzen von Abkürzungen, Weglassen von Präfixen (wie "Herr", "Frau", "Dr.", dem englischen Artikel "the" oder dergleichen), Expandieren von Akronymen und/oder Anbieten von Aussprachevarianten realisiert sein, die durch den Benutzer auswählbar sind. The preprocessing has the background that the graphemes (and also the phonemes) are language-dependent, depending on the language used. Frequently, however, data records in particular contain entries of different languages which must be identified and adapted for phonetization. Accordingly, preprocessing can be achieved by recognizing foreign-language texts, but also by replacing abbreviations, omitting prefixes (such as "Mr.", "Mrs.", "Dr.", the English article "the" or the like), expanding acronyms and / or Offering pronunciation variants that are selectable by the user.
Durch eine solche Präprozessierung können die meist sprachbezogenen Einschränkungen der Graphem-zu-Phonem-Konvertierung, bei der nur eine bestimmte vorgegebene Anzahl an Ziffern und zu buchstabierenden Zeichenfolgen unterstützt wird, zumindest teilweise aufgehoben werden, indem die von dem bei der Phonetisierung verwendeten, sprachabhängigen akustischen Modellen nicht unterstützten Zeichen der Grapheme ersetzt werden. Such preprocessing can at least partially override the most speech-related limitations of grapheme-to-phoneme conversion, which only supports a given number of digits and strings to be spelled, by using the speech-dependent acoustic speech used in the phonation Models unsupported characters of graphemes are replaced.
In bestehenden Systemen besteht bei der Präprozessierung je- doch das Problem, dass diese Verfahren den eigentlichen Gra- phem-zu-Phonem-Konvertierungen vorgeschaltet sind, die Zeit, die für die Präprozessierung benötigt wird, sich zur Gesamt- latenz für die Graphem-zu-Phonem-Konvertierung addiert. In existing systems, however, there is the problem with preprocessing that these methods precede the actual graph-to-phoneme conversions, the time, which is needed for preprocessing adds up to the total latency for grapheme to phoneme conversion.
Da die Präprozessierung je nach betriebenem Aufwand auch sehr rechenintensiv sein kann, ist entweder mit langen Latenzzeiten zu rechnen oder die Leistungsfähigkeit der Präprozessierung einzuschränken, beispielsweise indem bei der Phonetisie- rung nicht unterstützte Zeichen der Graphem-Darstellung ignoriert werden. Aufgrund der Ressourcenknappheit bei der Since the preprocessing can also be very compute-intensive, depending on the effort involved, either long latencies or the performance of the preprocessing can be expected, for example by ignoring unsupported characters of the grapheme representation during phonation. Due to the scarcity of resources in the
Präprozessierung sind die bekannten Implementierungen einer Präprozessierung auch nur bedingt an konkrete Anwendungsanforderungen anpassbar und insbesondere fest programmiert, insbesondere im Hinblick auf die Zahl der Varianten und der zur Verfügung stehenden Ersetzungen bzw. Modifikationen. Preprocessing, the known implementations of preprocessing are only conditionally adaptable to specific application requirements and in particular hard-coded, in particular with regard to the number of variants and the available substitutions or modifications.
Aufgabe der vorliegenden Erfindung ist es daher, eine Phone- tisierung vorzuschlagen, bei der der Zeitbedarf für die Präprozessierung und die anschließende Konvertierung der Grapheme in Phoneme reduziert wird. It is therefore an object of the present invention to propose a telephone system in which the time required for preprocessing and the subsequent conversion of the graphemes into phonemes is reduced.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruchs 1, eine Einrichtung mit den Merkmalen des Anspruchs 7 und ein Computerprogrammprodukt mit den Merkmalen des Anspruchs 8 gelöst. This object is achieved by a method having the features of claim 1, a device having the features of claim 7 and a computer program product having the features of claim 8.
Bei dem vorgeschlagenen Verfahren ist insbesondere vorgesehen, dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten oder Teilen von Recheneinheiten, insbesondere unterschiedlichen Prozessoren oder Prozessorteilen, durchgeführt werden. Die unterschiedlichen Recheneinheiten können in verschiedenen Recheneinrichtungen oder in einer Recheneinrichtung als Dual- oder Multi-Recheneinheit, insbesondere Dual- oder Multi-Prozessor, verwirklicht sein. In the proposed method, it is provided in particular that the preprocessing of the graphemes and the conversion of the graphemes into phonemes are performed in parallel on different arithmetic units or parts of arithmetic units, in particular different processors or processor parts. The different arithmetic units can be implemented in different computing devices or in a computing device as a dual or multi-arithmetic unit, in particular dual or multi-processor.
Das parallele Durchführen der Präprozessierung der Grapheme und der Konvertierung der Grapheme in Phoneme kann insbeson- dere derart erfolgen, dass zur Phonetisierung vorgesehenen Grapheme in einem ersten Schritt in einer ersten Recheneinheit präprozessiert, an eine zweiten Recheneinheit übertragen und in der zweiten Recheneinheit phonetisiert, in Phoneme konvertiert, werden. Während der Phonetisierung der Grapheme in der zweiten Recheneinheit können dann nachfolgend zur Phonetisierung vorgesehene Grapheme in der ersten Recheneinheit prozessiert werden. The parallel execution of the preprocessing of the graphemes and the conversion of the graphemes into phonemes can, in particular, In such a way that graphemes provided for phononization are preprocessed in a first step in a first arithmetic unit, transmitted to a second arithmetic unit and phonetized in the second arithmetic unit, converted into phonemes. During the phononization of the graphemes in the second arithmetic unit, graphemes provided subsequently for phononization can then be processed in the first arithmetic unit.
Wie bereits erwähnt, liegen die Datensätze meist als Grapheme, also als Folgen einzelner Graphem-Symbole (insbesondere Buchstaben), vor, so dass nach Kapazität der jeweiligen Recheneinheiten in jeder Recheneinheit jeweils eine Teilfolge verarbeitet werden kann, beispielsweise im Stile eines FIFO- Pufferspeichers ( first-in-first-out ) . Gegebenenfalls kann erfindungsgemäß zwischen der ersten und der zweiten Recheneinheit ein Zwischenspeicher vorgesehen sein, um die Rechenprozesse beider Recheneinheiten zeitlich aufeinander abzustimmen und Schwankungen in der Rechenleistung der beiden Recheneinheiten durch Zwischenspeichern der präprozessierten Grapheme kurzfristig ausgleichen zu können. As already mentioned, the data sets are usually in the form of graphemes, that is to say sequences of individual grapheme symbols (in particular letters), so that in each case a subsequence can be processed according to the capacity of the respective arithmetic unit, for example in the style of a FIFO buffer memory ( first-in-first-out). Optionally, according to the invention, a buffer may be provided between the first and the second arithmetic unit so as to be able to synchronize the arithmetic processes of both arithmetic units and to compensate for fluctuations in the arithmetic performance of the two arithmetic units by buffering the preprocessed graphemes in the short term.
Eine besonders vorteilhafte Verwendung des erfindungsgemäß vorgeschlagenen Verfahrens ergibt sich bei einer dynamischen Spracherkennung, bei der die Grapheme erst während der Anwendung aus sich ständig ändernden textenthaltenden Datensätzen erzeugt werden, im Gegensatz zu einer Verwendung mit einer statischen Datenbank, bei der die Phonetisierung der Grapheme einmal erfolgt und die Sprachsteuerung dann auf die fest gespeicherten Phoneme zugreift. A particularly advantageous use of the proposed method according to the invention results in a dynamic speech recognition in which the graphemes are generated only during the application of constantly changing text-containing data sets, in contrast to a use with a static database in which the phonemization of the graphemes is done once and the voice control then accesses the fixed phonemes.
Gemäß einer besonders bevorzugten Ausführungsform des vorgeschlagenen Verfahrens können die als Grapheme, d. h. als Folge von einzelnen Graphem-Symbolen, vorliegenden Datensätze in Graphem-Teilpakte, die auch als Pakete von Graphem-Teilfolgen bezeichnet werden können, zerlegt werden, wobei jeweils ein Graphem-Teilpaket in einer ersten Recheneinheit präprozes- siert und anschließend in einer anderen zweiten Recheneinheit phonetisiert, in Phoneme konvertiert, wird und wobei beide Recheneinheiten dazu eingerichtet sind, unterschiedliche Graphem-Teilpakete parallel, insbesondere zeitgleich, zu verarbeiten. Die paketweise Aufteilung der zu verarbeitenden Daten ermöglicht eine besonders effektive Ausnutzung der zur Verfügung stehenden Prozessorressourcen, so dass eine zeitlich optimierte Durchführung der Phonetisierung mit Präprozessierung und Konvertierung möglich wird. According to a particularly preferred embodiment of the proposed method, the data sets present as graphemes, ie as a sequence of individual grapheme symbols, can be decomposed into grapheme sub-pacts, which may also be referred to as packets of grapheme subsequences, one graphem subpacket each preconditioned in a first arithmetic unit siert and then phonetized in another second arithmetic unit, converted into phonemes, and wherein both arithmetic units are adapted to process different grapheme sub-packets in parallel, in particular at the same time. The packet-wise distribution of the data to be processed allows a particularly effective use of the available processor resources, so that a temporally optimized implementation of the phonation with preprocessing and conversion is possible.
Hierbei ist es erfindungsgemäß besonders vorteilhaft, wenn die Größe eines Graphem-Teilpaketes vorgegeben wird, beispielsweise abgestimmt auf die zur Verfügung stehende Rechenleistung der Recheneinheit (d. h. pattformabhängig) . Beispielsweise kann ein Graphem-Teilpaket mit einer maximalen Länge von 50 Einträgen (respektive Graphem-Symbolen) vorgegeben werden. Es hat sich herausgestellt, dass Graphem-Teilpakete, deren Größe auf die Plattform (Recheneinheit) abgestimmt ist, besonders effektiv präprozessiert und konvertiert werden können, da sich in diesem Fall ein optimales Verhältnis von zu verarbeitender Datenmenge zu dem Messaging In this case, according to the invention, it is particularly advantageous if the size of a grapheme subpacket is specified, for example, matched to the available computing power of the arithmetic unit (that is, dependent on the platform). For example, a grapheme sub-packet with a maximum length of 50 entries (or graphem symbols) can be specified. It has been found that grapheme subpackets whose size is matched to the platform (arithmetic unit) can be preprocessed and converted particularly effectively, since in this case an optimal ratio of the amount of data to be processed to the messaging
Overhead ergibt. Der Messaging Overhead entsteht, weil die Datenpakete (Graphem-Teilpakete) zwischen den verschiedenen Recheneinheiten bzw. Teilen von Recheneinheiten ausgetauscht und der Austausch aufeinander abgestimmt erfolgen muss. Da beide Recheneinheiten die Daten Zwischenspeichern müssen, muss ferner die jeweils verarbeitete Datenmenge eines Graphem-Teilpakets begrenzt werden, um in jeder Recheneinheit eine effektive und schnelle Verarbeitung zu ermöglichen. Overhead results. The messaging overhead arises because the data packets (graphem subpackets) have to be exchanged between the various arithmetic units or parts of arithmetic units and the exchange must be coordinated with one another. Since both arithmetic units must buffer the data, furthermore, the respectively processed data quantity of a grapheme subpacket must be limited in order to enable effective and fast processing in each arithmetic unit.
In diesem Zusammenhang kann es erfindungsgemäß auch besonders vorteilhaft sein, die Größe eines Pakets durch Anwendung definierter Regeln, insbesondere vor oder eingangs der Präprozessierung, zu bestimmen, um den inhaltlichen Kontext einzelner Graphem-Symbole bei der Präprozessierung und Konvertierung zu berücksichtigen. Diese Regeln können beispielsweise das Erkennen bestimmter Graphem-Symbole, die Leer- oder Trennzeichen repräsentieren, und/oder eine inhaltliche Bewertung beinhalten, gegebenenfalls kombiniert mit einer maximal und gegebenenfalls auch einer minimal vorgegebenen Länge der Teilfolgen, d. h. einer Längenbegrenzung oder einem Längenintervall für die Teilfolgen. Durch die maximal vorgegebene Länge kann insbesondere die Rechenleistung der Recheneinheit berücksichtigt werden. Die minimal vorgegebene Länge sichert eine kontextsensitive Präprozessierung und/oder Konvertierung, bei der zusammenhängende Grapheme auch inhaltlich bewertet und berücksichtigt werden können. In this context, it can also be particularly advantageous according to the invention to determine the size of a packet by applying defined rules, in particular before or at the beginning of the preprocessing, in order to take into account the content context of individual grapheme symbols in the preprocessing and conversion. These rules may include, for example, the recognition of certain grapheme symbols, the blank or Represent delimiters, and / or include a content assessment, optionally combined with a maximum and possibly also a minimum predetermined length of the subsequences, ie a length limit or a length interval for the subsequences. Due to the maximum predetermined length, in particular the computing power of the arithmetic unit can be taken into account. The minimally specified length ensures context-sensitive pre-processing and / or conversion, in which coherent graphemes can also be assessed and taken into account in terms of content.
In einer besonderen Ausführungsform des vorgeschlagenen Verfahrens kann die Präprozessierung erfindungsgemäß einen grammatikbasierten Parser umfassen, welcher insbesondere Regeln für die Textmodifikation und/oder Aussprachevarianten um- fasst, wobei gegebenenfalls unterschiedliche Sprachen berücksichtigt werden können. Besonders bevorzugt ist dieser grammatikbasierter Parser beispielsweise durch Vorgabe von regelenthaltenden Dateien parametrisierbar . Dies hat zur Folge, dass die Regeln für das Pattern-Matching und/oder die Verknüpfung von Regeln erfindungsgemäß leicht editierbar, erweiterbar und austauschbar sind. Hierfür ist ein Rückgriff auf bestehende Softwaremodule möglich, beispielsweise die GNU- Parser-generatoren Flex und Bison, deren Anwendung insbesondere für dynamische Datenbanken erst durch die erfindungsgemäß vorgeschlagene parallele Prozessierung der Präprozessierung und Konvertierung der einzelnen Graphem-Teilfolgen möglich ist . In a particular embodiment of the proposed method, the preprocessing according to the invention may comprise a grammar-based parser, which in particular comprises rules for the text modification and / or pronunciation variants, it being possible for different languages to be taken into account. Particularly preferably, this grammatical parser is parameterizable, for example, by specifying rule-containing files. This has the consequence that the rules for the pattern matching and / or the linking of rules according to the invention are easily editable, expandable and interchangeable. For this purpose, a recourse to existing software modules is possible, for example the GNU parser generators Flex and Bison, the application of which is possible only for dynamic databases only by the inventively proposed parallel processing of preprocessing and conversion of the individual grapheme subsequences.
Ein weiterer, erfindungsgemäßer Aspekt der vorgeschlagenen Präprozessierung liegt darin, dass diese eine Konvertierung von durch das akustische Modell der Graphem-zu-Phonem- Konvertierung (beispielsweise aufgrund einer fehlenden Another aspect of the proposed preprocessing according to the invention is that it involves a conversion from the acoustic model of the grapheme-to-phoneme conversion (for example due to a missing one)
Sprachunterstützung) nicht unterstützter Zeichen (beispielsweise einer anderen Sprache) in durch das akustische Modell unterstützte Graphem-Symbole, insbesondere in lateinische Basiszeichen bzw. Buchstaben, umfassen kann. Hierdurch lässt sich eine flexible Sprachunterstützung für Datenbanken unterschiedlichster Inhalte erreichen, die besonders bevorzugt auch entsprechend dem vorgenannten Aspekt parametrierbar und/oder anpassbar ist, so dass die Präprozessierung, beispielsweise im Rahmen eines Firmware-Updates, automatisch an- gepasst werden kann, wenn sich vorgesehene Dateninhalte und damit die textenthaltenden Datensätze, welche zur Phonetisie- rung vorgesehen sind, ändern. Language support) of unsupported characters (e.g., another language) in grapheme symbols supported by the acoustic model, particularly latin baselines or characters. This leaves flexible language support for databases of very different contents can be achieved, which particularly preferably can also be parameterized and / or adapted according to the aforementioned aspect, so that the preprocessing can be adapted automatically, for example as part of a firmware update, if provided data contents and so that the text-containing data records intended for phonetization change.
Die Erfindung betrifft auch eine Einrichtung zur Phonetisie- rung von textenthaltenden Datensätzen, beispielsweise in einer oder zur Verwendung in einer sprachgesteuerten Benutzerschnittstelle, wie einer Multimedia-Steuereinheit eines Kraftfahrzeugs, insbesondere mit einer Musiksteuerung, einem Autotelefon- und/oder einer Freisprecheinrichtung, wobei ein Multimedia-Steuereinheit über einen Datenspeicher, beispielsweise eine Datenbank, mit den textenthaltenden Datensätzen verfügt, die gegebenenfalls auch in einer grafischen Benutzerschnittstelle darstellbar sind. Die Einrichtung ist mit einer Datenschnittstelle zum Eingeben bzw. Einlesen der textenthaltenden Datensätze, beispielsweise in Form von Listeneinträgen, ausgestattet und weist einer Recheneinrichtung auf, welche zur Konvertierung der als Grapheme vorliegenden Datensätze in Phoneme und zur vorausgehenden Präprozessierung eingerichtet ist. Erfindungsgemäß weist die Recheneinrichtung mindestens eine erste Recheneinheit und eine zweite Recheneinheit auf, wobei die erste und die zweite Recheneinheit zur Durchführung des vorbeschriebenen Verfahrens oder Teilen hiervon eingerichtet sind. The invention also relates to a device for phonetizing text-containing data records, for example in or for use in a voice-controlled user interface, such as a multimedia control unit of a motor vehicle, in particular with a music control, a car telephone and / or a hands-free device, wherein a multimedia Control unit via a data storage, such as a database, with the text-containing data records has that can also be displayed in a graphical user interface if necessary. The device is equipped with a data interface for inputting or reading in the text-containing data records, for example in the form of list entries, and has a computing device which is set up to convert the data records present as graphemes into phonemes and to the preceding preprocessing. According to the invention, the computing device has at least one first arithmetic unit and one second arithmetic unit, wherein the first and the second arithmetic unit are set up to carry out the above-described method or parts thereof.
Entsprechend betrifft die Erfindung auch ein Computerprogramm mit Programmproduktmitteln, welche dazu geeignet sind, eine Recheneinrichtung einer Einrichtung zur Phonetisierung von textenthaltenden Datensätzen mit zwei Recheneinheiten, insbesondere wie zuvor beschrieben, zur Durchführung des zuvor beschriebenen Verfahrens oder Teilen hiervon einzurichten. Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich auch aus der nachfolgenden Beschreibung eines Ausführungsbeispiels und der Zeichnungen. Dabei bilden alle beschriebenen und/oder bildlich darge- stellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der vorliegenden Erfindung, auch unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbezü- gen . Die einzige Fig. 1 zeigt schematisch eine Ausführungsform der vorgeschlagenen Einrichtung mit dem Ablauf des Verfahrens zur Phonetisierung von textenthaltenden Datensätzen 2. Accordingly, the invention also relates to a computer program with program product means which are suitable for setting up a computing device of a device for phonetizing text-containing data records with two arithmetic units, in particular as described above, for carrying out the method described above or parts thereof. Further advantages, features and possible applications of the present invention will become apparent from the following description of an embodiment and the drawings. All of the described and / or illustrated features alone or in any combination form the subject matter of the present invention, also independent of their combination in the claims or their back references. The only FIG. 1 schematically shows an embodiment of the proposed device with the procedure of the method for phononizing text-containing data records 2.
Fig. 1 zeigt eine besonders bevorzugte Ausführungsform einer Einrichtung 1 zur Phonetisierung von textenthaltenden Datensätzen 2, die in einem Datenspeicher oder einer Datenbank enthalten sind. Die Einrichtung 1 zur Phonetisierung kann in eine sprachgesteuerten Benutzerschnittstelle, wie einer Multimedia-Steuereinheit eines Kraftfahrzeugs, integriert sein, und weist eine Datenschnittstelle 3 zur Eingabe oder zum Einlesen der textenthaltenden Datensätze 2 auf. Ferner ist in der Einrichtung 1 eine Recheneinrichtung 4 vorgesehen, welche zur Konvertierung der als Grapheme vorliegenden, textenthaltenden Datensätze 2 und zur Präprozessierung der Grapheme vor der Konvertierung in Phoneme eingerichtet ist. Dieser Aspekt der Recheneinrichtung 4 ist in Fig. 1 der Deutlichkeit halber neben der Einrichtung 1 dargestellt, obwohl diese Recheneinrichtung 4 Teil der Einrichtung 1 bzw. der diese enthaltenden Benutzerschnittsteile ist. 1 shows a particularly preferred embodiment of a device 1 for phononizing text-containing data records 2 contained in a data memory or a database. The device 1 for phonetization can be integrated into a voice-controlled user interface, such as a multimedia control unit of a motor vehicle, and has a data interface 3 for inputting or reading in the text-containing data records 2. Furthermore, a computing device 4 is provided in the device 1, which is set up to convert the textual data records 2 present as graphemes and to preprocess the graphemes before conversion into phonemes. This aspect of the computing device 4 is shown in FIG. 1 for the sake of clarity next to the device 1, although this computing device 4 is part of the device 1 and the user interface parts containing them.
Diese Recheneinrichtung 4 weist eine erste Recheneinheit 5 und eine zweite Recheneinheit 6 auf, die erfindungsgemäß zur parallelen, voneinander unabhängigen Abarbeitung von Daten geeignet sind. This computing device 4 has a first arithmetic unit 5 and a second arithmetic unit 6, which are suitable according to the invention for the parallel, independent processing of data.
Es wird darauf hingewiesen, dass die in Fig. 1 dargestellte Recheneinrichtung 4 nur die nachfolgend noch genauer zu be- schreibenden Funktionen der erfindungsgemäßen Lösung darstellt und nicht sämtlichen auf der Recheneinrichtung 4 bzw. in Recheneinheiten 5, 6 der Recheneinrichtung 4 ablaufenden Prozesse und Verfahren wiedergibt. It should be noted that the computing device 4 shown in FIG. 1 only needs to be described more precisely below. represents writing functions of the solution according to the invention and not all of the computing device 4 or in computing units 5, 6 of the computing device 4 running processes and processes reproduces.
Die erste Recheneinheit 5 ist zur Präprozes sierung der Grapheme und die zweite Recheneinheit 6 zur Konvertierung der Grapheme in Phoneme eingerichtet, wobei die zweite Recheneinheit 6 vorzugsweise auch einen Spracherkenner aufweisen kann, der durch die sprachgesteuerte Benutzerschnittsteile verwendet wird und auf gespeicherte phonetisierte Datensätze beispielsweise in Form einer phonetisierten Datenliste zugreift. The first arithmetic unit 5 is set up for preprocessing the graphemes and the second arithmetic unit 6 for converting the graphemes into phonemes, wherein the second arithmetic unit 6 may preferably also have a voice recognizer used by the voice-controlled user interface parts and stored phonetized data records, for example in form a phonetized data list.
Das erfindungsgemäß vorgeschlagene Verfahren zur Phonetisie- rung erfolgt dabei wie nachfolgend beschrieben: The method of phononization proposed according to the invention is carried out as described below:
Nach Einlesen der textenthaltenden Datensätze 2 über die Datenschnittstelle 3 in die Einrichtung 1 zur Phonetisierung werden die Grapheme, d. h. die Folge der einzelnen Graphem- Symbole, zunächst in Graphem-Teilfolgen einer vorgegebenen Länge von beispielsweise 50 Graphem-Symbolen bzw. Einheiten zerlegt. Dies ist durch den Pfeil 7 dargestellt, der in Fig. 1 außerhalb der Recheneinrichtung 4 dargestellt ist, obwohl auch der Prozess der Zerlegung 7 in einer gegebenenfalls auch zusätzlichen Recheneinheit der Recheneinrichtung 4 stattfindet und beispielsweise als erster Prozessschritt einer After reading the text-containing data records 2 via the data interface 3 in the device 1 for phonetization grapheme, d. H. the sequence of individual grapheme symbols, first broken down into graphem subsequences of a predetermined length of, for example, 50 grapheme symbols or units. This is illustrated by the arrow 7, which is shown in FIG. 1 outside the computing device 4, although the process of decomposition 7 takes place in an optionally also additional computing unit of the computing device 4 and, for example, as a first process step
Präprozessierung aufgefasst werden kann. Preprocessing can be understood.
Anschließend wird die Graphem-Teilfolge der ersten Rechenein- heit 5 zugeleitet, welche die Präprozessierung der Grapheme übernimmt. Dabei können die Grapheme jeder Graphem-Teilfolge sprachdefiniert und/oder benutzerdefiniert modifiziert werden, beispielsweise durch Ersetzung von Abkürzungen, Erkennen fremdsprachlicher Texte, Weglassen von Präfixen, Expandieren von Akronymen und/oder Anbieten von Sprachvarianten, die durch den Benutzer auswählbar sind. Die in der ersten Recheneinheit 5 implementierte Präprozes- sierung umfasst vorzugsweise einen grammatikbasierten Parser, welcher Regeln für die Textmodifikation und/oder Aussprachevarianten umfasst, wobei gegebenenfalls unterschiedliche Sprachen berücksichtigt werden können. Außerdem werden in der in der ersten Recheneinheit 5 implementierten Präprozessie- rung von durch das akustische Modell der Graphem-zu-Phonem- Konvertierung nicht unterstützte Zeichen in durch das akustische Modell unterstütze Graphem-Symbole konvertiert. Subsequently, the grapheme subsequence is fed to the first arithmetic unit 5, which takes over the preprocessing of the graphemes. The graphemes of each grapheme subsequence can be modified in a language-defined and / or user-defined manner, for example by replacing abbreviations, recognizing foreign-language texts, omitting prefixes, expanding acronyms and / or offering language variants which can be selected by the user. The preprocessing implemented in the first arithmetic unit 5 preferably comprises a grammar-based parser, which comprises rules for the text modification and / or pronunciation variants, it being possible for different languages to be taken into account. In addition, in the preprocessing implemented in the first arithmetic unit 5, characters not supported by the acoustic model of the grapheme-to-phoneme conversion are converted to grapheme symbols supported by the acoustic model.
Nach der Präprozes sierung in der ersten Recheneinheit 5 wird die (präprozessierte) Graphem-Teilfolge der zweiten Recheneinheit 6 zugeführt, in welcher die eigentliche Graphem-zuPhonem-Konvertierung stattfindet. Dieses Verfahren ist allge- mein bekannt und muss daher an dieser Stelle nicht näher beschrieben werden. After Präprozes sation in the first arithmetic unit 5, the (pre-processed) grapheme subsequence of the second arithmetic unit 6 is supplied, in which the actual grapheme-to-phoneme conversion takes place. This procedure is generally known and therefore need not be described in detail here.
Als Ergebnis der Graphem-zu-Phonem-Konvertierung in der zweiten Recheneinheit 6 wird eine phonetisierte Datenliste 8 er- zeugt und in der Recheneinrichtung 4 bzw. einer Speichereinrichtung der Einrichtung 1 zur Phonetisierung gespeichert, so dass eine sprachgesteuerte Benutzerschnittstelle eine sprachgesteuerte Benutzerschnittsteile auf diese phonetisierte Datenliste 8 zugreifen kann. Die phonetisierte Datenliste 8 stellt also die phonetisierten Datenätze dar. As a result of the grapheme-to-phoneme conversion in the second arithmetic unit 6, a phonetized data list 8 is generated and stored in the arithmetic unit 4 or a memory device of the phonemeization device 1, so that a voice-controlled user interface phonetises a voice-controlled user interface Data list 8 can access. The phonetized data list 8 thus represents the phonetized data sets.
Durch das parallele Prozessieren der Präprozessierung und der Konvertierung in verschiedenen unabhängigen Recheneinheiten addiert sich somit nur die Wartezeit für ein erstes Paket auf die Gesamtlatenz für die Phonetisierung der textenthaltenden Datensätze, auch wenn eine aufwendige Präprozessierung durchgeführt wird, die neben einer Ersetzung von Akronymen und dergleichen auch eine sprachabhängige Konvertierung der von dem akustischen Modell der Phonetisierung nicht unterstütze Zeichen anderer Sprachen in lateinische Basiszeichen umfassen kann. Durch die parallele Prozessierung ist es auch möglich, eine umfassende Präprozessierung vorzunehmen und diese para- metrierbar einzustellen, so dass die Präprozessierungsregeln einfach in das System einsteuerbar sind. Außerdem sind diese Regeln gut dokumentiert und einfach verständlich zu ändern. Ferner erfolgt erfindungsgemäß eine effiziente Ausnutzung der Prozessorressourcen bei der Phonetisierung, so dass trotz einer aufwendigen Präprozessierung die Wartezeiten für das zur Verfügung stellen der phonetisierten Datenliste, die zur Sprachsteuerung genutzt wird, nur unmerklich ansteigt . Due to the parallel processing of the preprocessing and the conversion in different independent arithmetic units, only the waiting time for a first packet is added to the total latency for the phonation of the text-containing data sets, even if a complex preprocessing is carried out, in addition to a substitution of acronyms and the like may include a language-dependent conversion of the characters of other languages not supported by the acoustic model of phonation into Latin base characters. Due to the parallel processing, it is also possible to carry out a comprehensive preprocessing and can be set so that the pre-processing rules can easily be set into the system. Moreover, these rules are well documented and easy to change. Furthermore, according to the invention, an efficient utilization of the processor resources during the phonation is carried out, so that, despite elaborate preprocessing, the waiting times for making available the phonetized data list used for voice control increase only imperceptibly.
Nachfolgend wird noch ein konkretes Ausführungsbeispiel beschrieben, bei dem das erfindungsgemäße Verfahren in einem Fahrzeug-Entertainmentgerät zum Einsatz kommt. Das Fahrzeug- Entertainmentgerät weist eine Schnittstelle für Bluetooth- Geräte, USB-Datenträger, iPod-Geräte oder dergleichen auf.A concrete embodiment will be described below, in which the inventive method is used in a vehicle entertainment device. The vehicle entertainment device has an interface for Bluetooth devices, USB data carriers, iPod devices or the like.
Die dort enthaltenen Musikstücke werden von der als Head Unit bezeichneten Zentraleinheit des Fahrzeug-Entertainmentgeräts gelesen, wobei Metaattribute der Musikstücke in einer Datenbank abgelegt werden. Diese Datenbank kann über eine graphi- sehe Schnittstelle durchsucht und einzelne oder mehrere Titel können abgespielt werden. Neben der haptischen Auswahl von Musikstücken gibt es auch eine sprachbasierte Bedienung des Fahrzeug-Entertainmentgeräts, wobei die Auswahl der Musikstücke (Alben, Interpreten) über deren Namen erfolgen soll. The pieces of music contained therein are read by the central unit of the vehicle entertainment device designated as the head unit, wherein meta-attributes of the pieces of music are stored in a database. This database can be searched via a graphical interface and single or multiple titles can be played. In addition to the haptic selection of pieces of music, there is also a voice-based operation of the vehicle entertainment device, where the selection of pieces of music (albums, artists) on their name should be made.
Oft sind die Metaattribute der Musikstücke nicht für die Sprachbedienung geeignet, so dass es dem Benutzer des Systems nicht oder nur auf unnatürliche Weise möglich ist, seine Auswahl auch einzugeben. Ein bekannter Ansatz zur Lösung des Problems besteht im Vergleich der Charakteristika des Audiosignals in einer auf dem System aufgespielten Datenbank, die die Metaattribute so dem Spracherkenner zur Verfügung stellt, dass der Benutzer die Titel einfach anwählen kann. Nachteil einer solchen Lösung ist, dass die Datenbank nicht die neues- ten Titel kennt, und daher ständig aktualisiert werden muss. Zudem werden Lizenzkosten fällig und es entsteht ein für Em- bedded Systeme signifikanter Speicherbedarf, der die Fixkosten eines solchen Produkts erhöhen würde. Often, the meta-attributes of the pieces of music are not suitable for voice control, so that it is not or only unnaturally possible for the user of the system to also enter his selection. One known approach to solving the problem is to compare the characteristics of the audio signal in a database hosted on the system, which provides the meta-attributes to the speech recognizer so that the user can easily select the titles. The disadvantage of such a solution is that the database does not know the latest title and therefore has to be constantly updated. In addition, licensing costs are due and a Bedded systems require significant memory, which would increase the fixed cost of such a product.
Stattdessen wird eine erfindungsgemäße Präprozes sierung ange- wendet, die insbesondere die folgenden Verfahrensschritte aufweist : Instead, a Präprozes invention tion is applied, which has in particular the following steps:
1. Nachdem das Fahrzeug-Entertainmentgerät ein angestecktes USB-Gerät oder dergleichen erkannt hat, wird eine gerä- teinterne Datenbank durch Indizierung der Musikstücke und ihrer Metaattribute befüllt. 1. After the vehicle entertainment device has detected an infected USB device or the like, a device-internal database is filled by indexing the pieces of music and their Metaattribute.
2. Die Metaattribute werden nach Kategorien sortiert aus der Datenbank des Fahrzeug-Entertainmentgeräts in die sprachgensteuerte Benutzerschnittsteile des Fahrzeug-2. The meta-attributes are sorted by category from the database of the vehicle entertainment device into the voice-controlled user interface parts of the vehicle
Entertainmentgeräts gelesen. Entertainment device read.
3. Die beispielsweise durch geeignet eingerichtete Recheneinheit 4 der sprachgesteuerten Benutzerschnittsteile als Einrichtung 1 zum Phonetisieren liest die Daten paketweise bzw. zerlegt die Daten in einzelne Pakete einer vordefinierten Größe, d. h. in Graphem-Teilfolgen bzw. Graphem-Teilpakete. Ein Graphem-Teilpaket wird an den Präprozessor (die erste Recheinheit 5) gegeben. 3. The computing unit 4 of the voice-controlled user interface sections, for example, which is suitably set up as the phonemeising device 1, reads the data packet by packet or breaks the data into individual packets of a predefined size, i. H. in grapheme subsequences or grapheme subpackets. A grapheme subpacket is given to the preprocessor (the first computing unit 5).
4. Die erste Recheneinheit 5 (Präprozessor) besteht im Wesentlichen aus einem Parsermodul, das die Daten nach bestimmten Mustern durchsucht. Diese Muster sind teilweise sprachabhängig und sind daher je nach ausgewählter Sprache austauschbar. Als Eingabe erhält die erste Recheneinheit 5, d. h. der Präprozessor, das Graphem aus der Datenbank (primäres Graphem) sowie den aktuellen Katego- riebezeichner . 5. Die erste Recheneinheit 5 legt dann bei der Präprozes- sierung beispielsweise einen Alternativtext an und korrigiert das primäre Graphem. So wird beispielsweise das häufig anzutreffende Suffix „feat. <Artist>" für das primäre Graphem expandiert zu „featuring <Artist>". In der Alternative wird das primäre Graphem „feat. <Ar- tist>" entfernt. Oft enthält das Attribut für Titel, den Index auf dem Album sowie den Künstler und Albumnamen. Das primäre Graphem wird dann um die unnötigen Teile bereinigt. Eine Alternative wird für diesen Fall nicht erstellt. 4. The first arithmetic unit 5 (preprocessor) essentially consists of a parser module, which searches the data for specific patterns. These patterns are partly language dependent and therefore interchangeable depending on the selected language. As input, the first arithmetic unit 5, ie the preprocessor, receives the grapheme from the database (primary grapheme) as well as the current category descriptor. 5. The first arithmetic unit 5 then creates an alternative text in the preprocessing, for example, and corrects the primary grapheme. So is the example common suffix "feat. <Artist>"for the primary graphem expands to" featuring <Artist>". In the alternative, the primary grapheme "feat. Often the attribute for title contains the index on the album as well as the artist and album name, and the primary grapheme is then cleaned up with the unnecessary parts, and an alternative is not created for this case.
6. Das präprozessierte Graphem-Teilpaket wird an den Spracherkenner weitergereicht, der vorzugsweise auf einer anderen zweiten Recheneinheit 6 residiert. 6. The preprocessed grapheme subpackage is forwarded to the speech recognizer, which preferably resides on another second arithmetic unit 6.
7. Parallel zu der aufwändigen Phonetisierung (g2p) in der zweiten Recheinheit 6 wird das zweite Teilpakt, bzw. allgemeiner ein weiteres Graphem-Teilpaket, am Präprozessor, d. h. in der ersten Recheneinheit 5, verarbeitet . 7. Parallel to the elaborate phonation (g2p) in the second computing unit 6, the second sub-packet, or more generally another grapheme sub-packet, at the preprocessor, i. H. in the first arithmetic unit 5, processed.
8. Parallel zu dem Präprozessor (erste Recheneinheit 5) und dem Spracherkenner mit der Graphem-zu-Phonem-Konver- tierung (zweite Recheneinheit 6) fragt die sprachgesteuerte Benutzerschnittstelle 1 die nächsten Pakete bei der Datenbank an, so dass eine Kette von Paketverarbeitungen in der sprachgesteuerten Benutzerschnittstelle 1 anliegt. Von den parallelen Arbeitsschritten Datenbankanfrage, Präprozessierung und Phonetisierung ist die Letztere die langsamste. Durch die Parallelität von Präprozessor und Spracherkenner entsteht keine additionale Latenz, die über die Präprozessierung des ersten Teilpaketes hinausgeht. 8. Parallel to the preprocessor (first arithmetic unit 5) and the speech recognizer with the grapheme-to-phoneme conversion (second arithmetic unit 6), the voice-controlled user interface 1 queries the next packets at the database, so that a chain of packet processing in the voice-controlled user interface 1 is present. Of the parallel steps database inquiry, preprocessing and phonetization, the latter is the slowest. The parallelism of preprocessor and speech recognizer does not create any additional latency beyond the preprocessing of the first subpacket.
Als Ergebnis entsteht in dem Ausführungsbeispiel eine für den Benutzer verbesserte Bedienung, ohne dass eine signifikante Verschlechterung der Latenz oder eine Erhöhung des Speicherverbrauchs entsteht. As a result, in the embodiment, user-improved operation results without causing a significant deterioration in latency or an increase in memory consumption.

Claims

Verfahren zur Phonetisierung von textenthaltenden Datensätzen (2), bei dem die als Grapheme vorliegenden Datensätze (2) in Phoneme konvertiert und als phonetisierte Datensätze (8) gespeichert werden, wobei die Grapheme in einer Präprozes sierung für die Phonetisierung aufbereitet werden, insbesondere indem die Grapheme sprachdefiniert und/oder benutzerdefiniert modifiziert werden, d a du r c h g e k e n n z e i c h n e t , dass die Präprozessierung der Grapheme und die Konvertierung der Grapheme in Phoneme parallel auf unterschiedlichen Recheneinheiten (5, 6) oder unterschiedlichen Teilen von Recheneinheiten (5, 6) durchgeführt wird. Method for phononizing text-containing data records (2), in which the records (2) present as graphemes are converted into phonemes and stored as phonetized data records (8), the graphemes being processed in a preprocessing for the phononization, in particular by the graphemes language-defined and / or user-defined, since it is characterized in that the preprocessing of the graphemes and the conversion of the graphemes into phonemes are performed in parallel on different arithmetic units (5, 6) or different parts of arithmetic units (5, 6).
Verfahren nach Anspruch 1, d a du r c h g e k e n n z e i c h n e t , dass die als Grapheme vorliegenden Datensätze (2) in Graphem-Teilpakete zerlegt werden, wobei jeweils ein Graphem-Teilpaket in einer Recheneinheit (5) präprozessiert und anschließend in einer anderen Recheneinheit (6) phonetisiert wird und beide Recheneinheiten (5, 6) dazu eingerichtet sind, unterschiedliche Graphem- Teilfolgen parallel zu verarbeiten. A method according to claim 1, characterized in that the datasets (2) present as graphemes are decomposed into grapheme subpackets, wherein in each case a grapheme subpacket is preprocessed in one arithmetic unit (5) and subsequently phonetized in another arithmetic unit (6) and both arithmetic units (5, 6) are arranged to process different grapheme subsequences in parallel.
Verfahren nach Anspruch 2, d a du r c h g e k e n n z e i c h n e t , dass die Größe eines Teilpakets vorgegeben wird, insbesondere durch eine von der Recheneinheit (5) abhängige Konstante von Datenmenge der Graphem- Teilpakte zu dem Messaging Overhead, der bei der Kommunikation zwischen den beiden Recheneinheiten (5, 6) entsteht . Method according to claim 2, characterized in that the size of a subpacket is predetermined, in particular by a constant dependent on the arithmetic unit (5) of the data set of the grapheme sub-pacts to the messaging overhead which is used in the communication between the two arithmetic units (5, 6) arises.
Verfahren nach Anspruch 2 oder 3, d a du r c h g e k e n n z e i c h n e t , dass die Größe eines Paktes durch Anwendung definierter Regeln bestimmt wird. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Method according to claim 2 or 3, characterized in that the size of a pact is determined by applying defined rules. Method according to one of the preceding claims, characterized in that the
Präprozessierung einen grammatikbasierten Parser um- fasst . Preprocessing includes a grammatical parser.
Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t , dass die Method according to one of the preceding claims, characterized in that the
Präprozessierung eine Konvertierung von durch das akustische Modell der Graphem-zu-Phonem-Konvertierung nicht unterstütze Zeichen in Graphem-Symbole des akustischen Modells umfasst. Preprocessing involves conversion of characters not supported by the acoustic model of grapheme to phoneme conversion into grapheme symbols of the acoustic model.
Einrichtung zur Phonetisierung von textenthaltenden Datensätzen (2) mit einer Datenschnittstelle (3) zum Eingeben der textenthaltenden Datensätzen (2) und mit einer Recheneinrichtung (4), welche zur Konvertierung der als Grapheme vorliegenden Datensätze in Phoneme und zur Präprozessierung der Grapheme eingerichtet ist, d a d u r c h g e k e n n z e i c h n e t , dass die Recheneinrichtung (4) mindestens eine erste Recheneinheit (5) und eine zweite Recheneinheit (6) aufweist, wobei die erste und die zweite Recheneinheit (5, 6) zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 eingerichtet sind . Device for phononizing text-containing data records (2) with a data interface (3) for inputting the text-containing data records (2) and with a computing device (4), which is set up for converting the data records present as graphemes into phonemes and for preprocessing the graphemes in that the computing device (4) has at least one first arithmetic unit (5) and one second arithmetic unit (6), wherein the first and the second arithmetic unit (5, 6) are arranged to carry out the method according to one of claims 1 to 6.
Computerprogrammprodukt mit Programmcodemitteln, welche dazu geeignet sind, eine Recheneinrichtung (4) einer Einrichtung (1) zur Phonetisierung von textenthaltenden Datensätzen (2) mit mindestens zwei Recheneinheiten (5, 6) zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 6 einzurichten. Computer program product with program code means which are suitable for setting up a computing device (4) of a device (1) for phononizing text-containing data records (2) with at least two arithmetic units (5, 6) for carrying out the method according to one of claims 1 to 6.
EP13705421.9A 2012-02-16 2013-02-11 Method and device for phonetising data sets containing text Withdrawn EP2815395A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102012202391A DE102012202391A1 (en) 2012-02-16 2012-02-16 Method and device for phononizing text-containing data records
PCT/EP2013/052650 WO2013120794A1 (en) 2012-02-16 2013-02-11 Method and device for phonetising data sets containing text

Publications (1)

Publication Number Publication Date
EP2815395A1 true EP2815395A1 (en) 2014-12-24

Family

ID=47747578

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13705421.9A Withdrawn EP2815395A1 (en) 2012-02-16 2013-02-11 Method and device for phonetising data sets containing text

Country Status (5)

Country Link
US (1) US9436675B2 (en)
EP (1) EP2815395A1 (en)
CN (1) CN104115222B (en)
DE (1) DE102012202391A1 (en)
WO (1) WO2013120794A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013219828B4 (en) * 2013-09-30 2019-05-02 Continental Automotive Gmbh Method for phonetizing text-containing data records with multiple data record parts and voice-controlled user interface
US10002543B2 (en) * 2014-11-04 2018-06-19 Knotbird LLC System and methods for transforming language into interactive elements
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US538893A (en) * 1895-05-07 Bar or tack for boots or shoes
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
US5673362A (en) * 1991-11-12 1997-09-30 Fujitsu Limited Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
WO1994023423A1 (en) * 1993-03-26 1994-10-13 British Telecommunications Public Limited Company Text-to-waveform conversion
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5873061A (en) * 1995-05-03 1999-02-16 U.S. Philips Corporation Method for constructing a model of a new word for addition to a word model database of a speech recognition system
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
DE10042943C2 (en) * 2000-08-31 2003-03-06 Siemens Ag Assigning phonemes to the graphemes generating them
US6959279B1 (en) * 2002-03-26 2005-10-25 Winbond Electronics Corporation Text-to-speech conversion system on an integrated circuit
EP1618556A1 (en) * 2003-04-30 2006-01-25 Loquendo S.p.A. Grapheme to phoneme alignment method and relative rule-set generating system
US8069045B2 (en) * 2004-02-26 2011-11-29 International Business Machines Corporation Hierarchical approach for the statistical vowelization of Arabic text
US20060031069A1 (en) * 2004-08-03 2006-02-09 Sony Corporation System and method for performing a grapheme-to-phoneme conversion
US7831549B2 (en) * 2004-09-17 2010-11-09 Nokia Corporation Optimization of text-based training set selection for language processing modules
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
JP2007264503A (en) * 2006-03-29 2007-10-11 Toshiba Corp Speech synthesizer and its method
US8032378B2 (en) * 2006-07-18 2011-10-04 Stephens Jr James H Content and advertising service using one server for the content, sending it to another for advertisement and text-to-speech synthesis before presenting to user
US7873517B2 (en) * 2006-11-09 2011-01-18 Volkswagen Of America, Inc. Motor vehicle with a speech interface
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
JP2008225254A (en) 2007-03-14 2008-09-25 Canon Inc Speech synthesis apparatus, method, and program
CN101312038B (en) 2007-05-25 2012-01-04 纽昂斯通讯公司 Method for synthesizing voice
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
WO2010046782A2 (en) * 2008-10-24 2010-04-29 App Tek Hybrid machine translation
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US8498857B2 (en) * 2009-05-19 2013-07-30 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
CN102280104B (en) * 2010-06-11 2013-05-01 北大方正集团有限公司 File phoneticization processing method and system based on intelligent indexing
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
CN102201233A (en) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 Mixed and matched speech synthesis method and system thereof
US9484045B2 (en) * 2012-09-07 2016-11-01 Nuance Communications, Inc. System and method for automatic prediction of speech suitability for statistical modeling
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis

Also Published As

Publication number Publication date
WO2013120794A1 (en) 2013-08-22
CN104115222B (en) 2016-10-19
US9436675B2 (en) 2016-09-06
DE102012202391A1 (en) 2013-08-22
US20150302001A1 (en) 2015-10-22
CN104115222A (en) 2014-10-22

Similar Documents

Publication Publication Date Title
EP0925578B1 (en) Speech-processing system and method
JP6956337B2 (en) Interactive representation of content for relevance detection and review
DE69937176T2 (en) Segmentation method to extend the active vocabulary of speech recognizers
Schmidt EXMARaLDA and the FOLK tools-two toolsets for transcribing and annotating spoken language.
EP1892700A1 (en) Method for speech recognition and speech reproduction
DE112014007123T5 (en) Dialogue control system and dialogue control procedures
DE112018005272T5 (en) SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE
Das et al. A novel system for generating simple sentences from complex and compound sentences
EP2815395A1 (en) Method and device for phonetising data sets containing text
DE102006034192A1 (en) Speech recognition method, system and device
DE112020004348T5 (en) DETECTING AND RECOVERING OUT OF VOCABULARY WORDS IN SPEECH-TO-TEXT TRANSCRIPTION SYSTEMS
EP3010014A1 (en) Method for interpretation of automatic speech recognition
EP1182646A2 (en) Classification method of phonemes
DE602004010804T2 (en) Voice response system, voice response method, voice server, voice file processing method, program and recording medium
EP0814457B1 (en) Method for automatic recognition of a spoken text
EP1184838B1 (en) Phonetic transcription for speech synthesis
Al-Tamimi et al. A romanization system and webmaus aligner for arabic varieties
DE102014010315B4 (en) Computer-implemented method and device for processing voice input
DE102013219828B4 (en) Method for phonetizing text-containing data records with multiple data record parts and voice-controlled user interface
DE102016125162B4 (en) Method and device for the automatic processing of texts
EP3665619B1 (en) Method and device for generating vocal announcements based on handwritten user input and vehicle comprising said device
DE112014006591T5 (en) Information providing device and information providing method
Samlowski The syllable as a processing unit in speech production: evidence from frequency effects on coarticulation
DE10015859C2 (en) Process for computer-aided communication in natural languages based on grammatical content
DE102017103533A1 (en) Method and device for text-based preview of the content of audio files

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20140916

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20160830

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20170110