EP1184838B1 - Phonetische Übersetzung für die Sprachsynthese - Google Patents

Phonetische Übersetzung für die Sprachsynthese Download PDF

Info

Publication number
EP1184838B1
EP1184838B1 EP01113053A EP01113053A EP1184838B1 EP 1184838 B1 EP1184838 B1 EP 1184838B1 EP 01113053 A EP01113053 A EP 01113053A EP 01113053 A EP01113053 A EP 01113053A EP 1184838 B1 EP1184838 B1 EP 1184838B1
Authority
EP
European Patent Office
Prior art keywords
found
subword
phonetic transcription
database
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP01113053A
Other languages
English (en)
French (fr)
Other versions
EP1184838A2 (de
EP1184838A3 (de
Inventor
Horst-Udo Hain
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1184838A2 publication Critical patent/EP1184838A2/de
Publication of EP1184838A3 publication Critical patent/EP1184838A3/de
Application granted granted Critical
Publication of EP1184838B1 publication Critical patent/EP1184838B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the invention relates to a method, an arrangement and a Computer program product for speech synthesis by means of grapheme-phoneme conversion.
  • Speech processing methods are, for example, US 6,029,135, US 5,732,388, DE 19636739 C1 and DE 19719381 C1 known.
  • Text stored in non-spoken form express themselves as speech via a speech synthesis. To do this usually the individual words of the text in a database which searched the phonetic transcriptions of numerous Contains words. The phonetic transcriptions of the words found in the database are put together and can be output as a language.
  • the invention is based on the object To improve speech synthesis in that on an alternative Type to a greater extent on in a database specified phonetic transcriptions of words and only to a lesser extent OOV treatments must be used.
  • the arrangement or the computer program product it is possible even for a given word to use the phonetic transcriptions of his subwords, if the given word is not completely in compile the sub-words contained in the database.
  • the essential idea is that for the first time a hybrid Approach is used when given for the same Word both the phonetic transcription more complete Subtotals, as well as an OOV treatment is used.
  • the phonetic transcriptions of words contains, searched for partial words of the given word. At least one subword of the given word is in the database found and recorded in the database for this purpose phonetic transcription selected. For the given word is searched in the database for further subwords of the word searched. At least one more subword of the given word is found in the database and this one in the Database listed phonetic transcription chosen. One another component in the given word is between the found Partial word and the found additional subword arranged. There is an OOV treatment for phonetic Transcription of the further component depending on the phonetic transcription of the found subword and the phonetic transcription of the found additional subword. The phonetic transcription of the found subword, the phonetic transcription of the further sub-word found and the phonetic transcription of the further constituent word and the phonetic transcription further Ingredients are put together.
  • the search for partial words in the database is possible optimize various measures. So for example only Search for subwords that have a given minimum length exhibit. As a minimum length has in practice a length of 5 letters, while others Framework, for example, for another language, too Minimum lengths of 3, 4 or 6 letters can be useful.
  • the search result is improved when searching for a word part of the given word not immediately after that Finding the first matching subword is aborted, but is still looking for other possible subwords. This can be done, for example, by adding the word part Letters is added. As a rule, this results Proceed the best result, if found by several Subwords the one selected the longest is. However, you can also choose a shorter subword if this shorter subword is in connection with one found in the database and contained in the given word longer subword a larger part of the given Word represents, as the found longer partial word for itself alone, if not with the found second subword can be combined.
  • the OOV treatment for phonetic transcription further Ingredient can be done by means of a neural network.
  • the OOV treatment can also be done by means of a second Database containing the phonetic transcriptions of filling particles commonly used in compound words contains.
  • these are in particular and genitive endings, which in compound words to the each word in front are appended.
  • Step S1 is for the given word in a Database containing phonetic transcriptions of words, searched for partial words of the given word. Because the Minimum length is set to five letters, with the Search for the word "Train” started. In a German-speaking Database, this word is not found. Contains the Database also English words, so is already now Found the first subword of the given word. Preferably but not only in the first, but also in the second Case on. This is done by searching for the Word "Traini”. This letter combination is in the database not found. The same applies to the sought after Letter combination "Trainin”.
  • step S3 is found for the found sub-word "training" the selected phonetic transcription in the database.
  • step S4 it is determined that the given Word "training camp” next to the found sub-word “training” another component “slager” that does not recorded in the database.
  • This further component "slager” is then in step S5 phonetically transcribed by OOV treatment.
  • OOV treatment is preferably based on an implementation of single grapheme of the further component "slager” in phonemes by means of a neural network.
  • the phonemes will be selected and composed by the neural network, that for the other component taken alone gives the best possible speech synthesis.
  • the OOV treatment takes place for phonetic transcription of the further constituent "slager” depending on the selected from the database phonetic transcription of the found subword "Training".
  • the found sub-word "training” or its phonetic Transcription in the selected example gives the left one phonetic context of the further component "slager” for sure in front. That for the OOV treatment of the further ingredient "slager” used neural network can therefore of a safe result of the other component preceded Syllables of the given word go out and one accordingly safe result for phonetic transcription further provide component.
  • step S6 of the method for speech synthesis becomes finally, the phonetic transcription of the found Partial word "Training” and the phonetic transcription of the further component "slager" composed.
  • the OOV treatment also by a search in another database in which the phonetic transcriptions are composed of at Words commonly used filler particles are included.
  • the genitive-s of the present example is such a commonly used filler particle. It would therefore be found in the second database and the associated phonetic transcription can be selected.
  • OVER treatment can also be rule-based Use procedure and DTW method.
  • DTW method a better phonetic transcriptions further Component when expected to undergo OOV treatment phonetic transcription of the further constituent the phonetic Transcription of several or all partial words found is taken into account. Of course this is special the case, if the further ingredient in the word between two found subwords is arranged.
  • the arrangement according to the invention can be in the form of a computer system realize that is being programmed, a corresponding Perform procedure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren, eine Anordnung und ein Computerprogrammprodukt zur Sprachsynthese mittels Graphem-Phonem-Umsetzung.
Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135, US 5 732 388, DE 19636739 C1 und DE 19719381 C1 bekannt. In nicht gesprochener Form gespeicherter Text lässt sich über eine Sprachsynthese als Sprache ausgeben. Dazu werden in der Regel die einzelnen Wörter des Textes in einer Datenbank gesucht, die die phonetischen Transkriptionen zahlreicher Wörter enthält. Die phonetischen Transkriptionen der in der Datenbank gefundenen Wörter werden zusammengesetzt und können als Sprache ausgegeben werden.
Da aber keine Datenbank vollständig ist, was in der Regel zur Reduktion der Datenbankgröße durchaus beabsichtigt ist, kommt es immer wieder vor, dass ein Text Wörter enthält, die in der Datenbank nicht gefunden werden. Diese Wörter werden dann mit einer Out-of-Vocabulary-Behandlung (OOV-Behandlung) phonetisch transkribiert. Dabei wird jedes Wort jeweils aus den einzelnen Buchstaben des Wortes zugeordneten Phonemen zusammengesetzt. Solche OOV-Behandlungen sind allerdings relativ rechenintensiv und führen in aller Regel zu schlechteren Ergebnissen als die phonetische Transkription ganzer Wörter aufgrund von Datenbankeinträgen.
Weiterhin ist es bekannt, die phonetische Transkription eines gegebenen Wortes aus den phonetischen Transkriptionen seiner Teilwörter zusammenzusetzen, wenn das gegebene Wort ausschließlich aus diesen Teilwörtern besteht.
In US-A-5,283,833 ist ein Verfahren zur Sprachsynthese beschrieben, bei dem ein unbekanntes Wort in Bestandteile zerlegt wird, bei dem zu dem unbekannten Wort ein Referenzwort gefunden wird, dessen Orthographie sich von der des unbekannten Wortes lediglich durch eine anfängliche Konsonantenfolge unterscheidet, also ein Wortteil des gegebenen Wortes als ein Wortteil des Referenzwortes gefunden wird, und bei dem diese anfängliche Konsonantenfolge des Referenzwortes durch die Konsonantenfolge des unbekannten Wortes ersetzt wird, um die Aussprache des unbekannten Wortes zu erhalten.
Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, Sprachsynthese dahingehend zu verbessern, dass auf eine alternative Art in größerem Umfang auf in einer Datenbank angegebene phonetische Transkriptionen von Wörtern zurückgegriffen werden kann und nur noch in geringerem Maße OOV-Behandlungen verwendet werden müssen.
Diese Aufgabe wird durch ein Verfahren, eine Anordnung und ein Computerprogrammprodukt mit den Merkmalen der unabhängigen Patentansprüche gelöst.
Durch das Verfahren, die Anordnung oder das Computerprogrammprodukt ist es möglich, auch dann für ein gegebenes Wort auf die phonetischen Transkriptionen seiner Teilwörter zurückzugreifen, wenn sich das gegebene Wort nicht vollständig aus in der Datenbank enthaltenen Teilwörtern zusammensetzen lässt. Der wesentliche Gedanke ist dabei, dass erstmals eine hybride Vorgehensweise zum Einsatz kommt, bei der für dasselbe gegebene Wort sowohl die phonetische Transkription vollständiger Teilwörter, als auch eine OOV-Behandlung zum Einsatz kommt.
Erfindungsgemäß wird in einem Verfahren zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht. Mindestens ein Teilwort des gegebenen Wortes wird in der Datenbank gefunden und hierfür eine in der Datenbank verzeichnete phonetische Transkription gewählt. Für das gegebene Wort wird in der Datenbank nach weiteren Teilwörtern des Wortes gesucht. Mindestens ein weiteres Teilwort des gegebenen Wortes wird in der Datenbank gefunden und hierfür eine in der Datenbank verzeichnete phonetische Transkription gewählt. Ein weiterer Bestandteil im gegebenen Wort ist zwischen dem gefundenen Teilwort und dem gefundenen weiteren Teilwort angeordnet. Es erfolgt eine OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes und der phonetischen Transkription des gefundenen weiteren Teilwortes. Die phonetische Transkription des gefundenen Teilwortes, die phonetische Transkription des weiteren gefundenen Teilwortes und die phonetische Transkription des weiteren Bestandteilwortes und die phonetische Transkription des weiteren Bestandteils werden zusammengesetzt.
Hierdurch lässt sich die Qualität der Sprachsynthese für den weiteren Bestandteil gegenüber einer entsprechenden reinen OOV-Behandlung des gesamten Wortes deutliche steigern. Dies liegt zum einen daran, dass die phonetischen Transkriptionen der gefundenen Teilwörter sehr viel sicherer sind als es eine phonetische Transkription dieser Teilwörter durch eine OOV-Behandlung wäre. Dadurch kann bei der OOV-Behandlung des weiteren Bestandteils von einem sicheren phonetischen Kontext ausgegangen werden, was die OOV-Behandlung mit sehr viel größerer Wahrscheinlichkeit zum richtigen Ergebnis kommen lässt. Zum anderen sind die phonetischen Transkriptionen der gefundenen Teilwörter sehr viel länger als die üblicherweise bei einer OOV-Behandlung verwendeten Phoneme. Deshalb ist der phonetische Kontext nicht nur sicherer, sondern auch länger, so dass die OOV-Behandlung für den weiteren Bestandteil aufgrund einer größeren Menge relevanter Informationen durchgeführt werden kann. Dieser Vorteil muss für das beanspruchte erfindungsgemäße Verfahren allerdings nicht unbedingt ausgenutzt werden. Unter bestimmten Bedingungen kann es auch sinnvoll sein, wenn für die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription der gefundenen Teilwörter lediglich die Teile der Teilwörter berücksichtigt werden, die dem weiteren Bestandteil unmittelbar benachbart sind.
Die Suche nach Teilwörtern in der Datenbank lässt sich durch verschiedene Maßnahmen optimieren. So sollte zum Beispiel nur nach Teilwörtern gesucht werden, die eine vorgegebene Mindestlänge aufweisen. Als Mindestlänge hat sich in der Praxis eine Länge von 5 Buchstaben herausgestellt, wobei bei anderen Rahmenbedingungen, zum Beispiel für eine andere Sprache, auch Mindestlängen von 3, 4 oder 6 Buchstaben sinnvoll sein können.
Weiterhin wird das Suchergebnis verbessert, wenn die Suche für einen Wortteil des gegebenen Wortes nicht sofort nach dem Auffinden des ersten passenden Teilwortes abgebrochen wird, sondern noch nach anderen möglichen Teilwörtern gesucht wird. Dies kann zum Beispiel erfolgen, indem der Wortteil um weitere Buchstaben ergänzt wird. In der Regel ergibt sich bei dieser Vorgehensweise das beste Ergebnis, wenn von mehreren gefundenen Teilwörtern dasjenige ausgewählt wird, das am längsten ist. Es kann allerdings auch ein kürzeres Teilwort ausgewählt werden, wenn dieses kürzere Teilwort in Verbindung mit einem in der Datenbank gefundenen und im gegebenen Wort enthaltenen längeren Teilwort einen größeren Teil des gegebenen Wortes darstellt, als das gefundene längere Teilwort für sich alleine, wenn dieses nicht mit dem gefundenen zweiten Teilwort kombiniert werden kann.
Die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils kann mittels eines neuronalen Netzes erfolgen.
Alternativ oder ergänzend kann für die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils eine regelbasiertes Verfahren oder ein DTW-Verfahren zum Einsatz kommen. Ein solches Verfahren ist zum Beispiel in Rüdiger Hoffmann "Signalanalyse und -erkennung", Springer Verlag, Berlin, 1998, Seiten 385 bis 388 beschrieben.
Die OOV-Behandlung kann allerdings auch mittels einer zweiten Datenbank erfolgen, die die phonetischen Transkriptionen von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthält. Im Deutschen sind dies insbesondere Dativ- und Genitivendungen, die bei zusammengesetzten Wörtern an das jeweils vorne stehende Wort angehängt werden.
Weitere wesentliche Merkmale und Vorteile der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Zeichnung; dabei zeigt
Figur 1
eine schematische Darstellung des Ablaufs des Verfahrens und
Figur 2
eine schematische Darstellung eines zwischen zwei Teilwörtern stehenden weiteren Bestandteils eines gegebenen Wortes.
Das Verfahren soll am Beispiel des gegebenen deutschen Wortes "Trainingslager" erläutert werden. Es sollen nur Teilwörter mit einer Mindestlänge von fünf Buchstaben gesucht werden. Im Schritt S1 gemäß Figur 1 wird für das gegebene Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht. Da die Mindestlänge auf fünf Buchstaben gesetzt ist, wird mit der Suche nach dem Wort "Train" angefangen. In einer deutschsprachigen Datenbank wird dieses Wort nicht gefunden. Enthält die Datenbank auch englischsprachige Wörter, so ist bereits jetzt das erste Teilwort des gegebenen Wortes gefunden. Vorzugsweise wird aber nicht nur im ersten, sondern auch im zweiten Fall weitergesucht. Dies geschieht durch die Suche nach dem Wort "Traini". Diese Buchstabenkombination wird in der Datenbank nicht gefunden. Das Gleiche gilt für die danach gesuchte Buchstabenkombination "Trainin".
Dagegen wird die nächste Buchstabenkombination "Training" in der Datenbank gefunden. Trotzdem wird auch in diesem Fall vorzugsweise weitergesucht, nämlich nach der Buchstabenkombination "Trainings" und den in entsprechender Fortsetzung dieses Suchschrittes gebildeten längeren Buchstabenkombinationen des gegebenen Wortes. Unter der Voraussetzung, dass das gegebene Wort "Trainingslager" in seiner Gesamtheit nicht in der Datenbank gefunden wird, werden keine weiteren Teilwörter in der Datenbank gefunden.
Für den Fall einer englisch- und deutschsprachigen Datenbank wird aus den beiden gefundenen Teilwörtern "Train" und "Training" das längere Teilwort "Training" ausgewählt. Dieser Auswahlschritt entfällt im Beispielfall für eine rein deutschsprachige Datenbank.
Im Schritt S3 wird für das gefundene Teilwort "Training" die in der Datenbank verzeichnete phonetische Transkription gewählt.
Gemäß dem Schritt S4 wird festgestellt, dass das gegebene Wort "Trainingslager" neben dem gefundenen Teilwort "Training" einen weiteren Bestandteil "slager" aufweist, der nicht in der Datenbank verzeichnet ist.
Dieser weitere Bestandteil "slager" wird dann im Schritt S5 mittels einer OOV-Behandlung phonetisch transkribiert. Diese OOV-Behandlung basiert vorzugsweise auf einer Umsetzung der einzelnen Grapheme des weiteren Bestandteils "slager" in Phoneme mittels eines neuronalen Netzes. Die Phoneme werden durch das neuronale Netz so ausgewählt und zusammengesetzt, dass sich für den weiteren Bestandteil für sich genommen eine möglichst gute Sprachsynthese ergibt.
Für ein noch besseres Sprachsyntheseergebnis erfolgt die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils "slager" in Abhängigkeit der aus der Datenbank gewählten phonetischen Transkription des gefundenen Teilwortes "Training". Das gefundene Teilwort "Training" bzw. seine phonetische Transkription gibt im gewählten Beispiel den linken phonetischen Kontext des weiteren Bestandteils "slager" sicher vor. Das für die OOV-Behandlung des weiteren Bestandteils "slager" verwendete neuronale Netz kann deshalb von einem sicheren Ergebnis der dem weiteren Bestandteil vorausgegangenen Silben des gegebenen Wortes ausgehen und ein entsprechend sicheres Ergebnis für die phonetische Transkription des weiteren Bestandteils liefern.
Im letzten Schritt S6 des Verfahrens zur Sprachsynthese wird schließlich die phonetische Transkription des gefundenen Teilwortes "Training" und die phonetische Transkription des weiteren Bestandteils "slager" zusammengesetzt.
Das Sprachsyntheseergebnis lässt sich weiter verbessern, wenn nicht nur vom Anfang des gegebenen Wortes beginnend Teilwörter gesucht werden, sondern die Suche auch von anderen Bereichen des gegebenen Wortes aus gestartet wird. Ist für das Teilwort eine bestimmte Mindestlänge i vorgegeben, so empfiehlt sich der Beginn der weiteren Suche beim i+ersten Buchstaben. Im gegebenen Beispiel wird dann für i=5 die weitere Suche mit der Buchstabenfolge "ingsl" gestartet, die ihrerseits wiederum die gegebene Mindestlänge aufweist. Diese Buchstabenfolge würde in der Datenbank nicht gefunden. Das gleiche gilt für die danach gesuchten Buchstabenfolgen "ingsla", "ingslag" usw.
Da bei dieser weiteren Suche keinerlei Teilwort gefunden wird, wird die darauffolgende Suche nicht beim Buchstaben 2*i+1 gestartet, sondern schon bei i+2. Allerdings führt auch die Suchsequenz "ngsla", "ngslag" usw. zu keinem Ergebnis. Nach dem Durchführen weiterer entsprechender Suchen wird allerdings in der letzten Suche das weitere Teilwort "lager" gefunden. Dieses weitere gefundene Teilwort "lager" entstammt nicht dem Wortteil des Wortes "Trainingslager", für den das erste Teilwort "Training" gefunden wurde. Deshalb muss im Beispiel keine Auswahl zwischen den beiden Teilwörtern getroffen werden.
Vielmehr verbleibt als weiterer Bestandteil des gegebenen Wortes "Trainingslager" nurmehr der Buchstabe "s". Dieser einzelne Buchstabe "s" lässt sich sehr leicht mittels einer OOV-Behandlung phonetischen transkribieren. Hierbei kommt noch erleichternd hinzu, dass gemäß Figur 2 für das Zentrum 2 "s" sowohl der linke Kontext 1 "Training" als auch der rechte Kontext 3 "lager" bekannt ist.
Statt der OOV-Behandlung durch ein neuronales Netz, wie sie oben beschrieben wurde, kann in diesem Fall die OOV-Behandlung auch durch eine Suche in einer weiteren Datenbank erfolgen, in der die phonetischen Transkriptionen von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthalten sind. Das Genitiv-s des vorliegenden Beispiels ist ein solcher üblicherweise verwendeter Füllpartikel. Es würde deshalb in der zweiten Datenbank gefunden und die zugehörige phonetische Transkription gewählt werden.
Alternativ lassen sich für die OOV-Behandlung aber auch regelbasierte Verfahren und DTW-Verfahren einsetzen. In jedem Fall sind bessere phonetische Transkriptionen des weiteren Bestandteils zu erwarten, wenn bei der OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils die phonetische Transkription mehrerer oder aller gefundenen Teilwörter berücksichtigt wird. Dies ist natürlich insbesondere der Fall, wenn der weitere Bestandteil im Wort zwischen zwei gefundenen Teilwörtern angeordnet ist.
In einem letzten Schritt wird dann schließlich die phonetische Transkription des gefundenen Teilworts "Training", die phonetische Transkription des weiteren gefundenen Teilwortes "lager" und die phonetische Transkription des weiteren Bestandteils "s" zur Sprachsynthese zusammengesetzt.
Die erfindungsgemäße Anordnung lässt sich in Form eines Computersystems realisieren, das programmiert wird, ein entsprechendes Verfahren auszuführen.

Claims (8)

  1. Verfahren zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung, bei dem
    für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht wird,
    mindestens ein Teilwort des gegebenen Wortes in der Datenbank gefunden wird,
    für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt wird,
    für das gegebene Wort in der Datenbank nach weiteren Teilwörtern des Wortes gesucht wird,
    mindestens ein weiteres Teilwort des gegebenen Wortes in der Datenbank gefunden wird,
    für dieses gefundene weitere Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt wird,
    ein weiterer Bestandteil im gegebenen Wort zwischen dem gefundenen Teilwort und dem gefundenen weiteren Teilwort angeordnet ist,
    eine OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilworts und der phonetischen Transkription des gefundenen weiteren Teilworts erfolgt,
    die phonetische Transkription des gefundenen Teilworts, die phonetische Transkription des weiteren gefundenen Teilworts und die phonetische Transkription des weiteren Bestandteils zusammengesetzt wird.
  2. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüchen, bei dem
    nur nach Teilwörtern gesucht wird, die mindestens eine vorgegebene Mindestlänge aufweisen.
  3. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    wenn für denselben Wortteil des gegebenen Wortteiles mehrere Teilwörter gefunden werden, von diesem das längste Teilwort ausgewählt wird.
  4. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils mittels eines neuronalen Netzes erfolgt.
  5. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils mittels eines regelbasierten Verfahrens erfolgt.
  6. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils mittels einer zweiten Datenbank erfolgt, die die phonetischen Transkription von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthält.
  7. Anordnung zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung, die so ausgebildet ist,
    dass für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, Teilwörter des gegebenen Wortes suchbar sind,
    mindestens ein Teilwort des gegebenen Wortes in der Datenbank auffindbar ist,
    dass für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription auswählbar ist,
    dass für das gegebene Wort in der Datenbank nach weiteren Teilwörtern des Wortes suchbar ist,
    mindestens ein weiteres Teilwort des gegebenen Wortes in der Datenbank auffindbar ist,
    für dieses gefundene weitere Teilwort eine in der Datenbank verzeichnete phonetische Transkription auswählbar ist,
    ein weiterer Bestandteil im gegebenen Wort zwischen dem gefundenen Teilwort und dem gefundenen weiteren Teilwort angeordnet ist,
    eine OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes und der phonetischen Transkription des gefundenen weiteren Teilworts ausführbar ist,
    die phonetische Transkription des gefundenen Teilworts, die phonetische Transkription des weiteren gefundenen Teilworts und die phonetische Transkription des weiteren Bestandteils zusammensetzbar ist.
  8. Computerprogrammprodukt zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung, bei dem beim Ablauf auf zumindest einer Prozessoreinheit
    für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht wird,
    mindestens ein Teilwort des gegebenen Wortes in der Datenbank gefunden wird,
    für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt wird,
    für das gegebene Wort in der Datenbank nach weiteren Teilwörtern des Wortes gesucht wird,
    mindestens ein weiteres Teilwort des gegebenen Wortes in der Datenbank gefunden wird,
    für dieses gefundene weitere Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt wird,
    ein weiterer Bestandteil im gegebenen Wort zwischen dem gefundenen Teilwort und dem gefundenen weiteren Teilwort angeordnet ist,
    eine OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes und der phonetischen Transkription des gefundenen weiteren Teilworts erfolgt,
    die phonetische Transkription des gefundenen Teilworts, die phonetische Transkription des weiteren gefundenen Teilworts und die phonetische Transkription des weiteren Bestandteils zusammengesetzt wird.
EP01113053A 2000-08-31 2001-05-28 Phonetische Übersetzung für die Sprachsynthese Expired - Lifetime EP1184838B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10042942A DE10042942C2 (de) 2000-08-31 2000-08-31 Verfahren zur Sprachsynthese
DE10042942 2000-08-31

Publications (3)

Publication Number Publication Date
EP1184838A2 EP1184838A2 (de) 2002-03-06
EP1184838A3 EP1184838A3 (de) 2003-02-05
EP1184838B1 true EP1184838B1 (de) 2005-08-31

Family

ID=7654521

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01113053A Expired - Lifetime EP1184838B1 (de) 2000-08-31 2001-05-28 Phonetische Übersetzung für die Sprachsynthese

Country Status (4)

Country Link
US (1) US7333932B2 (de)
EP (1) EP1184838B1 (de)
DE (2) DE10042942C2 (de)
ES (1) ES2244523T3 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
TWI233589B (en) * 2004-03-05 2005-06-01 Ind Tech Res Inst Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
US7869999B2 (en) * 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
TWI340330B (en) * 2005-11-14 2011-04-11 Ind Tech Res Inst Method for text-to-pronunciation conversion
DE102011118059A1 (de) 2011-11-09 2013-05-16 Elektrobit Automotive Gmbh Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems
CN105206259A (zh) * 2015-11-03 2015-12-30 常州工学院 一种语音转换方法
CN110619866A (zh) * 2018-06-19 2019-12-27 普天信息技术有限公司 语音合成方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5283833A (en) * 1991-09-19 1994-02-01 At&T Bell Laboratories Method and apparatus for speech processing using morphology and rhyming
EP0691023B1 (de) 1993-03-26 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Umwandlung von text in signalformen
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE19719381C1 (de) * 1997-05-07 1998-01-22 Siemens Ag Verfahren zur Spracherkennung durch einen Rechner
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6188984B1 (en) * 1998-11-17 2001-02-13 Fonix Corporation Method and system for syllable parsing
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAELEMANS W.: "GRAFON: A Grapheme-to-Phoneme Conversion System for Dutch", PROC. 12TH INT. CONF. ON COMPUTATIONAL LINGUISTICS COLING-88, 1988, BUDAPEST, HUNGARY, pages 133 - 138 *

Also Published As

Publication number Publication date
DE10042942C2 (de) 2003-05-08
ES2244523T3 (es) 2005-12-16
US7333932B2 (en) 2008-02-19
DE50107259D1 (de) 2005-10-06
EP1184838A2 (de) 2002-03-06
EP1184838A3 (de) 2003-02-05
DE10042942A1 (de) 2002-03-28
US20020026313A1 (en) 2002-02-28

Similar Documents

Publication Publication Date Title
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE19636739C1 (de) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
WO2001069591A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE60219030T2 (de) Verfahren zur mehrsprachigen Spracherkennung
EP2006835B1 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
DE102012202391A1 (de) Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
DE69723449T2 (de) Verfahren und system zur sprache-in-sprache-umsetzung
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

17P Request for examination filed

Effective date: 20030303

AKX Designation fees paid

Designated state(s): DE ES FR GB IT

17Q First examination report despatched

Effective date: 20030918

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE ES FR GB IT

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REF Corresponds to:

Ref document number: 50107259

Country of ref document: DE

Date of ref document: 20051006

Kind code of ref document: P

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20050926

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2244523

Country of ref document: ES

Kind code of ref document: T3

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20060601

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20120621

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20130529

Year of fee payment: 13

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140528

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20150511

Year of fee payment: 15

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20150731

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20150513

Year of fee payment: 15

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140529

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20150720

Year of fee payment: 15

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50107259

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20160528

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20170131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160531

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20161201

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160528