EP1184838A2 - Phonetische Übersetzung für die Sprachsynthese - Google Patents

Phonetische Übersetzung für die Sprachsynthese Download PDF

Info

Publication number
EP1184838A2
EP1184838A2 EP01113053A EP01113053A EP1184838A2 EP 1184838 A2 EP1184838 A2 EP 1184838A2 EP 01113053 A EP01113053 A EP 01113053A EP 01113053 A EP01113053 A EP 01113053A EP 1184838 A2 EP1184838 A2 EP 1184838A2
Authority
EP
European Patent Office
Prior art keywords
word
found
partial
database
phonetic transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP01113053A
Other languages
English (en)
French (fr)
Other versions
EP1184838B1 (de
EP1184838A3 (de
Inventor
Horst-Udo Hain
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1184838A2 publication Critical patent/EP1184838A2/de
Publication of EP1184838A3 publication Critical patent/EP1184838A3/de
Application granted granted Critical
Publication of EP1184838B1 publication Critical patent/EP1184838B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the invention relates to a method, an arrangement and a Computer program product for speech synthesis using grapheme-phoneme conversion.
  • Language processing methods are, for example, from US 6 029 135, US 5 732 388, DE 19636739 C1 and DE 19719381 C1 known.
  • Text saved in non-spoken form pretend to be speech through a speech synthesis. To do this usually the individual words of the text in a database searched that the phonetic transcriptions numerous Contains words. The phonetic transcriptions of the Words found in the database are put together and can be output as language.
  • OOV treatment Out-of-vocabulary treatment
  • the object of the invention is to improve speech synthesis in that larger Extent of phonetic values given in a database Transcriptions of words can be used and OOV treatments are only used to a lesser extent have to.
  • This task is accomplished through a process, an arrangement and a computer program product with the features of independent Claims resolved.
  • the arrangement or the computer program product it is possible even for a given word access the phonetic transcriptions of its partial words, if the given word is not completely in can put together subwords contained in the database.
  • the main idea is that for the first time a hybrid Approach is used in the given for the same Word both the phonetic transcription more complete Partial words, as well as an OOV treatment is used.
  • the OOV treatment takes place for the phonetic transcription of the further component in Dependence of the phonetic transcription of the found Partword. This allows the quality of the speech synthesis for the further component versus a corresponding one pure OOV treatment of the entire word clearly increase. On the one hand, this is because the phonetic Transcription of the partial word found is much safer is as a phonetic transcription of this subword would be through an OOV treatment. This can help with OOV treatment further part of a safe phonetic Context is what the OOV treatment much more likely to get the right result lets come. The other is the phonetic Transcription of the subword found much longer than the phonemes commonly used in OOV treatment.
  • the method is particularly advantageous if it does not follow is aborted when a first partial word is found, but if additional subwords in the given word are searched become. In this way, the largest possible section of the given Word composed of partial words for those in the database reliable information is available, and only the remaining, mostly small further part of the word must undergo OOV treatment.
  • the search for partial words in the database can be started optimize various measures. For example, only partial words are searched which have a predetermined minimum length exhibit.
  • the minimum length has been in practice highlighted a length of 5 letters, with others Framework conditions, for example for a different language, too Minimum lengths of 3, 4 or 6 letters can be useful.
  • the search result is improved when the search for a part of a given word not immediately after Finding the first matching partial word is canceled, but is still looking for other possible partial words. This can be done, for example, by adding the word part by more Letters is added. This usually results in this Do the best result if found by several Subwords that the longest is selected is. However, a shorter subword can also be selected if this shorter subword in conjunction with one found in the database and contained in the given word longer subword a larger part of the given Represents the longer partial word found for itself alone if this does not match the second subword found can be combined.
  • the OOV treatment for phonetic transcription further Part of it can be done using a neural network.
  • the OOV treatment can also be carried out using a second one Database that contain the phonetic transcription of filler particles commonly used in compound words contains. In German, these are especially dative and Genitive endings that appear in compound words on the word in front are appended.
  • step S3 the "Training" subword is found selected phonetic transcription recorded in the database.
  • step S4 it is determined that the given one Word "training camp” next to the found subword “training” has another component "slager” that is not is recorded in the database.
  • This further component "slager” is then in step S5 transcribed phonetically using OOV treatment.
  • This OOV treatment is preferably based on an implementation of the individual graphemes of the further component "slager” in phonemes by means of a neural network.
  • the phonemes will be selected and composed by the neural network so that in itself for the further component one results in the best possible speech synthesis.
  • the speech synthesis result can be further improved if not just partial words starting from the beginning of the given word be searched, but also the search of other areas from the given word.
  • the beginning of the further search begins with the i + first letter.
  • the further one becomes for i 5 Search started with the letter "ingsl”, which in turn again has the given minimum length. This Letters would not be found in the database. The the same applies to the letters "ingsla" searched for, "ingslag” etc.
  • OOV treatment can be described also by searching another database take place in which the phonetic transcriptions of compound Words commonly used filler particles are included.
  • the genitive-s of the present example is such a commonly used filler. It would therefore be found in the second database and the associated one phonetic transcription can be chosen.
  • rule-based treatment can also be used for OOV treatment Use procedures and DTW procedures.
  • OOV treatment for phonetic transcription of the further component the phonetic Transcription of several or all of the partial words found is taken into account.
  • this is special the case when the further component in the word between two found subwords is arranged.
  • the phonetic is finally Transcription of the found subword "Training”, the phonetic transcription of the further partial word found "Lager” and the phonetic transcription of the other component "s" composed for speech synthesis.
  • the arrangement according to the invention can be in the form of a computer system realize that is programmed, a corresponding Execute procedure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung betrifft ein Verfahren, eine Anordnung und ein Computerprogrammprodukt zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung. Dabei wird für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht. Wird mindestens ein Teilwort des gegebenen Wortes in der Datenbank gefunden, so wird für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt. Das gegebene Wort weist neben dem gefundenen Teilwort mindestens einen weiteren Bestandteil auf, der nicht in der Datenbank verzeichnet ist. Dieser weitere Bestandteil wird mittels einer OOV-Behandlung phonetisch transkribiert wird und die phonetische Transkription des gefundenen Teilwortes und die phonetische Transkription des weiteren Bestandteils wird zusammengesetzt.

Description

Die Erfindung betrifft ein Verfahren, eine Anordnung und ein Computerprogrammprodukt zur Sprachsynthese mittels Graphem-Phonem-Umsetzung.
Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135, US 5 732 388, DE 19636739 C1 und DE 19719381 C1 bekannt. In nicht gesprochener Form gespeicherter Text lässt sich über eine Sprachsynthese als Sprache ausgeben. Dazu werden in der Regel die einzelnen Wörter des Textes in einer Datenbank gesucht, die die phonetischen Transkriptionen zahlreicher Wörter enthält. Die phonetischen Transkriptionen der in der Datenbank gefundenen Wörter werden zusammengesetzt und können als Sprache ausgegeben werden.
Da aber keine Datenbank vollständig ist, was in der Regel zur Reduktion der Datenbankgröße durchaus beabsichtigt ist, kommt es immer wieder vor, dass ein Text Wörter enthält, die in der Datenbank nicht gefunden werden. Diese Wörter werden dann mit einer Out-of-Vocabulary-Behandlung (OOV-Behandlung) phonetisch transkribiert. Dabei wird jedes Wort jeweils aus den einzelnen Buchstaben des Wortes zugeordneten Phonemen zusammengesetzt. Solche OOV-Behandlungen sind allerdings relativ rechenintensiv und führen in aller Regel zu schlechteren Ergebnissen als die phonetische Transkription ganzer Wörter aufgrund von Datenbankeinträgen.
Weiterhin ist es bekannt, die phonetische Transkription eines gegebenen Wortes aus den phonetischen Transkriptionen seiner Teilwörter zusammenzusetzen, wenn das gegebene Wort ausschließlich aus diesen Teilwörtern besteht.
Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, Sprachsynthese dahingehend zu verbessern, dass in größerem Umfang auf in einer Datenbank angegebene phonetische Transkriptionen von Wörtern zurückgegriffen werden kann und nur noch in geringerem Maße OOV-Behandlungen verwendet werden müssen.
Diese Aufgabe wird durch ein Verfahren, eine Anordnung und ein Computerprogrammprodukt mit den Merkmalen der unabhängigen Patentansprüche gelöst.
Durch das Verfahren, die Anordnung oder das Computerprogrammprodukt ist es möglich, auch dann für ein gegebenes Wort auf die phonetischen Transkriptionen seiner Teilwörter zurückzugreifen, wenn sich das gegebene Wort nicht vollständig aus in der Datenbank enthaltenen Teilwörtern zusammensetzen lässt. Der wesentliche Gedanke ist dabei, dass erstmals eine hybride Vorgehensweise zum Einsatz kommt, bei der für dasselbe gegebene Wort sowohl die phonetische Transkription vollständiger Teilwörter, als auch eine OOV-Behandlung zum Einsatz kommt.
In einer bevorzugten Weiterbildung erfolgt die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes. Hierdurch lässt sich die Qualität der Sprachsynthese für den weiteren Bestandteil gegenüber einer entsprechenden reinen OOV-Behandlung des gesamten Wortes deutlich steigern. Dies liegt zum einen daran, dass die phonetische Transkription des gefundenen Teilwortes sehr viel sicherer ist als es eine phonetische Transkription dieses Teilwortes durch einen OOV-Behandlung wäre. Dadurch kann bei der OOV-Behandlung des weiteren Bestandteils von einem sicheren phonetischen Kontext ausgegangen werden, was die OOV-Behandlung mit sehr viel größerer Wahrscheinlichkeit zum richtigen Ergebnis kommen lässt. Zum anderen ist die phonetische Transkription des gefundenen Teilwortes sehr viel länger als die üblicherweise bei einer OOV-Behandlung verwendeten Phoneme. Deshalb ist der phonetische Kontext nicht nur sicherer, sondern auch länger, so dass die OOV-Behandlung für den weiteren Bestandteil aufgrund einer größeren Menge relevanter Informationen durchgeführt werden kann. Dieser Vorteil muss für die beanspruchte bevorzugte Weiterbildung allerdings nicht unbedingt ausgenutzt werden. Unter bestimmten Bedingungen kann es auch sinnvoll sein, wenn für die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes lediglich der Teil des Teilwortes berücksichtigt wird, der dem weiteren Bestandteil unmittelbar benachbart ist.
Besonders vorteilhaft wird das Verfahren, wenn es nicht nach dem Auffinden eines ersten Teilwortes abgebrochen wird, sondern wenn noch weitere Teilwörter im gegebenen Wort gesucht werden. So wird ein möglichst großer Abschnitt des gegebenen Wortes aus Teilwörtern zusammengesetzt, für die in der Datenbank zuverlässige Informationen vorliegen, und lediglich der verbleibende, meist kleine weitere Bestandteil des Wortes muss einer OOV-Behandlung unterzogen werden.
Steht dieser verbleibende weitere Bestandteil zwischen zwei gefundenen Teilwörtern so wird die OOV-Behandlung vorzugsweise in Abhängigkeit beider gefundener Teilbereiche vorgenommen. Dann ist nämlich sowohl der linke als auch der rechte phonetische Kontext des weiteren Bestandteils sicher vorgegeben, weshalb sich die OOV-Behandlung mit exzellenten Ergebnissen durchführen lässt.
Die Suche nach Teilwörtern in der Datenbank lässt sich durch verschiedene Maßnahmen optimieren. So sollte zum Beispiel nur nach Teilwörtern gesucht werden, die eine vorgegebene Mindestlänge aufweisen. Als Mindestlänge hat sich in der Praxis eine Länge von 5 Buchstaben herausgestellt, wobei bei anderen Rahmenbedingungen, zum Beispiel für eine andere Sprache, auch Mindestlängen von 3, 4 oder 6 Buchstaben sinnvoll sein können.
Weiterhin wird das Suchergebnis verbessert, wenn die Suche für einen Wortteil des gegebenen Wortes nicht sofort nach dem Auffinden des ersten passenden Teilwortes abgebrochen wird, sondern noch nach anderen möglichen Teilwörtern gesucht wird. Dies kann zum Beispiel erfolgen, indem der Wortteil um weitere Buchstaben ergänzt wird. In der Regel ergibt sich bei dieser Vorgehensweise das beste Ergebnis, wenn von mehreren gefundenen Teilwörtern dasjenige ausgewählt wird, das am längsten ist. Es kann allerdings auch ein kürzeres Teilwort ausgewählt werden, wenn dieses kürzere Teilwort in Verbindung mit einem in der Datenbank gefundenen und im gegebenen Wort enthaltenen längeren Teilwort einen größeren Teil des gegebenen Wortes darstellt, als das gefundene längere Teilwort für sich alleine, wenn dieses nicht mit dem gefundenen zweiten Teilwort kombiniert werden kann.
Die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils kann mittels eines neuronalen Netzes erfolgen.
Alternativ oder ergänzend kann für die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils eine regelbasiertes Verfahren oder ein DTW-Verfahren zum Einsatz kommen. Ein solches Verfahren ist zum Beispiel in Rüdiger Hoffmann "Signalanalyse und -erkennung", Springer Verlag, Berlin, 1998, beschrieben.
Die OOV-Behandlung kann allerdings auch mittels einer zweiten Datenbank erfolgen, die die phonetischen Transkription von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthält. Im Deutschen sind dies insbesondere Dativ-und Genitivendungen, die bei zusammengesetzten Wörtern an das jeweils vorne stehende Wort angehängt werden.
Weitere wesentliche Merkmale und Vorteile der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Zeichnung; dabei zeigt
Figur 1
eine schematische Darstellung des Ablaufs des Verfahrens und
Figur 2
eine schematische Darstellung eines zwischen zwei Teilwörtern stehenden weiteren Bestandteils eines gegebenen Wortes.
Das Verfahren soll am Beispiel des gegebenen deutschen Wortes "Trainingslager" erläutert werden. Es sollen nur Teilwörter mit einer Mindestlänge von fünf Buchstaben gesucht werden. Im Schritt S1 gemäß Figur 1 wird für das gegebene Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht. Da die Mindestlänge auf fünf Buchstaben gesetzt ist, wird mit der Suche nach dem Wort "Train" angefangen. In einer deutschsprachigen Datenbank wird dieses Wort nicht gefunden. Enthält die Datenbank auch englischsprachige Wörter, so ist bereits jetzt das erste Teilwort des gegebenen Wortes gefunden. Vorzugsweise wird aber nicht nur im ersten, sondern auch im zweiten Fall weitergesucht. Dies geschieht durch die Suche nach dem Wort "Traini". Diese Buchstabenkombination wird in der Datenbank nicht gefunden. Das Gleiche gilt für die danach gesuchte Buchstabenkombination "Trainin".
Dagegen wird die nächste Buchstabenkombination "Training" in der Datenbank gefunden. Trotzdem wird auch in diesem Fall vorzugsweise weitergesucht, nämlich nach der Buchstabenkombination "Trainings" und den in entsprechender Fortsetzung dieses Suchschrittes gebildeten längeren Buchstabenkombinationen des gegebenen Wortes. Unter der Voraussetzung, dass das gegebene Wort "Trainingslager" in seiner Gesamtheit nicht in der Datenbank gefunden wird, werden keine weiteren Teilwörter in der Datenbank gefunden.
Für den Fall einer englisch- und deutschsprachigen Datenbank wird aus den beiden gefundenen Teilwörtern "Train" und "Training" das längere Teilwort "Training" ausgewählt. Dieser Auswahlschritt entfällt im Beispielfall für eine rein deutschsprachige Datenbank.
Im Schritt S3 wird für das gefundene Teilwort "Training" die in der Datenbank verzeichnete phonetische Transkription gewählt.
Gemäß dem Schritt S4 wird festgestellt, dass das gegebene Wort "Trainingslager" neben dem gefundenen Teilwort "Training" einen weiteren Bestandteil "slager" aufweist, der nicht in der Datenbank verzeichnet ist.
Dieser weitere Bestandteil "slager" wird dann im Schritt S5 mittels einer OOV-Behandlung phonetisch transkribiert. Diese OOV-Behandlung basiert vorzugsweise auf einer Umsetzung der einzelnen Grapheme des weiteren Bestandteils "slager" in Phoneme mittels eines neuronalen Netzes. Die Phoneme werden durch das neuronale Netz so ausgewählt und zusammengesetzt, dass sich für den weiteren Bestandteil für sich genommen eine möglichst gute Sprachsynthese ergibt.
Für ein noch besseres Sprachsyntheseergebnis erfolgt die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils "slager" in Abhängigkeit der aus der Datenbank gewählten phonetischen Transkription des gefundenen Teilwortes "Training". Das gefundene Teilwort "Training" bzw. seine phonetische Transkription gibt im gewählten Beispiel den linken phonetischen Kontext des weiteren Bestandteils "slager" sicher vor. Das für die OOV-Behandlung des weiteren Bestandteils "slager" verwendete neuronale Netz kann deshalb von einem sicheren Ergebnis der dem weiteren Bestandteil vorausgegangenen Silben des gegebenen Wortes ausgehen und ein entsprechend sicheres Ergebnis für die phonetische Transkription des weiteren Bestandteils liefern.
Im letzten Schritt S6 des Verfahrens zur Sprachsynthese wird schließlich die phonetische Transkription des gefundenen Teilwortes "Training" und die phonetische Transkription des weiteren Bestandteils "slager" zusammengesetzt.
Das Sprachsyntheseergebnis lässt sich weiter verbessern, wenn nicht nur vom Anfang des gegebenen Wortes beginnend Teilwörter gesucht werden, sondern die Suche auch von anderen Bereichen des gegebenen Wortes aus gestartet wird. Ist für das Teilwort eine bestimmte Mindestlänge i vorgegeben, so empfiehlt sich der Beginn der weiteren Suche beim i+ersten Buchstaben. Im gegebenen Beispiel wird dann für i=5 die weitere Suche mit der Buchstabenfolge "ingsl" gestartet, die ihrerseits wiederum die gegebene Mindestlänge aufweist. Diese Buchstabenfolge würde in der Datenbank nicht gefunden. Das gleiche gilt für die danach gesuchten Buchstabenfolgen "ingsla", "ingslag" usw.
Da bei dieser weiteren Suche keinerlei Teilwort gefunden wird, wird die darauffolgende Suche nicht beim Buchstaben 2*i+1 gestartet, sondern schon bei i+2. Allerdings führt auch die Suchsequenz "ngsla", "ngslag" usw. zu keinem Ergebnis. Nach dem Durchführen weiterer entsprechender Suchen wird allerdings in der letzten Suche das weitere Teilwort "lager" gefunden. Dieses weitere gefundene Teilwort "lager" entstammt nicht dem Wortteil des Wortes "Trainingslager", für den das erste Teilwort "Training" gefunden wurde. Deshalb muss im Beispiel keine Auswahl zwischen den beiden Teilwörtern getroffen werden.
Vielmehr verbleibt als weiterer Bestandteil des gegebenen Wortes "Trainingslager" nurmehr der Buchstabe "s". Dieser einzelne Buchstabe "s" lässt sich sehr leicht mittels einer OOV-Behandlung phonetischen transkribieren. Hierbei kommt noch erleichternd hinzu, dass gemäß Figur 2 für das Zentrum 2 "s" sowohl der linke Kontext 1 "Training" als auch der rechte Kontext 3 "lager" bekannt ist.
Statt der OOV-Behandlung durch ein neuronales Netz, wie sie oben beschrieben wurde, kann in diesem Fall die OOV-Behandlung auch durch eine Suche in einer weiteren Datenbank erfolgen, in der die phonetischen Transkriptionen von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthalten sind. Das Genitiv-s des vorliegenden Beispiels ist ein solcher üblicherweise verwendeter Füllpartikel. Es würde deshalb in der zweiten Datenbank gefunden und die zugehörige phonetische Transkription gewählt werden.
Alternativ lassen sich für die OOV-Behandlung aber auch regelbasierte Verfahren und DTW-Verfahren einsetzen. In jedem Fall sind bessere phonetische Transkriptionen des weiteren Bestandteils zu erwarten, wenn bei der OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils die phonetische Transkription mehrerer oder aller gefundenen Teilwörter berücksichtigt wird. Dies ist natürlich insbesondere der Fall, wenn der weitere Bestandteil im Wort zwischen zwei gefundenen Teilwörtern angeordnet ist.
In einem letzten Schritt wird dann schließlich die phonetische Transkription des gefundenen Teilworts "Training", die phonetische Transkription des weiteren gefundenen Teilwortes "lager" und die phonetische Transkription des weiteren Bestandteils "s" zur Sprachsynthese zusammengesetzt.
Die erfindungsgemäße Anordnung lässt sich in Form eines Computersystems realisieren, das programmiert wird, ein entsprechendes Verfahren auszuführen.

Claims (11)

  1. Verfahren zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung, bei dem
    für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht wird,
    mindestens ein Teilwort des gegebenen Wortes in der Datenbank gefunden wird,
    für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt wird,
    das gegebene Wort neben dem gefundenen Teilwort mindestens einen weiteren Bestandteil aufweist, der nicht in der Datenbank verzeichnet ist,
    dieser weitere Bestandteil mittels einer OOV-Behandlung phonetisch transkribiert wird und
    die phonetische Transkription des gefundenen Teilwortes und die phonetische Transkription des weiteren Bestandteils zusammengesetzt wird.
  2. Verfahren zur Sprachsynthese nach Anspruch 1, bei dem
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes erfolgt.
  3. Verfahren zur Sprachsynthese nach Anspruch 1 oder 2, bei dem
    für das gefundene Wort in der Datenbank nach weiteren Teilwörtern des Wortes gesucht wird,
    mindestens ein weiteres Teilwort des gegebenen Wortes in der Datenbank gefunden wird,
    für dieses gefundene weitere Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt wird und
    die phonetische Transkription des gefundenen Teilworts, die phonetische Transkription des weiteren gefundenen Teilworts und die phonetische Transkription des weiteren Bestandteils zusammengesetzt wird.
  4. Verfahren zur Sprachsynthese nach Anspruch 3, bei dem
    der weitere Bestandteil im gegebenen Wort zwischen dem gefundenen Teilwort und dem gefundenen weiteren Teilwort angeordnet ist und
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes und der phonetischen Transkription des gefundenen weiteren Teilworts erfolgt.
  5. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüchen, bei dem
    nur nach Teilwörtern gesucht wird, die mindestens eine vorgegebene Mindestlänge aufweisen.
  6. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    wenn für denselben Wortteil des gegebenen Wortteiles mehrere Teilwörter gefunden werden, von diesem das längste Teilwort ausgewählt wird.
  7. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils mittels eines neuronalen Netzes erfolgt.
  8. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils mittels eines regelbasierten Verfahrens erfolgt.
  9. Verfahren zur Sprachsynthese nach zumindest einem der vorstehenden Ansprüche, bei dem
    die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils mittels einer zweiten Datenbank erfolgt, die die phonetischen Transkription von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthält.
  10. Anordnung zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung, die so ausgebildet ist,
    dass für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, Teilwörter des gegebenen Wortes suchbar sind,
    mindestens ein Teilwort des gegebenen Wortes in der Datenbank auffindbar ist,
    dass für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription auswählbar ist,
    wobei das gegebene Wort neben dem gefundenen Teilwort mindestens einen weiteren Bestandteil aufweist, der nicht in der Datenbank verzeichnet ist,
    dass dieser weitere Bestandteil mittels einer OOV-Behandlung phonetisch transkribierbar ist und
    die phonetische Transkription des gefundenen Teilwortes und die phonetische Transkription des weiteren Bestandteils zusammensetzbar ist.
  11. Computerprogrammprodukt zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung, bei dem beim Ablauf auf zumindest einer Prozessoreinheit
    für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht wird,
    mindestens ein Teilwort des gegebenen Wortes in der Datenbank gefunden wird,
    für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt wird,
    das gegebene Wort neben dem gefundenen Teilwort mindestens einen weiteren Bestandteil aufweist, der nicht in der Datenbank verzeichnet ist,
    dieser weitere Bestandteil mittels einer OOV-Behandlung phonetisch transkribiert wird und
    die phonetische Transkription des gefundenen Teilwortes und die phonetische Transkription des weiteren Bestandteils zusammengesetzt wird.
EP01113053A 2000-08-31 2001-05-28 Phonetische Übersetzung für die Sprachsynthese Expired - Lifetime EP1184838B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10042942 2000-08-31
DE10042942A DE10042942C2 (de) 2000-08-31 2000-08-31 Verfahren zur Sprachsynthese

Publications (3)

Publication Number Publication Date
EP1184838A2 true EP1184838A2 (de) 2002-03-06
EP1184838A3 EP1184838A3 (de) 2003-02-05
EP1184838B1 EP1184838B1 (de) 2005-08-31

Family

ID=7654521

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01113053A Expired - Lifetime EP1184838B1 (de) 2000-08-31 2001-05-28 Phonetische Übersetzung für die Sprachsynthese

Country Status (4)

Country Link
US (1) US7333932B2 (de)
EP (1) EP1184838B1 (de)
DE (2) DE10042942C2 (de)
ES (1) ES2244523T3 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
TWI233589B (en) * 2004-03-05 2005-06-01 Ind Tech Res Inst Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
US7869999B2 (en) * 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
TWI340330B (en) * 2005-11-14 2011-04-11 Ind Tech Res Inst Method for text-to-pronunciation conversion
DE102011118059A1 (de) 2011-11-09 2013-05-16 Elektrobit Automotive Gmbh Technik zur Ausgabe eines akustischen Signals mittels eines Navigationssystems
CN105206259A (zh) * 2015-11-03 2015-12-30 常州工学院 一种语音转换方法
CN110619866A (zh) * 2018-06-19 2019-12-27 普天信息技术有限公司 语音合成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5283833A (en) * 1991-09-19 1994-02-01 At&T Bell Laboratories Method and apparatus for speech processing using morphology and rhyming
US6094633A (en) * 1993-03-26 2000-07-25 British Telecommunications Public Limited Company Grapheme to phoneme module for synthesizing speech alternately using pairs of four related data bases

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE19719381C1 (de) * 1997-05-07 1998-01-22 Siemens Ag Verfahren zur Spracherkennung durch einen Rechner
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6188984B1 (en) * 1998-11-17 2001-02-13 Fonix Corporation Method and system for syllable parsing
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5283833A (en) * 1991-09-19 1994-02-01 At&T Bell Laboratories Method and apparatus for speech processing using morphology and rhyming
US6094633A (en) * 1993-03-26 2000-07-25 British Telecommunications Public Limited Company Grapheme to phoneme module for synthesizing speech alternately using pairs of four related data bases

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BAGSHAW P C: "PHONEMIC TRANSCRIPTION BY ANALOGY IN TEXT-TO-SPEECH SYNTHESIS: NOVEL WORD PRONUNCIATION AND LEXICON COMPRESSION" COMPUTER SPEECH AND LANGUAGE, ACADEMIC PRESS, LONDON, GB, Bd. 12, Nr. 2, 1. April 1998 (1998-04-01), Seiten 119-142, XP000766377 ISSN: 0885-2308 *
DAELEMANS W.: 'GRAFON: A Grapheme-to-Phoneme Conversion System for Dutch' PROC. 12TH INT. CONF. ON COMPUTATIONAL LINGUISTICS COLING-88 1988, BUDAPEST, HUNGARY, Seiten 133 - 138 *
DUTOIT T: "Introduction To Text-To-Speech Synthesis ntroduction To Text-To-Speech Synthesis" , AN INTRODUCTION TO TEXT-TO-SPEECH SYNTHESIS, TEXT, SPEECH AND LANGUAGE TECHNOLOGY VOL. 3, DORDRECHT: KLUWER ACADEMIC PUBL, NL, PAGE(S) 115-125 XP002157980 ISBN: 0-7923-4498-7 * Seite 115 - Seite 125 * *
HAIN H: "Automation of the Training Procedures for Neural Networks Performing Multi-Lingual Grapheme to Phoneme Conversion" PROC. OF EUROSPEECH '99, INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, Bd. 5, 6. - 9. September 1999, Seiten 2087-2090, XP002223264 Budapest, Ungarn *
HAIN H: "Ein hybrider Ansatz zur Graphem-Phonem-Konvertierung unter Verwendung eines Lexikons und eines neuronalen Netzes" ELEKTRONISCHE SPRACHSIGNALVERARBEITUNG, ELFTE KONFERENZ, TAGUNGSBAND, W.E.B. UNIVERSIT[TSVERLAG, 4. - 6. September 2000, Seiten 160-167, XP002223265 Cottbus, Deutschland *

Also Published As

Publication number Publication date
DE10042942A1 (de) 2002-03-28
US7333932B2 (en) 2008-02-19
US20020026313A1 (en) 2002-02-28
EP1184838B1 (de) 2005-08-31
ES2244523T3 (es) 2005-12-16
EP1184838A3 (de) 2003-02-05
DE10042942C2 (de) 2003-05-08
DE50107259D1 (de) 2005-10-06

Similar Documents

Publication Publication Date Title
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1611568B1 (de) Dreistufige einzelworterkennung
EP0533260B1 (de) Verfahren und Anordnung zum Erkennen der gesprochenen Wörter in einem Sprachsignal
EP0285221B1 (de) Verfahren zum Erkennen kontinuierlich gesprochener Wörter
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE60219030T2 (de) Verfahren zur mehrsprachigen Spracherkennung
DE102006006305A1 (de) Verfahren zur Aufbereitung von Informationen für ein Sprachdialogsystem
DE4111781A1 (de) Computersystem zur spracherkennung
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE19824450C2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen
EP1194921B1 (de) Verfahren und vorrichtung zur sprachverarbeitung
DE10253868B3 (de) Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium
DE102004056165A1 (de) Verfahren und Anordnung zur Bewertung des Emotionszustandens einer Person

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

17P Request for examination filed

Effective date: 20030303

AKX Designation fees paid

Designated state(s): DE ES FR GB IT

17Q First examination report despatched

Effective date: 20030918

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE ES FR GB IT

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REF Corresponds to:

Ref document number: 50107259

Country of ref document: DE

Date of ref document: 20051006

Kind code of ref document: P

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20050926

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2244523

Country of ref document: ES

Kind code of ref document: T3

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20060601

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20120621

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20130529

Year of fee payment: 13

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140528

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20150511

Year of fee payment: 15

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20150731

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20150513

Year of fee payment: 15

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140529

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20150720

Year of fee payment: 15

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50107259

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20160528

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20170131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160531

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20161201

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160528