EP1184838A2 - Phonetic transcription for speech synthesis - Google Patents
Phonetic transcription for speech synthesis Download PDFInfo
- Publication number
- EP1184838A2 EP1184838A2 EP01113053A EP01113053A EP1184838A2 EP 1184838 A2 EP1184838 A2 EP 1184838A2 EP 01113053 A EP01113053 A EP 01113053A EP 01113053 A EP01113053 A EP 01113053A EP 1184838 A2 EP1184838 A2 EP 1184838A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- word
- found
- partial
- database
- phonetic transcription
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 64
- 230000035897 transcription Effects 0.000 title claims abstract description 64
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 22
- 238000011282 treatment Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000004590 computer program Methods 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000000945 filler Substances 0.000 claims description 4
- 239000002245 particle Substances 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 238000012549 training Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Definitions
- the invention relates to a method, an arrangement and a Computer program product for speech synthesis using grapheme-phoneme conversion.
- Language processing methods are, for example, from US 6 029 135, US 5 732 388, DE 19636739 C1 and DE 19719381 C1 known.
- Text saved in non-spoken form pretend to be speech through a speech synthesis. To do this usually the individual words of the text in a database searched that the phonetic transcriptions numerous Contains words. The phonetic transcriptions of the Words found in the database are put together and can be output as language.
- OOV treatment Out-of-vocabulary treatment
- the object of the invention is to improve speech synthesis in that larger Extent of phonetic values given in a database Transcriptions of words can be used and OOV treatments are only used to a lesser extent have to.
- This task is accomplished through a process, an arrangement and a computer program product with the features of independent Claims resolved.
- the arrangement or the computer program product it is possible even for a given word access the phonetic transcriptions of its partial words, if the given word is not completely in can put together subwords contained in the database.
- the main idea is that for the first time a hybrid Approach is used in the given for the same Word both the phonetic transcription more complete Partial words, as well as an OOV treatment is used.
- the OOV treatment takes place for the phonetic transcription of the further component in Dependence of the phonetic transcription of the found Partword. This allows the quality of the speech synthesis for the further component versus a corresponding one pure OOV treatment of the entire word clearly increase. On the one hand, this is because the phonetic Transcription of the partial word found is much safer is as a phonetic transcription of this subword would be through an OOV treatment. This can help with OOV treatment further part of a safe phonetic Context is what the OOV treatment much more likely to get the right result lets come. The other is the phonetic Transcription of the subword found much longer than the phonemes commonly used in OOV treatment.
- the method is particularly advantageous if it does not follow is aborted when a first partial word is found, but if additional subwords in the given word are searched become. In this way, the largest possible section of the given Word composed of partial words for those in the database reliable information is available, and only the remaining, mostly small further part of the word must undergo OOV treatment.
- the search for partial words in the database can be started optimize various measures. For example, only partial words are searched which have a predetermined minimum length exhibit.
- the minimum length has been in practice highlighted a length of 5 letters, with others Framework conditions, for example for a different language, too Minimum lengths of 3, 4 or 6 letters can be useful.
- the search result is improved when the search for a part of a given word not immediately after Finding the first matching partial word is canceled, but is still looking for other possible partial words. This can be done, for example, by adding the word part by more Letters is added. This usually results in this Do the best result if found by several Subwords that the longest is selected is. However, a shorter subword can also be selected if this shorter subword in conjunction with one found in the database and contained in the given word longer subword a larger part of the given Represents the longer partial word found for itself alone if this does not match the second subword found can be combined.
- the OOV treatment for phonetic transcription further Part of it can be done using a neural network.
- the OOV treatment can also be carried out using a second one Database that contain the phonetic transcription of filler particles commonly used in compound words contains. In German, these are especially dative and Genitive endings that appear in compound words on the word in front are appended.
- step S3 the "Training" subword is found selected phonetic transcription recorded in the database.
- step S4 it is determined that the given one Word "training camp” next to the found subword “training” has another component "slager” that is not is recorded in the database.
- This further component "slager” is then in step S5 transcribed phonetically using OOV treatment.
- This OOV treatment is preferably based on an implementation of the individual graphemes of the further component "slager” in phonemes by means of a neural network.
- the phonemes will be selected and composed by the neural network so that in itself for the further component one results in the best possible speech synthesis.
- the speech synthesis result can be further improved if not just partial words starting from the beginning of the given word be searched, but also the search of other areas from the given word.
- the beginning of the further search begins with the i + first letter.
- the further one becomes for i 5 Search started with the letter "ingsl”, which in turn again has the given minimum length. This Letters would not be found in the database. The the same applies to the letters "ingsla" searched for, "ingslag” etc.
- OOV treatment can be described also by searching another database take place in which the phonetic transcriptions of compound Words commonly used filler particles are included.
- the genitive-s of the present example is such a commonly used filler. It would therefore be found in the second database and the associated one phonetic transcription can be chosen.
- rule-based treatment can also be used for OOV treatment Use procedures and DTW procedures.
- OOV treatment for phonetic transcription of the further component the phonetic Transcription of several or all of the partial words found is taken into account.
- this is special the case when the further component in the word between two found subwords is arranged.
- the phonetic is finally Transcription of the found subword "Training”, the phonetic transcription of the further partial word found "Lager” and the phonetic transcription of the other component "s" composed for speech synthesis.
- the arrangement according to the invention can be in the form of a computer system realize that is programmed, a corresponding Execute procedure.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren, eine Anordnung und ein Computerprogrammprodukt zur Sprachsynthese mittels einer Graphem-Phonem-Umsetzung. Dabei wird für ein gegebenes Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht. Wird mindestens ein Teilwort des gegebenen Wortes in der Datenbank gefunden, so wird für das gefundene Teilwort eine in der Datenbank verzeichnete phonetische Transkription gewählt. Das gegebene Wort weist neben dem gefundenen Teilwort mindestens einen weiteren Bestandteil auf, der nicht in der Datenbank verzeichnet ist. Dieser weitere Bestandteil wird mittels einer OOV-Behandlung phonetisch transkribiert wird und die phonetische Transkription des gefundenen Teilwortes und die phonetische Transkription des weiteren Bestandteils wird zusammengesetzt.The invention relates to a method, an arrangement and a computer program product for speech synthesis by means of a grapheme-phoneme conversion. For a given word, a database containing phonetic transcriptions of words is searched for partial words of the given word. If at least one partial word of the given word is found in the database, a phonetic transcription recorded in the database is selected for the partial word found. In addition to the partial word found, the given word has at least one further component that is not recorded in the database. This additional component is transcribed phonetically using OOV treatment, and the phonetic transcription of the partial word found and the phonetic transcription of the additional component are put together.
Description
Die Erfindung betrifft ein Verfahren, eine Anordnung und ein Computerprogrammprodukt zur Sprachsynthese mittels Graphem-Phonem-Umsetzung.The invention relates to a method, an arrangement and a Computer program product for speech synthesis using grapheme-phoneme conversion.
Sprachverarbeitungsverfahren sind beispielsweise aus US 6 029 135, US 5 732 388, DE 19636739 C1 und DE 19719381 C1 bekannt. In nicht gesprochener Form gespeicherter Text lässt sich über eine Sprachsynthese als Sprache ausgeben. Dazu werden in der Regel die einzelnen Wörter des Textes in einer Datenbank gesucht, die die phonetischen Transkriptionen zahlreicher Wörter enthält. Die phonetischen Transkriptionen der in der Datenbank gefundenen Wörter werden zusammengesetzt und können als Sprache ausgegeben werden.Language processing methods are, for example, from US 6 029 135, US 5 732 388, DE 19636739 C1 and DE 19719381 C1 known. Text saved in non-spoken form pretend to be speech through a speech synthesis. To do this usually the individual words of the text in a database searched that the phonetic transcriptions numerous Contains words. The phonetic transcriptions of the Words found in the database are put together and can be output as language.
Da aber keine Datenbank vollständig ist, was in der Regel zur Reduktion der Datenbankgröße durchaus beabsichtigt ist, kommt es immer wieder vor, dass ein Text Wörter enthält, die in der Datenbank nicht gefunden werden. Diese Wörter werden dann mit einer Out-of-Vocabulary-Behandlung (OOV-Behandlung) phonetisch transkribiert. Dabei wird jedes Wort jeweils aus den einzelnen Buchstaben des Wortes zugeordneten Phonemen zusammengesetzt. Solche OOV-Behandlungen sind allerdings relativ rechenintensiv und führen in aller Regel zu schlechteren Ergebnissen als die phonetische Transkription ganzer Wörter aufgrund von Datenbankeinträgen.But since no database is complete, which is usually the reason Reduction in database size is well intentioned it always happens that a text contains words that are in the Database could not be found. These words are then with Out-of-vocabulary treatment (OOV treatment) phonetically transcribed. Each word is made up of the phonemes assigned to individual letters of the word. However, such OOV treatments are relative computationally intensive and generally lead to poorer results than the phonetic transcription of whole words based on database entries.
Weiterhin ist es bekannt, die phonetische Transkription eines gegebenen Wortes aus den phonetischen Transkriptionen seiner Teilwörter zusammenzusetzen, wenn das gegebene Wort ausschließlich aus diesen Teilwörtern besteht.Furthermore, it is known the phonetic transcription of a given word from the phonetic transcriptions of his Put together subwords if the given word exclusively consists of these subwords.
Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, Sprachsynthese dahingehend zu verbessern, dass in größerem Umfang auf in einer Datenbank angegebene phonetische Transkriptionen von Wörtern zurückgegriffen werden kann und nur noch in geringerem Maße OOV-Behandlungen verwendet werden müssen.Proceeding from this, the object of the invention is To improve speech synthesis in that larger Extent of phonetic values given in a database Transcriptions of words can be used and OOV treatments are only used to a lesser extent have to.
Diese Aufgabe wird durch ein Verfahren, eine Anordnung und ein Computerprogrammprodukt mit den Merkmalen der unabhängigen Patentansprüche gelöst.This task is accomplished through a process, an arrangement and a computer program product with the features of independent Claims resolved.
Durch das Verfahren, die Anordnung oder das Computerprogrammprodukt ist es möglich, auch dann für ein gegebenes Wort auf die phonetischen Transkriptionen seiner Teilwörter zurückzugreifen, wenn sich das gegebene Wort nicht vollständig aus in der Datenbank enthaltenen Teilwörtern zusammensetzen lässt. Der wesentliche Gedanke ist dabei, dass erstmals eine hybride Vorgehensweise zum Einsatz kommt, bei der für dasselbe gegebene Wort sowohl die phonetische Transkription vollständiger Teilwörter, als auch eine OOV-Behandlung zum Einsatz kommt.By the process, the arrangement or the computer program product it is possible even for a given word access the phonetic transcriptions of its partial words, if the given word is not completely in can put together subwords contained in the database. The main idea is that for the first time a hybrid Approach is used in the given for the same Word both the phonetic transcription more complete Partial words, as well as an OOV treatment is used.
In einer bevorzugten Weiterbildung erfolgt die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes. Hierdurch lässt sich die Qualität der Sprachsynthese für den weiteren Bestandteil gegenüber einer entsprechenden reinen OOV-Behandlung des gesamten Wortes deutlich steigern. Dies liegt zum einen daran, dass die phonetische Transkription des gefundenen Teilwortes sehr viel sicherer ist als es eine phonetische Transkription dieses Teilwortes durch einen OOV-Behandlung wäre. Dadurch kann bei der OOV-Behandlung des weiteren Bestandteils von einem sicheren phonetischen Kontext ausgegangen werden, was die OOV-Behandlung mit sehr viel größerer Wahrscheinlichkeit zum richtigen Ergebnis kommen lässt. Zum anderen ist die phonetische Transkription des gefundenen Teilwortes sehr viel länger als die üblicherweise bei einer OOV-Behandlung verwendeten Phoneme. Deshalb ist der phonetische Kontext nicht nur sicherer, sondern auch länger, so dass die OOV-Behandlung für den weiteren Bestandteil aufgrund einer größeren Menge relevanter Informationen durchgeführt werden kann. Dieser Vorteil muss für die beanspruchte bevorzugte Weiterbildung allerdings nicht unbedingt ausgenutzt werden. Unter bestimmten Bedingungen kann es auch sinnvoll sein, wenn für die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils in Abhängigkeit der phonetischen Transkription des gefundenen Teilwortes lediglich der Teil des Teilwortes berücksichtigt wird, der dem weiteren Bestandteil unmittelbar benachbart ist.In a preferred development, the OOV treatment takes place for the phonetic transcription of the further component in Dependence of the phonetic transcription of the found Partword. This allows the quality of the speech synthesis for the further component versus a corresponding one pure OOV treatment of the entire word clearly increase. On the one hand, this is because the phonetic Transcription of the partial word found is much safer is as a phonetic transcription of this subword would be through an OOV treatment. This can help with OOV treatment further part of a safe phonetic Context is what the OOV treatment much more likely to get the right result lets come. The other is the phonetic Transcription of the subword found much longer than the phonemes commonly used in OOV treatment. So the phonetic context is not only safer, but also longer, so the OOV treatment for the further Component more relevant due to a larger amount Information can be done. This advantage must for the preferred further training claimed not necessarily be exploited. Under certain circumstances it may also be useful if for OOV treatment for the phonetic transcription of the further component in Dependence of the phonetic transcription of the found Partial word only takes into account the part of the partial word that is immediately adjacent to the other component is.
Besonders vorteilhaft wird das Verfahren, wenn es nicht nach dem Auffinden eines ersten Teilwortes abgebrochen wird, sondern wenn noch weitere Teilwörter im gegebenen Wort gesucht werden. So wird ein möglichst großer Abschnitt des gegebenen Wortes aus Teilwörtern zusammengesetzt, für die in der Datenbank zuverlässige Informationen vorliegen, und lediglich der verbleibende, meist kleine weitere Bestandteil des Wortes muss einer OOV-Behandlung unterzogen werden.The method is particularly advantageous if it does not follow is aborted when a first partial word is found, but if additional subwords in the given word are searched become. In this way, the largest possible section of the given Word composed of partial words for those in the database reliable information is available, and only the remaining, mostly small further part of the word must undergo OOV treatment.
Steht dieser verbleibende weitere Bestandteil zwischen zwei gefundenen Teilwörtern so wird die OOV-Behandlung vorzugsweise in Abhängigkeit beider gefundener Teilbereiche vorgenommen. Dann ist nämlich sowohl der linke als auch der rechte phonetische Kontext des weiteren Bestandteils sicher vorgegeben, weshalb sich die OOV-Behandlung mit exzellenten Ergebnissen durchführen lässt.This remaining further component stands between two partial words found, OOV treatment is preferred depending on the two sub-areas found. Then both the left and the right one phonetic context of the other component which is why the OOV treatment with excellent results can be carried out.
Die Suche nach Teilwörtern in der Datenbank lässt sich durch verschiedene Maßnahmen optimieren. So sollte zum Beispiel nur nach Teilwörtern gesucht werden, die eine vorgegebene Mindestlänge aufweisen. Als Mindestlänge hat sich in der Praxis eine Länge von 5 Buchstaben herausgestellt, wobei bei anderen Rahmenbedingungen, zum Beispiel für eine andere Sprache, auch Mindestlängen von 3, 4 oder 6 Buchstaben sinnvoll sein können. The search for partial words in the database can be started optimize various measures. For example, only partial words are searched which have a predetermined minimum length exhibit. The minimum length has been in practice highlighted a length of 5 letters, with others Framework conditions, for example for a different language, too Minimum lengths of 3, 4 or 6 letters can be useful.
Weiterhin wird das Suchergebnis verbessert, wenn die Suche für einen Wortteil des gegebenen Wortes nicht sofort nach dem Auffinden des ersten passenden Teilwortes abgebrochen wird, sondern noch nach anderen möglichen Teilwörtern gesucht wird. Dies kann zum Beispiel erfolgen, indem der Wortteil um weitere Buchstaben ergänzt wird. In der Regel ergibt sich bei dieser Vorgehensweise das beste Ergebnis, wenn von mehreren gefundenen Teilwörtern dasjenige ausgewählt wird, das am längsten ist. Es kann allerdings auch ein kürzeres Teilwort ausgewählt werden, wenn dieses kürzere Teilwort in Verbindung mit einem in der Datenbank gefundenen und im gegebenen Wort enthaltenen längeren Teilwort einen größeren Teil des gegebenen Wortes darstellt, als das gefundene längere Teilwort für sich alleine, wenn dieses nicht mit dem gefundenen zweiten Teilwort kombiniert werden kann.Furthermore, the search result is improved when the search for a part of a given word not immediately after Finding the first matching partial word is canceled, but is still looking for other possible partial words. This can be done, for example, by adding the word part by more Letters is added. This usually results in this Do the best result if found by several Subwords that the longest is selected is. However, a shorter subword can also be selected if this shorter subword in conjunction with one found in the database and contained in the given word longer subword a larger part of the given Represents the longer partial word found for itself alone if this does not match the second subword found can be combined.
Die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils kann mittels eines neuronalen Netzes erfolgen.The OOV treatment for phonetic transcription further Part of it can be done using a neural network.
Alternativ oder ergänzend kann für die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils eine regelbasiertes Verfahren oder ein DTW-Verfahren zum Einsatz kommen. Ein solches Verfahren ist zum Beispiel in Rüdiger Hoffmann "Signalanalyse und -erkennung", Springer Verlag, Berlin, 1998, beschrieben.Alternatively or in addition, for OOV treatment phonetic transcription of the further component a rule-based Procedure or a DTW procedure used come. One such method is in Rüdiger, for example Hoffmann "Signal Analysis and Detection", Springer Verlag, Berlin, 1998.
Die OOV-Behandlung kann allerdings auch mittels einer zweiten Datenbank erfolgen, die die phonetischen Transkription von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthält. Im Deutschen sind dies insbesondere Dativ-und Genitivendungen, die bei zusammengesetzten Wörtern an das jeweils vorne stehende Wort angehängt werden. However, the OOV treatment can also be carried out using a second one Database that contain the phonetic transcription of filler particles commonly used in compound words contains. In German, these are especially dative and Genitive endings that appear in compound words on the word in front are appended.
Weitere wesentliche Merkmale und Vorteile der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Zeichnung; dabei zeigt
Figur 1- eine schematische Darstellung des Ablaufs des Verfahrens und
- Figur 2
- eine schematische Darstellung eines zwischen zwei Teilwörtern stehenden weiteren Bestandteils eines gegebenen Wortes.
- Figure 1
- a schematic representation of the course of the method and
- Figure 2
- is a schematic representation of a further component of a given word between two partial words.
Das Verfahren soll am Beispiel des gegebenen deutschen Wortes "Trainingslager" erläutert werden. Es sollen nur Teilwörter mit einer Mindestlänge von fünf Buchstaben gesucht werden. Im Schritt S1 gemäß Figur 1 wird für das gegebene Wort in einer Datenbank, die phonetische Transkriptionen von Wörtern enthält, nach Teilwörtern des gegebenen Wortes gesucht. Da die Mindestlänge auf fünf Buchstaben gesetzt ist, wird mit der Suche nach dem Wort "Train" angefangen. In einer deutschsprachigen Datenbank wird dieses Wort nicht gefunden. Enthält die Datenbank auch englischsprachige Wörter, so ist bereits jetzt das erste Teilwort des gegebenen Wortes gefunden. Vorzugsweise wird aber nicht nur im ersten, sondern auch im zweiten Fall weitergesucht. Dies geschieht durch die Suche nach dem Wort "Traini". Diese Buchstabenkombination wird in der Datenbank nicht gefunden. Das Gleiche gilt für die danach gesuchte Buchstabenkombination "Trainin".The procedure should be based on the example of the given German word "Training camp" are explained. Only partial words should be used with a minimum length of five letters. in the Step S1 according to FIG. 1 is for the given word in one Database containing phonetic transcriptions of words searched for partial words of the given word. Since the The minimum length is set to five letters Searched for the word "Train". In a German language Database cannot find this word. Contains the Database also contains English words, so it is already now found the first subword of the given word. Preferably but not only in the first, but also in the second Case searched further. This is done by looking for the Word "traini". This letter combination is in the database not found. The same applies to the one you are looking for Letter combination "Trainin".
Dagegen wird die nächste Buchstabenkombination "Training" in der Datenbank gefunden. Trotzdem wird auch in diesem Fall vorzugsweise weitergesucht, nämlich nach der Buchstabenkombination "Trainings" und den in entsprechender Fortsetzung dieses Suchschrittes gebildeten längeren Buchstabenkombinationen des gegebenen Wortes. Unter der Voraussetzung, dass das gegebene Wort "Trainingslager" in seiner Gesamtheit nicht in der Datenbank gefunden wird, werden keine weiteren Teilwörter in der Datenbank gefunden. In contrast, the next letter combination "Training" in found the database. Nevertheless, even in this case preferably searched further, namely for the letter combination "Trainings" and the corresponding continuation of this Search step formed longer letter combinations of the given word. Provided that the given Word "training camp" in its entirety not in the Database is found, no further partial words are found in found the database.
Für den Fall einer englisch- und deutschsprachigen Datenbank wird aus den beiden gefundenen Teilwörtern "Train" und "Training" das längere Teilwort "Training" ausgewählt. Dieser Auswahlschritt entfällt im Beispielfall für eine rein deutschsprachige Datenbank.In the case of an English and German language database is made up of the two sub-words "Train" and "Training" the longer sub-word "training" selected. This selection step does not apply in the example case for a purely German-speaking Database.
Im Schritt S3 wird für das gefundene Teilwort "Training" die in der Datenbank verzeichnete phonetische Transkription gewählt.In step S3 the "Training" subword is found selected phonetic transcription recorded in the database.
Gemäß dem Schritt S4 wird festgestellt, dass das gegebene Wort "Trainingslager" neben dem gefundenen Teilwort "Training" einen weiteren Bestandteil "slager" aufweist, der nicht in der Datenbank verzeichnet ist.According to step S4, it is determined that the given one Word "training camp" next to the found subword "training" has another component "slager" that is not is recorded in the database.
Dieser weitere Bestandteil "slager" wird dann im Schritt S5 mittels einer OOV-Behandlung phonetisch transkribiert. Diese OOV-Behandlung basiert vorzugsweise auf einer Umsetzung der einzelnen Grapheme des weiteren Bestandteils "slager" in Phoneme mittels eines neuronalen Netzes. Die Phoneme werden durch das neuronale Netz so ausgewählt und zusammengesetzt, dass sich für den weiteren Bestandteil für sich genommen eine möglichst gute Sprachsynthese ergibt.This further component "slager" is then in step S5 transcribed phonetically using OOV treatment. This OOV treatment is preferably based on an implementation of the individual graphemes of the further component "slager" in phonemes by means of a neural network. The phonemes will be selected and composed by the neural network so that in itself for the further component one results in the best possible speech synthesis.
Für ein noch besseres Sprachsyntheseergebnis erfolgt die OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils "slager" in Abhängigkeit der aus der Datenbank gewählten phonetischen Transkription des gefundenen Teilwortes "Training". Das gefundene Teilwort "Training" bzw. seine phonetische Transkription gibt im gewählten Beispiel den linken phonetischen Kontext des weiteren Bestandteils "slager" sicher vor. Das für die OOV-Behandlung des weiteren Bestandteils "slager" verwendete neuronale Netz kann deshalb von einem sicheren Ergebnis der dem weiteren Bestandteil vorausgegangenen Silben des gegebenen Wortes ausgehen und ein entsprechend sicheres Ergebnis für die phonetische Transkription des weiteren Bestandteils liefern.OOV treatment takes place for an even better speech synthesis result for the phonetic transcription of the further component "slager" depending on the one selected from the database phonetic transcription of the partial word found "Training". The found subword "training" or its phonetic In the selected example, transcription gives the left one phonetic context of the further component "slager" for sure in front. That for the OOV treatment of the other component The "neural network" used by slager can therefore be used by one certain result of the previous component Syllables of the given word run out and one accordingly reliable result for phonetic transcription deliver the further component.
Im letzten Schritt S6 des Verfahrens zur Sprachsynthese wird schließlich die phonetische Transkription des gefundenen Teilwortes "Training" und die phonetische Transkription des weiteren Bestandteils "slager" zusammengesetzt.In the last step S6 of the method for speech synthesis finally the phonetic transcription of what was found Partial word "training" and the phonetic transcription of the another constituent "slager" composed.
Das Sprachsyntheseergebnis lässt sich weiter verbessern, wenn nicht nur vom Anfang des gegebenen Wortes beginnend Teilwörter gesucht werden, sondern die Suche auch von anderen Bereichen des gegebenen Wortes aus gestartet wird. Ist für das Teilwort eine bestimmte Mindestlänge i vorgegeben, so empfiehlt sich der Beginn der weiteren Suche beim i+ersten Buchstaben. Im gegebenen Beispiel wird dann für i=5 die weitere Suche mit der Buchstabenfolge "ingsl" gestartet, die ihrerseits wiederum die gegebene Mindestlänge aufweist. Diese Buchstabenfolge würde in der Datenbank nicht gefunden. Das gleiche gilt für die danach gesuchten Buchstabenfolgen "ingsla", "ingslag" usw.The speech synthesis result can be further improved if not just partial words starting from the beginning of the given word be searched, but also the search of other areas from the given word. Is for that Sub-word given a certain minimum length i, it is recommended the beginning of the further search begins with the i + first letter. In the given example the further one becomes for i = 5 Search started with the letter "ingsl", which in turn again has the given minimum length. This Letters would not be found in the database. The the same applies to the letters "ingsla" searched for, "ingslag" etc.
Da bei dieser weiteren Suche keinerlei Teilwort gefunden wird, wird die darauffolgende Suche nicht beim Buchstaben 2*i+1 gestartet, sondern schon bei i+2. Allerdings führt auch die Suchsequenz "ngsla", "ngslag" usw. zu keinem Ergebnis. Nach dem Durchführen weiterer entsprechender Suchen wird allerdings in der letzten Suche das weitere Teilwort "lager" gefunden. Dieses weitere gefundene Teilwort "lager" entstammt nicht dem Wortteil des Wortes "Trainingslager", für den das erste Teilwort "Training" gefunden wurde. Deshalb muss im Beispiel keine Auswahl zwischen den beiden Teilwörtern getroffen werden.Since no subword was found in this further search the subsequent search will not be by letter 2 * i + 1 started, but already at i + 2. However, leads too the search sequence "ngsla", "ngslag" etc. to no result. After performing other appropriate searches, however in the last search the further sub-word "lager" found. This subword "camp" was found not the part of the word "training camp" for which that first sub-word "training" was found. Therefore in Example no selection made between the two sub-words become.
Vielmehr verbleibt als weiterer Bestandteil des gegebenen
Wortes "Trainingslager" nurmehr der Buchstabe "s". Dieser
einzelne Buchstabe "s" lässt sich sehr leicht mittels einer
OOV-Behandlung phonetischen transkribieren. Hierbei kommt
noch erleichternd hinzu, dass gemäß Figur 2 für das Zentrum 2
"s" sowohl der linke Kontext 1 "Training" als auch der rechte
Kontext 3 "lager" bekannt ist.Rather, there remains as a further component of the given
Word "training camp" only the letter "s". This
single letter "s" can be very easily by means of a
Transcribe OOV treatment phonetic. Here comes
to make it even easier that, according to FIG
"s" both the
Statt der OOV-Behandlung durch ein neuronales Netz, wie sie oben beschrieben wurde, kann in diesem Fall die OOV-Behandlung auch durch eine Suche in einer weiteren Datenbank erfolgen, in der die phonetischen Transkriptionen von bei zusammengesetzten Wörtern üblicherweise verwendeten Füllpartikeln enthalten sind. Das Genitiv-s des vorliegenden Beispiels ist ein solcher üblicherweise verwendeter Füllpartikel. Es würde deshalb in der zweiten Datenbank gefunden und die zugehörige phonetische Transkription gewählt werden.Instead of OOV treatment through a neural network like her In this case, OOV treatment can be described also by searching another database take place in which the phonetic transcriptions of compound Words commonly used filler particles are included. The genitive-s of the present example is such a commonly used filler. It would therefore be found in the second database and the associated one phonetic transcription can be chosen.
Alternativ lassen sich für die OOV-Behandlung aber auch regelbasierte Verfahren und DTW-Verfahren einsetzen. In jedem Fall sind bessere phonetische Transkriptionen des weiteren Bestandteils zu erwarten, wenn bei der OOV-Behandlung zur phonetischen Transkription des weiteren Bestandteils die phonetische Transkription mehrerer oder aller gefundenen Teilwörter berücksichtigt wird. Dies ist natürlich insbesondere der Fall, wenn der weitere Bestandteil im Wort zwischen zwei gefundenen Teilwörtern angeordnet ist.Alternatively, rule-based treatment can also be used for OOV treatment Use procedures and DTW procedures. In each The case is better phonetic transcriptions of the further Component to be expected if the OOV treatment for phonetic transcription of the further component the phonetic Transcription of several or all of the partial words found is taken into account. Of course this is special the case when the further component in the word between two found subwords is arranged.
In einem letzten Schritt wird dann schließlich die phonetische Transkription des gefundenen Teilworts "Training", die phonetische Transkription des weiteren gefundenen Teilwortes "lager" und die phonetische Transkription des weiteren Bestandteils "s" zur Sprachsynthese zusammengesetzt.In a final step, the phonetic is finally Transcription of the found subword "Training", the phonetic transcription of the further partial word found "Lager" and the phonetic transcription of the other component "s" composed for speech synthesis.
Die erfindungsgemäße Anordnung lässt sich in Form eines Computersystems realisieren, das programmiert wird, ein entsprechendes Verfahren auszuführen.The arrangement according to the invention can be in the form of a computer system realize that is programmed, a corresponding Execute procedure.
Claims (11)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10042942 | 2000-08-31 | ||
DE10042942A DE10042942C2 (en) | 2000-08-31 | 2000-08-31 | Speech synthesis method |
Publications (3)
Publication Number | Publication Date |
---|---|
EP1184838A2 true EP1184838A2 (en) | 2002-03-06 |
EP1184838A3 EP1184838A3 (en) | 2003-02-05 |
EP1184838B1 EP1184838B1 (en) | 2005-08-31 |
Family
ID=7654521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP01113053A Expired - Lifetime EP1184838B1 (en) | 2000-08-31 | 2001-05-28 | Phonetic transcription for speech synthesis |
Country Status (4)
Country | Link |
---|---|
US (1) | US7333932B2 (en) |
EP (1) | EP1184838B1 (en) |
DE (2) | DE10042942C2 (en) |
ES (1) | ES2244523T3 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4072718B2 (en) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | Audio processing apparatus and method, recording medium, and program |
TWI233589B (en) * | 2004-03-05 | 2005-06-01 | Ind Tech Res Inst | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
US7869999B2 (en) * | 2004-08-11 | 2011-01-11 | Nuance Communications, Inc. | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis |
TWI340330B (en) * | 2005-11-14 | 2011-04-11 | Ind Tech Res Inst | Method for text-to-pronunciation conversion |
DE102011118059A1 (en) | 2011-11-09 | 2013-05-16 | Elektrobit Automotive Gmbh | Technique for outputting an acoustic signal by means of a navigation system |
CN105206259A (en) * | 2015-11-03 | 2015-12-30 | 常州工学院 | Voice conversion method |
CN110619866A (en) * | 2018-06-19 | 2019-12-27 | 普天信息技术有限公司 | Speech synthesis method and device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5283833A (en) * | 1991-09-19 | 1994-02-01 | At&T Bell Laboratories | Method and apparatus for speech processing using morphology and rhyming |
US6094633A (en) * | 1993-03-26 | 2000-07-25 | British Telecommunications Public Limited Company | Grapheme to phoneme module for synthesizing speech alternately using pairs of four related data bases |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651095A (en) * | 1993-10-04 | 1997-07-22 | British Telecommunications Public Limited Company | Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class |
DE4440598C1 (en) * | 1994-11-14 | 1996-05-23 | Siemens Ag | World Wide Web hypertext information highway navigator controlled by spoken word |
DE19500494C2 (en) * | 1995-01-10 | 1997-01-23 | Siemens Ag | Feature extraction method for a speech signal |
DE19636739C1 (en) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Multi-lingual hidden Markov model application for speech recognition system |
DE19719381C1 (en) * | 1997-05-07 | 1998-01-22 | Siemens Ag | Computer based speech recognition method |
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6188984B1 (en) * | 1998-11-17 | 2001-02-13 | Fonix Corporation | Method and system for syllable parsing |
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
DE10042944C2 (en) * | 2000-08-31 | 2003-03-13 | Siemens Ag | Grapheme-phoneme conversion |
-
2000
- 2000-08-31 DE DE10042942A patent/DE10042942C2/en not_active Expired - Fee Related
-
2001
- 2001-05-28 EP EP01113053A patent/EP1184838B1/en not_active Expired - Lifetime
- 2001-05-28 ES ES01113053T patent/ES2244523T3/en not_active Expired - Lifetime
- 2001-05-28 DE DE50107259T patent/DE50107259D1/en not_active Expired - Lifetime
- 2001-08-31 US US09/942,736 patent/US7333932B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5283833A (en) * | 1991-09-19 | 1994-02-01 | At&T Bell Laboratories | Method and apparatus for speech processing using morphology and rhyming |
US6094633A (en) * | 1993-03-26 | 2000-07-25 | British Telecommunications Public Limited Company | Grapheme to phoneme module for synthesizing speech alternately using pairs of four related data bases |
Non-Patent Citations (5)
Title |
---|
BAGSHAW P C: "PHONEMIC TRANSCRIPTION BY ANALOGY IN TEXT-TO-SPEECH SYNTHESIS: NOVEL WORD PRONUNCIATION AND LEXICON COMPRESSION" COMPUTER SPEECH AND LANGUAGE, ACADEMIC PRESS, LONDON, GB, Bd. 12, Nr. 2, 1. April 1998 (1998-04-01), Seiten 119-142, XP000766377 ISSN: 0885-2308 * |
DAELEMANS W.: 'GRAFON: A Grapheme-to-Phoneme Conversion System for Dutch' PROC. 12TH INT. CONF. ON COMPUTATIONAL LINGUISTICS COLING-88 1988, BUDAPEST, HUNGARY, Seiten 133 - 138 * |
DUTOIT T: "Introduction To Text-To-Speech Synthesis ntroduction To Text-To-Speech Synthesis" , AN INTRODUCTION TO TEXT-TO-SPEECH SYNTHESIS, TEXT, SPEECH AND LANGUAGE TECHNOLOGY VOL. 3, DORDRECHT: KLUWER ACADEMIC PUBL, NL, PAGE(S) 115-125 XP002157980 ISBN: 0-7923-4498-7 * Seite 115 - Seite 125 * * |
HAIN H: "Automation of the Training Procedures for Neural Networks Performing Multi-Lingual Grapheme to Phoneme Conversion" PROC. OF EUROSPEECH '99, INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, Bd. 5, 6. - 9. September 1999, Seiten 2087-2090, XP002223264 Budapest, Ungarn * |
HAIN H: "Ein hybrider Ansatz zur Graphem-Phonem-Konvertierung unter Verwendung eines Lexikons und eines neuronalen Netzes" ELEKTRONISCHE SPRACHSIGNALVERARBEITUNG, ELFTE KONFERENZ, TAGUNGSBAND, W.E.B. UNIVERSIT[TSVERLAG, 4. - 6. September 2000, Seiten 160-167, XP002223265 Cottbus, Deutschland * |
Also Published As
Publication number | Publication date |
---|---|
DE10042942A1 (en) | 2002-03-28 |
US7333932B2 (en) | 2008-02-19 |
US20020026313A1 (en) | 2002-02-28 |
EP1184838B1 (en) | 2005-08-31 |
ES2244523T3 (en) | 2005-12-16 |
EP1184838A3 (en) | 2003-02-05 |
DE10042942C2 (en) | 2003-05-08 |
DE50107259D1 (en) | 2005-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60035001T2 (en) | Speech synthesis with prosody patterns | |
DE10042944C2 (en) | Grapheme-phoneme conversion | |
DE60020660T2 (en) | Context-dependent acoustic models for voice recognition with voice-matching | |
DE60016722T2 (en) | Speech recognition in two passes with restriction of the active vocabulary | |
EP0797185B1 (en) | Method and device for speech recognition | |
EP1611568B1 (en) | Three-stage word recognition | |
EP0533260B1 (en) | Method and apparatus for recognizing the uttered words in a speech signal | |
EP0285221B1 (en) | Method for detecting continually pronounced words | |
DE2212472A1 (en) | Procedure and arrangement for the speech synthesis of printed message texts | |
DE102006036338A1 (en) | Method for generating a context-based speech dialog output in a speech dialogue system | |
EP1264301A1 (en) | Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system | |
DE10040063A1 (en) | Procedure for assigning phonemes | |
EP1282897B1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
EP1184838B1 (en) | Phonetic transcription for speech synthesis | |
EP0813734B1 (en) | Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed | |
DE60029456T2 (en) | Method for online adjustment of pronunciation dictionaries | |
DE60219030T2 (en) | Method for multilingual speech recognition | |
DE102006006305A1 (en) | Method for processing information for a speech dialogue system | |
DE4111781A1 (en) | COMPUTER SYSTEM FOR VOICE RECOGNITION | |
EP0834859B1 (en) | Method for determining an acoustic model for a word | |
DE102008024257A1 (en) | Speaker identification method for use during speech recognition in infotainment system in car, involves assigning user model to associated entry, extracting characteristics from linguistic expression of user and selecting one entry | |
DE19824450C2 (en) | Method and device for processing speech signals | |
EP1194921B1 (en) | Method and device for speech processing | |
DE10253868B3 (en) | Test and reference pattern synchronization method e.g. for speech recognition system, has test pattern potential synchronization points associated with reference synchronization points | |
DE102004056165A1 (en) | Method and device for evaluating the emotional state of a person |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK RO SI |
|
17P | Request for examination filed |
Effective date: 20030303 |
|
AKX | Designation fees paid |
Designated state(s): DE ES FR GB IT |
|
17Q | First examination report despatched |
Effective date: 20030918 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): DE ES FR GB IT |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REF | Corresponds to: |
Ref document number: 50107259 Country of ref document: DE Date of ref document: 20051006 Kind code of ref document: P |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20050926 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2244523 Country of ref document: ES Kind code of ref document: T3 |
|
ET | Fr: translation filed | ||
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20060601 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: ES Payment date: 20120621 Year of fee payment: 12 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20130529 Year of fee payment: 13 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20140528 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 15 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20150511 Year of fee payment: 15 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FD2A Effective date: 20150731 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20150513 Year of fee payment: 15 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20140529 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20150720 Year of fee payment: 15 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 50107259 Country of ref document: DE |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20160528 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20170131 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20160531 Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20161201 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20160528 |