FR2895133A1 - SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD. - Google Patents

SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD. Download PDF

Info

Publication number
FR2895133A1
FR2895133A1 FR0512854A FR0512854A FR2895133A1 FR 2895133 A1 FR2895133 A1 FR 2895133A1 FR 0512854 A FR0512854 A FR 0512854A FR 0512854 A FR0512854 A FR 0512854A FR 2895133 A1 FR2895133 A1 FR 2895133A1
Authority
FR
France
Prior art keywords
text
processing
elementary
operator
linguistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR0512854A
Other languages
French (fr)
Inventor
Edouard Hinard
Cedric Boidin
Laurent Roussarie
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0512854A priority Critical patent/FR2895133A1/en
Priority to PCT/FR2006/002745 priority patent/WO2007071834A1/en
Priority to DE602006012540T priority patent/DE602006012540D1/en
Priority to EP06841948A priority patent/EP1960996B1/en
Publication of FR2895133A1 publication Critical patent/FR2895133A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

La présente invention concerne un système de synthèse vocale par concaténation d'unités acoustiques comportant :- des moyens (4) de traitement linguistique d'un texte pour le transformer en une suite de phonèmes accompagnés d'indications prosodiques,- des moyens (6) de synthèse par concaténation d'éléments préenregistrés pour restituer un signal acoustique, en fonction de la suite de phonèmes,- des moyens (8) de saisie et d'édition,tel que les moyens (4) de traitement linguistique comportent au moins une unité (4A, 4B, 4C) de traitement élémentaire générant des résultats intermédiaires de traitement linguistique dudit texte, associée à un éditeur (8A, 8B, 8C) des moyens de saisie et d'édition (8), permettant à un opérateur de modifier les résultats intermédiaires et le système de synthèse vocale comporte des moyens (14) de paramétrage du texte en fonction des résultats modifiés par l'opérateur, les moyens (4) de traitement linguistiques adaptant le traitement linguistique du texte en fonction dudit paramétrage.The present invention relates to a voice synthesis system by concatenation of acoustic units comprising: - means (4) for linguistic processing of a text to transform it into a series of phonemes accompanied by prosodic indications, - means (6) synthesis method by concatenating prerecorded elements to reproduce an acoustic signal, as a function of the sequence of phonemes, - means (8) for inputting and editing, such that the linguistic processing means (4) comprise at least one unit (4A, 4B, 4C) generating intermediate results of linguistic processing of said text, associated with an editor (8A, 8B, 8C) of the input and edit means (8), allowing an operator to modify the intermediate results and the voice synthesis system comprises means (14) for parameterizing the text according to the results modified by the operator, the means (4) of linguistic processing adapting the t Linguistic text according to said setting.

Description

1 La presente invention concerne un systeme et un procede de syntheseThe present invention relates to a system and method for synthesizing

vocale par concatenation d'unites acoustiques ainsi qu'un programme d'ordinateur pour la mise en oeuvre du procede. Un systeme de synthese vocale a partir d'un texte comporte classiquement des moyens d'entree du texte a synthetiser et des moyens de traitement linguistique de ce texte pour le transformer en une suite de phonemes accompagnes d'indications prosodiques. Ces traitements linguistiques comportent des traitements syntaxiques, des traductions graphemes-phonemes ainsi que des traitements prosodiques. Its s'appuient sur des dictionnaires ainsi que sur des jeux de regles. II comporte egalement des moyens de synthese par concatenation d'elements preenregistres pour generer un signal acoustique en fonction de la suite de phonemes fournis par les traitements linguistiques. Un tel systeme est explicite plus en detail dans Gael Richard, Olivier 15 Cappe << Synthese de la parole a partir du texte D, Techniques de I'ingenieur H 7 288. De tels systemes cherchent a atteindre une qualite comparable a celle de la parole naturelle. Actuellement, une limitation importante dans la qualite de ces 20 systemes a synthese vocale reside dans le traitement linguistique. Cette limitation est liee a Ia perte d'information induite par la transcription et la nature ambigue de certaines formes textuelles. De ce fait, le recours systematique a la parole synthetique pour des enregistrements statiques ne peut se faire que sous le controle d'un operateur qui pallie les defauts inevitables de ce traitement 25 linguistique. Dans I'etat de la technique, trois methodes sont connues pour permettre a un operateur de controler le resultat d'un systeme de synthese de parole : - une methode d'enrichissement du texte par la presence de balises. 30 Cet enrichissement du texte permet de controler ('analyse linguistique (phonetisation d'un mot ou son etiquette grammaticale) ou le synthetiseur (volume, hauteur de la voix, vitesse d'elocution). L'utilisation de balises est actuellement, en cours de normalisation par I'organisme W3C. Une premiere 2 version du langage de balisage SSML (Speech Synthesis Markup Language û langage de balisage pour la synthese vocale) a ete publiee en septembre 2004, via I'url http://www.w3.org/TR/speech-synthesis/. L'enrichissement du texte d'entree se fait grace a un editeur specialise. L'outil (< TTS Director de la societe Loquendo est un exemple d'editeur dedie a Ia synthese vocale (http://www.loquendo.com/en/technology/tts director.htm). - le parametrage du systeme. Par exemple, I'outil Lexitool qui fait partie du catalogue de la societe Elan Speech, permet de gerer un lexique d'exception. L'operateur enrichit les donnees du systeme en ajoutant dans le io lexique les mots que le systeme ne prononce pas correctement et en leur associant la prononciation attendue. - Ia synthese interactive. Celle-ci est decrite dans ('article de Peter Rutten, Justin Fackrell The application of interactive speech unit selection in TTS systems D. Eurospeech 2003. L'intervention de I'operateur se fait dans le is processus de synthese apres ('execution d'une etape importante du traitement et conduit a modifier le comportement global du systeme par la suite en modifiant les parametres de cette etape de traitement. Par exemple, dans cet article, un operateur peut modifier localement le parametrage du synthetiseur, apres execution du traitement de selection, pour produire une variante de production de 20 synthese plus proche de ce qui est attendu. Ces methodes ont pour inconvenient majeur la faible correlation entre Ia modification effectuee par ('operateur et le resultat final obtenu. Par le terme faible correlation , on entend ici que ('operateur n'a pas une manipulation intuitive du systeme. Cette manipulation necessite un apprentissage important 25 avant que I'operateur soit capable de determiner le ou les parametres a modifier pour obtenir un meilleur resultat. Le but de ('invention est donc de resoudre cet inconvenient en proposant un systeme et un procede de synthese vocale interactif d'utilisation aisee pour un operateur. 30 L'objet de ('invention est un systeme de synthese vocale par concatenation d'unites acoustiques comportant : - des moyens de memorisation d'un texte a synthetiser, - des moyens de traitement linguistique dudit texte pour transformer ledit texte en une suite de phonemes accompagnes d'indications prosodiques, - des moyens de synthese par concatenation d'elements preenregistres pour restituer un signal acoustique, en fonction de la suite de phonemes, - des moyens de saisie et d'edition, caracterise en ce que les moyens de traitement linguistique comportent au moins une unite de traitement elementaire generant des resultats intermediaires de traitement linguistique dudit texte, ladite unite de traitement to elementaire etant associee a un editeur des moyens de saisie et d'edition, permettant a un operateur de modifier les resultats de ('unite de traitement elementaire, et ledit systeme de synthese vocale comporte en outre des moyens de parametrage du texte a synthetiser en fonction des resultats modifies par ('operateur, et lesdits moyens de traitement linguistiques adaptant le traitement is linguistique du texte en fonction dudit parametrage. D'autres caracteristiques sont : -le parametrage du texte comporte des balises inserees dans le texte a synthetiser ; - la ou chaque unite de traitement elementaire est adaptee pour 20 effectuer run des traitements elementaires de I'ensemble des traitements elementaires de : a) - validation du texte a synthetiser, b) -decoupage du texte en phrases, c) û decoupage du texte en groupes de souffle, 25 d) - decoupage du texte en mots, e) - modification d'un lexique d'exceptions, f) - phonetisation des mots, g) - analyse grammaticale, h) - prosodie. 30 - les moyens de traitement linguistique comportent des moyens de traitement elementaires pour effectuer la totalite des traitements elementaires dudit ensemble de traitements elementaires. 4 Un autre objet est un procede de synthese vocale par concatenation d'unites acoustiques comportant les &tapes de : -stockage d'un texte a synthetiser, - traitement linguistique dudit texte pour transformer ledit texte en une 5 suite de phonemes accompagnes d'indications prosodiques, - generation d'un signal sonore et de resultats intermediaires a partir de ladite suite, - analyse par un operateur du signal sonore et des resultats intermediaires, 10 - modification par ('operateur desdits resultats intermediaires si ledit operateur &tablit que la qualite du signal sonore est insuffisante, - creation et/ou modification de parametres du texte a synthetiser, - bouclage sur I'etape de traitement linguistique, celle-ci generant une nouvelle suite de phonemes tenant compte desdits parametres. 15 D'autres caracteristiques de cet objet sont - la modification des parametres consiste a creer/modifier des balises dans le texte a synthetiser ; - ('&tape de la generation de resultats interm&diaires comporte ('une des sous etapes de traitement elementaire : 20 - validation du texte a synthetiser, - decoupage du texte en phrases, - decoupage du texte en groupes de souffle, - decoupage du texte en mots, - modification d'un lexique d'exceptions, 25 phonetisation des mots, - analyse grammaticale, -prosodie. - ledit procede comporte en outre une &tape de selection de la sous &tape de traitement elementaire a executer parmi ('ensemble des sous etapes de 30 traitement elementaire ; - it est execute successivement 8 fois et a chaque fois, une sous &tape de traitement elementaire diff&rente est setectionnee dans I'ordre suivant : -validation du texte a synthetiser, - decoupage du texte en phrases, -decoupage du texte en groupes de souffle, - decoupage du texte en mots, -modification d'un lexique d'exceptions, - phonetisation des mots, -analyse grammaticale, - prosodie. Un autre objet est un programme d'ordinateur comprenant des instructions de code de programme pour ('execution des etapes du procede Io lorsque ledit programme est execute sur un ordinateur. Avantageusement, le traitement linguistique est decompose pour I'operateur en une serie de traitements elementaires lui permettant de maitriser ('ensemble des parametres ayant un impact sur la qualite du flux sonore produit. Pouvant selectionner I'etape elementaire sur laquelle it souhaite is intervenir, I'operateur maitrise avantageusement I'outil de synthese vocale dans ce qui lui parait titre le detail de son fonctionnement. De plus, la suite de traitements elementaires propose un ordre logique de traitement bien adapte au mode de fonctionnement de I'operateur alors qu'elle ne correspond pas au fonctionnement interne du systeme de synthese. 20 L'invention sera mieux comprise a la lecture de la description qui va suivre, faite uniquement a titre d'exemple, et en relation avec les dessins en annexe dans lesquels : - la figure 1 est un schema synoptique d'un systeme de synthese vocale selon un mode de realisation de ('invention ; 25 - la figure 2 est un ordinogramme d'un procede de synthese vocale selon un mode de realisation de ('invention ; - Ia figure 3 est une variante du procede selon la figure 2 ; et - la figure 4 est un ordinogramme d'un procede de synthese vocale utilisant le procede de la figure 3 selon un ordre de presentation de traitements 30 elementaires. En reference a la figure 1, un systeme 1 de synthese vocale comporte des moyens 2 d'entree d'un texte a synthetiser. Ce texte est stocke dans une memoire tampon 3 sous la forme d'un enregistrement comprenant le texte 6 proprement dit code, par exemple, selon la norme ISO/IEC 10646 ainsi que des parametres d'aide au traitement linguistique, par exemple sous forme de balises SSML. La memoire tampon 3 est connectee a des moyens 4 de traitement linguistique de ce texte. Ces moyens 4 de traitement linguistique sont connectes a une seconde memoire tampon 5 dans laquelle ils stockent le resultat du traitement linguistique sous forme d'une suite de phonemes accompagnes d'indications prosodiques. Cette seconde memoire 5 est connectee a des moyens 6 de synthese io par concatenation d'elements preenregistres pour restituer un signal acoustique en fonction de la suite de phonemes. Le signal acoustique est transforms en sons par des enceintes 7. Une description detaillee de ces differents elements est contenue dans le document de G. Richard et O. Capps precite. 15 Le systeme 1 de synthese vocale comporte des moyens 8 de saisie et d'edition. Ces moyens 8 de saisie et d'edition comportent des moyens 9 de saisie de type clavier ainsi qu'un outil de pointage 10 tel qu'une souris. Its comportent egalement un ecran de visualisation 11 et des moyens 12 de pilotage de ces peripheriques 9, 10, 11. 20 De fagon avantageuse, ces moyens 8 de saisie et d'edition presentent a un operateur du systeme 1 de synthese vocale une interface graphique conviviale. Les moyens 4 de traitement linguistique comportent une chaine d'unites 4A, 4B, 4C de traitement elementaire, chacune de celle-ci traitant un 25 element particulier de la chalne de traitement linguistique tel que le decoupage du texte en phrases, le decoupage des phrases en mots, la phonetisation des mots, I'analyse grammaticale, la prosodie... Chaque unite 4A, 4B, 4C de traitement elementaire est connectee a un editeur 8A, 8B, 8C specialise des moyens 8 de saisie et d'edition permettant a 30 I'operateur d'intervenir sur les resultats elementaires de ('unite 4A, 4B, 4C correspondante pour Ies modifier. 7 Chaque paire constituee d'une unite 4A, 4B, 4C de traitement elementaire et de son editeur 8A, 8B, 8C, constitue un module 13A, 13B, 13C de traitement et d'edition pour une etape determinee du traitement linguistique. Le systeme 1 de synthese vocale comporte des moyens 14 de parametrage connectes a la premiere memoire-tampon 3 et aux modules 13A, 13B, 13C de traitement elementaire. Ces moyens 14 de parametrage ajoutent, modifient ou suppriment les parametres d'aide au traitement linguistique contenus dans I'enregistrement stocke dans la memoire tampon en fonction des modifications apportees par io I'operateur sur les resultats elementaires de ('unite 4A, 4B, 4C de traitement elementaire de sorte que tors d'un traitement ulterieur de I'enregistrement par les memes unites de traitement elementaire, le resultat elementaire obtenu en sortie de chaque unite soit le resultat modifie par I'operateur. Les moyens 14 ne sont pas propres a agir sur le parametrage proprement dit des unites de traitement 15 elementaires, ni sur les moyens de synthese 6. Dans un mode de realisation prefere, le systeme 1 de synthese vocale comporte 8 modules correspondant a 8 etapes du traitement linguistique du texte. Le premier module porte sur le texte lui-meme. II permet a I'operateur 20 de valider que le texte a synthetiser lui convient. Optionnellement, ce module permet d'enrichir le texte avec des balises de changement de voix. La technique utilisee par ce premier module est decrite dans I'etat de la technique, par exemple dans la standardisation du langage SSML du W3C. Le deuxieme module porte sur le decoupage du texte en phases. 25 L'editeur montre a I'operateur Ies frontieres de phases qui peuvent ainsi titre supprimees, deplacees ou inserees. Le troisieme module porte sur le decoupage en groupes de souffle. L'editeur met en evidence les groupes de souffle et les durees des pauses entre les groupes. L'operateur peut modifier le placement des pauses et leurs durees. 30 Le quatrieme module porte sur le decoupage en mots. L'editeur met en evidence les regroupements de mots qui ont un lien. L'operateur peut separer des mots ou en regrouper d'autres pour former des locutions. 8 Le cinquieme module porte sur le lexique. L'operateur intervient sur les donnees en ajoutant, modifiant ou supprimant des entrees du lexique d'exception. Le sixieme module porte sur la phonetisation des mots. L'editeur presente a I'operateur la ou les formes phonetiques de chaque mot sur lesquels le systeme se base pour vocaliser le texte. L'operateur intervient sur le choix des variantes de prononciation, les liaisons, le e muet,... II est a noter que ce module se differentie du module precedent portant sur le lexique en ce qu'il ne modifie pas les donnees mais le resultat du processus de phonetisation. io Le septieme module porte sur ('analyse grammaticale. L'editeur presente a I'operateur le resultat de ('analyse grammaticale et les regles ayant abouti a ce resultat. L'operateur peut modifier le choix des regles et des marqueurs grammaticaux associes a chacun des mots ou groupe de mots. Le huitieme module porte sur la prosodie. L'editeur presente a 15 I'operateur les informations prosodiques sous forme de courbes ou de tableaux de valeurs que I'operateur peut modifier. Le fonctionnement de chaque unite de traitement elementaire et de son module d'interfacage associe va maintenant etre explicite en relation avec la figure 2. 20 Le texte etant stocke en 20 dans le systeme 1 de synthese vocale, une synthese vocale complete, jusqu'a la generation du signal sonore, est effectuee en 21. L'operateur a ainsi un signal sonore de reference pour son analyse. Cette synthese 21 comporte successivement une etape de traitement linguistique 22 et une etape de synthese par concatenation 23 comme explique 25 precedemment. Lors de I'etape de traitement linguistique 22, ('une des unites 4A, 4B, 4C de traitement elementaire genere en 24 des resultats intermediaires. Par exemple, les moyens d'analyse grammaticale generent un resultat d'analyse grammaticale accompagne des regles utilisees. 30 Le resultat sonore ainsi que les resultats intermediaires obtenus sont presentes a I'operateur en 25. Si le resultat sonore est conforme en 26 aux attentes de I'operateur, celui-ci est valide en 27 ainsi que les resultats intermediaires.  voice by concatenation of acoustic units and a computer program for the implementation of the method. A system of voice synthesis based on a text conventionally comprises input means of the text to be synthesized and means of linguistic processing of this text to transform it into a series of phonemes accompanied by prosodic indications. These linguistic treatments include syntax treatments, grapheme-phoneme translations as well as prosodic treatments. They rely on dictionaries as well as rules games. It also comprises means for synthesizing by concatenation of pre-recorded elements to generate an acoustic signal as a function of the sequence of phonemes provided by the linguistic processes. Such a system is explicit in more detail in Gael Richard, Olivier Cappe, Synthesis of speech from text D, Techniques de l'ingener H 7 288. Such systems seek to attain a quality comparable to that of speech. natural. At present, a significant limitation in the quality of these voice synthesized systems lies in linguistic processing. This limitation is related to the loss of information induced by transcription and the ambiguous nature of certain textual forms. As a result, the systematic recourse to synthetic speech for static recordings can only be made under the control of an operator who overcomes the inevitable defects of this linguistic treatment. In the state of the art, three methods are known to enable an operator to control the result of a speech synthesis system: a method of enriching the text by the presence of tags. 30 This enrichment of the text makes it possible to control the linguistic analysis (phonetization of a word or its grammatical label) or the synthesizer (volume, pitch of the voice, speed of elocution) The use of tags is currently, in progress A first version of the Speech Synthesis Markup Language (SSML) markup language was published in September 2004, via url http: //www.w3. org / TR / speech-synthesis / The enrichment of the input text is done by a specialized editor The <TTS Director of the Loquendo company is an example of an editor dedicated to voice synthesis (http: //www.loquendo.com/en/technology/tts director.htm) - the system configuration For example, the Lexitool tool which is part of the catalog of the company Elan Speech, allows to manage an exceptional lexicon The operator enriches the data of the system by adding in the lexicon the words that the system does not pronounce. not properly and by associating them with the expected pronunciation. - Interactive synthesis. This is described in the article by Peter Rutten, Justin Fackrell. The intervention of the operator is made in the synthesis process after the execution of an important stage of the processing and leads to modifying the overall behavior of the system later by modifying the parameters of this processing step, for example, in this article, an operator can modify locally the setting of the synthesizer, after execution of the processing of The main disadvantage of these methods is the low correlation between the modification effected by the operator and the final result obtained, the term "weak correlation" being used to mean a production variant of synthesis closer to what is expected. here that the operator does not have an intuitive manipulation of the system.This manipulation requires an important learning before the operator is able to finish the parameter (s) to be modified to obtain a better result. The object of the invention is therefore to overcome this disadvantage by proposing an easy-to-use interactive voice synthesizer system and method for an operator.The object of the invention is a voice concatenation synthesizer system. acoustic devices comprising: means for memorizing a text to be synthesized; means for linguistically processing said text to transform said text into a series of phonemes accompanied by prosodic indications; means for synthesizing by concatenation of pre-recorded elements for restoring an acoustic signal, according to the sequence of phonemes, - input and editing means, characterized in that the linguistic processing means comprise at least one elementary processing unit generating intermediate results of linguistic processing of said text, said unit of processing to elementary being associated with an editor means of capture and edition, allowing an operator to modify the results of the elementary processing unit, and said voice synthesis system further comprises means for parameterizing the text to be synthesized according to the results modified by the operator, and said linguistic processing means adapting the linguistic processing of the text into function of said parameterization. Other features are: -the text parameter has tags embedded in the text to be synthesized; the or each elementary processing unit is adapted to carry out elementary treatments of all the elementary processes of: a) validation of the text to be synthesized, b) -cutting of the text into sentences, c) cutting of the text in groups of breath, 25 d) - splitting of text into words, e) - modification of a lexicon of exceptions, f) - phonetization of words, g) - grammatical analysis, h) - prosody. The linguistic processing means comprise elementary processing means for performing all the elementary treatments of said set of elementary processes. Another object is a method of voice synthesis by concatenation of acoustic units comprising the stages of: storage of a text to be synthesized, linguistic processing of said text to transform said text into a series of phonemes accompanied by prosodic indications. , - generation of a sound signal and of intermediate results from said sequence, - analysis by an operator of the sound signal and intermediate results, 10 - modification by the operator of said intermediate results if said operator establishes that the quality of the signal sound is insufficient, - creation and / or modification of parameters of the text to be synthesized, - looping on the stage of linguistic processing, the latter generating a new series of phonemes taking into account said parameters. - the modification of the parameters consists in creating / modifying the tags in the text to be synthesized; - the stage of the generation of intermediate results includes one of the basic processing sub-steps: 20 - validation of the text to be synthesized, - splitting of the text into sentences, - splitting of the text into groups of breath, - splitting of the text into words, - modification of a lexicon of exceptions, 25 phonetization of words, - grammatical analysis, -prosody. said method further comprises a step of selecting the elementary processing sub-step to be executed from among the set of elementary processing sub-steps; it is executed successively 8 times and each time, a different elementary treatment sub-step; is selected in the following order: - validation of the text to be synthesized, - splitting of the text into sentences, - splitting of the text into groups of breath, - splitting of the text into words, - modification of a lexicon of exceptions, - phonetization Another object is a computer program comprising program code instructions for executing the steps of the method Io when said program is executed on a computer. Advantageously, the linguistic processing is It breaks down the operator into a series of elementary treatments that allow him to master all the parameters having an impact on the quality of the sound flow produced. To achieve the basic step on which it wishes to intervene, the operator masterfully masters the tool of voice synthesis in what appears to him as the detail of its operation. Moreover, the series of elementary processes proposes a logical order of treatment well adapted to the mode of operation of the operator whereas it does not correspond to the internal operation of the synthesis system. The invention will be better understood on reading the description which follows, made solely by way of example, and in relation to the appended drawings in which: FIG. 1 is a block diagram of a synthesis system. Figure 2 is a flowchart of a speech synthesis method according to an embodiment of the invention; Figure 3 is a variant of the method according to Figure 2; and FIG. 4 is a flowchart of a speech synthesis method using the method of FIG. 3 in a basic processing presentation order. In reference to FIG. 1, a voice synthesis system 1 comprises means 2 of FIG. This text is stored in a buffer 3 in the form of a record including the actual text code, for example, according to ISO / IEC 10646, as well as help parameters. language processing, for example in form e SSML tags. The buffer memory 3 is connected to linguistic processing means 4 of this text. These linguistic processing means 4 are connected to a second buffer memory 5 in which they store the result of the linguistic processing in the form of a series of phonemes accompanied by prosodic indications. This second memory 5 is connected to means 6 of synthesis by concatenation of pre-recorded elements to restore an acoustic signal as a function of the sequence of phonemes. The acoustic signal is transformed into sounds by speakers 7. A detailed description of these different elements is contained in the G. Richard and O. Capps document cited above. The voice synthesis system 1 comprises means 8 for inputting and editing. These input and output means 8 comprise keyboard type input means 9 and a pointing tool 10 such as a mouse. They also include a display screen 11 and means 12 for controlling these peripherals 9, 10, 11. Advantageously, these input and output means 8 present to an operator of the voice synthesis system 1 a graphical interface. friendly. The linguistic processing means 4 comprise a chain of elementary processing units 4A, 4B, 4C, each of which deals with a particular element of the linguistic processing unit such as the splitting of the text into sentences, the splitting of the sentences. in words, the phonetization of words, the grammatical analysis, the prosody ... Each unit 4A, 4B, 4C of elementary processing is connected to an editor 8A, 8B, 8C specializes means 8 of input and editing allowing a The operator to intervene on the elementary results of the corresponding unit 4A, 4B, 4C to modify them 7 Each pair made up of a unit 4A, 4B, 4C of elementary treatment and its editor 8A, 8B, 8C , constitutes a processing and editing module 13A, 13B, 13C for a determined stage of the linguistic processing The voice synthesis system 1 comprises parameterization means 14 connected to the first buffer memory 3 and to the modules 13A, 13B, 13C of elementary treatment. Parameter means 14 adds, modifies or suppresses the linguistic processing aid parameters contained in the record stored in the buffer memory according to the modifications made by the operator on the elementary results of unit 4A, 4B, 4C. of elementary processing so that, in a subsequent processing of the recording by the same elementary processing units, the elementary result obtained at the output of each unit is the result modified by the operator. The means 14 are not adapted to act on the actual parameter setting of the elementary processing units, nor on the synthesis means 6. In a preferred embodiment, the voice synthesis system 1 comprises 8 modules corresponding to 8 steps of the linguistic treatment of the text. The first module deals with the text itself. It allows the operator 20 to validate that the text to be synthesized suits him. Optionally, this module enriches the text with change of voice tags. The technique used by this first module is described in the state of the art, for example in the standardization of the W3C SSML language. The second module deals with the splitting of text into phases. The editor shows the operator the phase boundaries which can thus be deleted, moved or inserted. The third module deals with splitting into groups of breath. The editor highlights the groups of breath and the duration of breaks between groups. The operator can modify the placement of the breaks and their durations. The fourth module deals with splitting into words. The editor highlights the groupings of words that have a link. The operator can separate words or group others to form phrases. 8 The fifth module deals with the lexicon. The operator intervenes on the data by adding, modifying or deleting entries from the exception lexicon. The sixth module deals with the phonetization of words. The editor presents to the operator the phonetic form or forms of each word on which the system is based to vocalize the text. The operator intervenes on the choice of the variants of pronunciation, the connections, the dumb e ... It should be noted that this module is differentiated from the preceding module on the lexicon in that it does not modify the data but the result of the process of phonetization. The seventh module deals with the grammatical analysis of the editor presenting to the operator the result of the grammatical analysis and the rules which have led to this result.The operator can modify the choice of rules and grammatical markers associated with Each of the words or groups of words The eighth module deals with the prosody The editor presents to the operator the prosodic information in the form of curves or tables of values that the operator can modify. Elementary processing and its associated interfacing module will now be explained in relation to FIG. 2. The text being stored in 20 in the voice synthesis system 1, a complete voice synthesis, until the generation of the sound signal, is performed in 21. The operator thus has a reference sound signal for his analysis.This synthesis 21 successively comprises a linguistic processing step 22 and a concatenation synthesis step 23 as exp 25 previously. In the linguistic processing step 22, one of the elementary processing units 4A, 4B, 4C generates intermediate results at 24. For example, the grammatical analysis means generate a grammatical analysis result along with the rules used. The sound result as well as the intermediate results obtained are presented to the operator at 25. If the sound result is in accordance with the expectations of the operator, this is valid at 27 as well as the intermediate results.

Si le resultat sonore et/ou les resultats intermediaires ne sont pas conformes aux attentes de I'operateur, celui-ci modifie en 28 les resultats intermediaires en utilisant le module d'interface correspondant. Ces modifications sont prises en compte en 29 par le systeme 1 de synthese vocale sous forme d'une modification des parametres d'aide au traitement linguistique contenus dans le texte memorise. De facon preferentielle, cette prise en compte est faite sous la forme d'un enrichissement ou d'une modification de I'enrichissement du texte a synthetiser. Puis I'etape 21 de synthese vocale est executee de nouveau en to utilisant le nouveau texte enrichi. Le procede d'amelioration boucle jusqu'a ce que I'operateur soit satisfait du resultat obtenu. On conpoit que pour obtenir un flux sonore ayant toutes les caracteristiques souhaitees par I'operateur, it peut titre necessaire d'intervenir sur 15 plusieurs traitements elementaires. Dans un mode preferentiel de realisation, figure 3, le procede de synthese vocale comporte en outre une etape 30 de selection du module de traitement elementaire dont les resultats intermediaires vont titre analyses et, eventuellement, modifies par ('operation. 20 Ainsi, I'operateur peut avantageusement choisir le type de traitement elementaire dont it souhaite analyser et modifier les resultats. De maniere avantageuse, figure 4 les modifications sont faites dans I'ordre de presentation des unites de traitement elementaire suivant. L'operateur commence en 40 par editer le texte par I'intermediaire du 25 premier module associe aux unites de traitement elementaire du texte lui-meme. Puis, quand i1 a obtenu un resultat satisfaisant a ce niveau, I'operateur lance en 41 le deuxieme module de decoupage du texte en phrases. Apres obtention d'un resultat intermediaire satisfaisant, it lance en 42 le troisieme module de decoupage en groupes de souffle, puis en 43 le quatrieme 30 module de decoupage en mots, puis en 44 le cinquieme module du lexique, puis en 45 le sixieme module de phonetisation des mots, puis en 46 le septieme module d'analyse grammaticale, puis en 47 le huitieme module de prosodie. 10 Ce mode de realisation est remarquable en ce qu'il suit un ordre logique pour I'operateur mais qui ne correspond pas a I'organisation des traitements a I'interieur d'un analyseur linguistique d'un systeme de synthese vocale classique.  If the sound result and / or intermediate results are not in accordance with the expectations of the operator, it modifies at 28 the intermediate results using the corresponding interface module. These modifications are taken into account at 29 by the voice synthesis system 1 in the form of a modification of the linguistic processing aid parameters contained in the memorized text. In a preferential way, this consideration is made in the form of an enrichment or a modification of the enrichment of the text to be synthesized. Then the voice synthesis step 21 is executed again using the new enriched text. The improvement process loops until the operator is satisfied with the result obtained. It is understood that in order to obtain a sound flux having all the characteristics desired by the operator, it may be necessary to intervene on several elementary treatments. In a preferred embodiment, FIG. 3, the voice synthesis method also comprises a step 30 for selecting the elementary processing module whose intermediate results are analyzed and, if necessary, modified by the operation. The operator can advantageously choose the type of elementary processing which he wishes to analyze and modify the results, advantageously, figure 4, the modifications are made in the order of presentation of the following elementary processing units: the operator starts at 40 by editing the The first module associates with the elementary processing units of the text itself, and when it has obtained a satisfactory result at this level, the operator launches at 41 the second decoupage module of the text in sentences. After obtaining a satisfactory intermediate result, it launches in 42 the third module of cutting in groups of breath, then in 43 the fourth module of décou page in words, then in 44 the fifth module of the lexicon, then in 45 the sixth module of phonetization of the words, then in 46 the seventh module of grammatical analysis, then in 47 the eighth module of prosody. This embodiment is remarkable in that it follows a logical order for the operator but does not correspond to the organization of the processing within a linguistic analyzer of a conventional speech synthesis system.

L'operateur peut egalement revenir en arriere pour modifier les resultats intermediaires d'un des modules deja traites, par exemple parce qu'il s'est apercu tardivement d'une erreur.  The operator can also go back to modify the intermediate results of one of the modules already processed, for example because he noticed late an error.

Claims (10)

REVENDICATIONS 1. Systeme de synthese vocale par concatenation d'unites acoustiques comportant : - des moyens de memorisation (2) d'un texte a synthetiser, -des moyens (4) de traitement linguistique dudit texte pour transformer ledit texte en une suite de phonemes accompagnes d'indications prosodiques, - des moyens (6) de synthese par concatenation d'elements preenregistres pour restituer un signal acoustique, en fonction de la suite de 10 phonemes, - des moyens (8) de saisie et d'edition, caracterise en ce que les moyens (4) de traitement linguistique comportent au moins une unite (4A, 4B, 4C) de traitement elementaire generant des resultats intermediaires de traitement linguistique dudit texte, ladite unite de is traitement elementaire etant associee a un editeur (8A, 8B, 8C) des moyens de saisie et d'edition (8), permettant a un operateur de modifier les resultats de I'unite (4A, 4B, 4C) de traitement elementaire, et en ce que ledit systeme de synthese vocale comporte en outre des moyens (14) de parametrage du texte a synthetiser en fonction des resultats modifies par I'operateur, et lesdits moyens 20 (4) de traitement linguistiques adaptant le traitement linguistique du texte en fonction dudit parametrage.  1. System for voice synthesis by concatenation of acoustic units comprising: - means for memorizing (2) a text to be synthesized, - means (4) for linguistic processing of said text to transform said text into a series of phonemes accompanied prosodic indications, - means (6) of synthesis by concatenation of pre-recorded elements to restore an acoustic signal, depending on the sequence of 10 phonemes, - means (8) for input and editing, characterized in that that the linguistic processing means (4) comprise at least one unit (4A, 4B, 4C) of elementary processing generating intermediate results of linguistic processing of said text, said elementary processing unit being associated with an editor (8A, 8B, 8C) input and output means (8), allowing an operator to modify the results of the elementary processing unit (4A, 4B, 4C), and in that said voice synthesis system further comprises means (14) of p arametrage of the text to be synthesized according to the results modified by the operator, and said linguistic processing means (4) adapting the linguistic processing of the text as a function of said parameterization. 2. Systeme de synthese vocale selon la revendication 1, caracterise en ce que le parametrage du texte comporte des balises inserees dans le texte a synthetiser. 25  2. Speech synthesis system according to claim 1, characterized in that the text parameter has tags inserted into the text to be synthesized. 25 3. Systeme de synthese vocale selon la revendication 1 ou 2, caracterise en ce que la ou chaque unite de traitement elementaire est adaptee pour effectuer I'un des traitements elementaires de I'ensemble des traitements elementaires de : a) - validation du texte a synthetiser, 30 b) -decoupage du texte en phrases, c) û decoupage du texte en groupes de souffle, d) decoupage du texte en mots, e) - modification d'un lexique d'exceptions, 12 f) - phonetisation des mots, g) - analyse grammaticale, h) - prosodie.  3. Voice synthesis system according to claim 1 or 2, characterized in that the or each elementary processing unit is adapted to perform one of the elementary treatments of all the elementary processing of: a) - validation of the text a synthetize, 30 b) -coupage of text into sentences, c) -cutting of text into groups of breath, d) splitting of text into words, e) - modification of a lexicon of exceptions, 12 f) - phonetization of words , g) - grammatical analysis, h) - prosody. 4. Systeme de synthese vocale selon la revendication 3, caracterise en ce que les moyens de traitement linguistique comportent des moyens de traitement elementaires pour effectuer la totalite des traitements elementaires dudit ensemble de traitements elementaires.  4. Speech synthesis system according to claim 3, characterized in that the linguistic processing means comprise elementary processing means for performing all the elementary processing of said set of elementary processes. 5. Procede de synthese vocale par concatenation d'unites acoustiques comportant les etapes de : to - stockage (20) d'un texte a synthetiser, -traitement linguistique (22) dudit texte pour transformer ledit texte en une suite de phonemes accompagnes d'indications prosodiques, - generation (23,24) d'un signal sonore et de resultats intermediaires a partir de ladite suite, 15 - analyse (25) par un operateur du signal sonore et des resultats intermediaires, - modification (28) par ('operateur desdits resultats intermediaires si ledit operateur etablit que la qualite du signal sonore est insuffisante, - creation et/ou modification (29) de parametres du texte a synthetiser, 20 - bouclage sur I'etape de traitement linguistique, celle-ci generant une nouvelle suite de phonemes tenant compte desdits parametres.  5. Process for voice synthesis by concatenation of acoustic units comprising the steps of: to - storage (20) of a text to be synthesized, - linguistic processing (22) of said text to transform said text into a series of phonemes accompanied by prosodic indications, - generation (23,24) of a sound signal and of intermediate results from said sequence, - analysis (25) by an operator of the sound signal and intermediate results, - modification (28) by operator of said intermediate results if said operator establishes that the quality of the sound signal is insufficient, - creation and / or modification (29) of parameters of the text to be synthesized, 20 - loopback on the linguistic processing step, the latter generating a new suite of phonemes taking into account said parameters. 6. Procede de synthese vocale selon la revendication 5, caracterise en ce que la modification des parametres consiste a creer/modifier des balises dans le texte a synthetiser. 25  6. Voice synthesis method according to claim 5, characterized in that the modification of the parameters consists in creating / modifying tags in the text to be synthesized. 25 7. Procede de synthese vocale selon la revendication 5 ou 6, caracterise en ce que I'etape de la generation de resultats intermediaires comporte ('une des sous etapes de traitement elementaire : - validation du texte a synthetiser, - decoupage du texte en phrases, 30 - decoupage du texte en groupes de souffle, - decoupage du texte en mots, - modification d'un lexique d'exceptions, - phonetisation des mots,- analyse grammaticale, -prosodie.  7. Speech synthesis method according to claim 5 or 6, characterized in that the step of generating intermediate results comprises one of the sub-stages of elementary processing: - validation of the text to be synthesized, - splitting of the text into sentences , 30 - splitting of text into groups of breath, - splitting of text into words, - modification of a lexicon of exceptions, - phonetization of words, - grammatical analysis, -prosodie. 8. Procede de synthese vocale selon la revendication 7, caracterise en ce qu'il comporte en outre une etape de selection (30) de la sous etape de traitement elementaire a executer parmi ('ensemble des sous etapes de traitement elementaire.  8. Voice synthesis method according to claim 7, characterized in that it further comprises a selection step (30) of the elementary processing sub-step to be executed among ('set of sub-stages of elementary processing. 9. Procede de synthese vocale caracterise en ce que le procede de la revendication 8 est execute successivement 8 fois et qu'a chaque fois, une sous etape de traitement elementaire differente est selectionnee dans I'ordre suivant :  9. A method of voice synthesis characterized in that the method of claim 8 is executed successively 8 times and each time, a different basic processing sub-step is selected in the following order: 10 - validation du texte a synthetiser, - decoupage du texte en phrases, -decoupage du texte en groupes de souffle, - decoupage du texte en mots, -modification d'un lexique d'exceptions, 15 - phonetisation des mots, -analyse grammaticale, - prosodie. 10. Programme d'ordinateur comprenant des instructions de code de programme pour ('execution des etapes du procede selon ('une des 20 revendications 5 a 9 lorsque ledit programme est execute sur un ordinateur.  10 - validation of the text to be synthesized, - splitting of text into sentences, - splitting of text into groups of breath, - splitting of text into words, - modification of a lexicon of exceptions, 15 - phonetization of words, - grammatical analysis , - prosody. A computer program comprising program code instructions for executing the steps of the method according to one of claims 5 to 9 when said program is executed on a computer.
FR0512854A 2005-12-16 2005-12-16 SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD. Pending FR2895133A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR0512854A FR2895133A1 (en) 2005-12-16 2005-12-16 SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD.
PCT/FR2006/002745 WO2007071834A1 (en) 2005-12-16 2006-12-15 Voice synthesis by concatenation of acoustic units
DE602006012540T DE602006012540D1 (en) 2005-12-16 2006-12-15 SPEECH PRODUCTION BY CONNECTING ACOUSTIC UNITS
EP06841948A EP1960996B1 (en) 2005-12-16 2006-12-15 Voice synthesis by concatenation of acoustic units

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0512854A FR2895133A1 (en) 2005-12-16 2005-12-16 SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD.

Publications (1)

Publication Number Publication Date
FR2895133A1 true FR2895133A1 (en) 2007-06-22

Family

ID=36716805

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0512854A Pending FR2895133A1 (en) 2005-12-16 2005-12-16 SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD.

Country Status (4)

Country Link
EP (1) EP1960996B1 (en)
DE (1) DE602006012540D1 (en)
FR (1) FR2895133A1 (en)
WO (1) WO2007071834A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PETER RUTTEN ET AL: "The application of interactive speech unit selection in TTS systems", EUROSPEECH 2003, September 2003 (2003-09-01), pages 285 - 288, XP007006675 *

Also Published As

Publication number Publication date
WO2007071834A1 (en) 2007-06-28
DE602006012540D1 (en) 2010-04-08
EP1960996A1 (en) 2008-08-27
EP1960996B1 (en) 2010-02-24

Similar Documents

Publication Publication Date Title
Tatham et al. Developments in speech synthesis
US20100324895A1 (en) Synchronization for document narration
US20170047060A1 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
JPH10153998A (en) Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method
JP2006106741A (en) Method and apparatus for preventing speech comprehension by interactive voice response system
US20160005392A1 (en) Devices and Methods for a Universal Vocoder Synthesizer
Krug et al. Intelligibility and naturalness of articulatory synthesis with VocalTractLab compared to established speech synthesis technologies
WO2018120820A1 (en) Presentation production method and apparatus
Bonafonte et al. TC-STAR: Specifications of Language Resources and Evaluation for Speech Synthesis.
JP4697432B2 (en) Music playback apparatus, music playback method, and music playback program
JP2006313176A (en) Speech synthesizer
Kiesling et al. The variation in conversation (ViC) project: Creation of the Buckeye Corpus of Conversational Speech
EP1846918B1 (en) Method of estimating a voice conversion function
US8249874B2 (en) Synthesizing speech from text
Wilkinson et al. Open-Source Consumer-Grade Indic Text To Speech.
FR2895133A1 (en) SYSTEM AND METHOD FOR VOICE SYNTHESIS BY CONCATENATION OF ACOUSTIC UNITS AND COMPUTER PROGRAM FOR IMPLEMENTING THE METHOD.
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
US7356469B2 (en) Method and system for trimming audio files
Kasparaitis Diphone Databases for Lithuanian Text‐to‐Speech Synthesis
Öhlin et al. Data-driven formant synthesis
Serralheiro et al. Towards a repository of digital talking books.
JP2005004100A (en) Listening system and voice synthesizer
EP1962278A1 (en) Method and device for timing synchronisation
TWI269191B (en) Method of synchronizing speech waveform playback and text display
JP2006349787A (en) Method and device for synthesizing voices