EP1960996B1

EP1960996B1 - Synthese vocale par concatenation d'untes acoustiques

Info

Publication number: EP1960996B1
Application number: EP06841948A
Authority: EP
Inventors: Edouard Hinard; Cédric BOIDIN; Laurent Roussarie
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-12-16
Filing date: 2006-12-15
Publication date: 2010-02-24
Anticipated expiration: 2026-12-15
Also published as: FR2895133A1; EP1960996A1; WO2007071834A1; DE602006012540D1

Description

La présente invention concerne un système et un procédé de synthèse vocale par concaténation d'unités acoustiques ainsi qu'un programme d'ordinateur pour la mise en oeuvre du procédé.
Un système de synthèse vocale à partir d'un texte comporte classiquement des moyens d'entrée du texte à synthétiser et des moyens de traitement linguistique de ce texte pour le transformer en une suite de phonèmes accompagnés d'indications prosodiques. Ces traitements linguistiques comportent des traitements syntaxiques, des traductions graphèmes-phonèmes ainsi que des traitements prosodiques. Ils s'appuient sur des dictionnaires ainsi que sur des jeux de règles.
Il comporte également des moyens de synthèse par concaténation d'éléments préenregistrés pour générer un signal acoustique en fonction de la suite de phonèmes fournis par les traitements linguistiques.
Un tel système est explicité plus en détail dans Gaël Richard, Olivier Cappé « Synthèse de la parole à partir du texte », Techniques de l'ingénieur H 7 288.
De tels systèmes cherchent à atteindre une qualité comparable à celle de la parole naturelle.
Actuellement, une limitation importante dans la qualité de ces systèmes à synthèse vocale réside dans le traitement linguistique. Cette limitation est liée à la perte d'information induite par la transcription et la nature ambiguë de certaines formes textuelles. De ce fait, le recours systématique à la parole synthétique pour des enregistrements statiques ne peut se faire que sous le contrôle d'un opérateur qui pallie les défauts inévitables de ce traitement linguistique.
Dans l'état de la technique, trois méthodes sont connues pour permettre à un opérateur de contrôler le résultat d'un système de synthèse de parole :

une méthode d'enrichissement du texte par la présence de balises. Cet enrichissement du texte permet de contrôler l'analyse linguistique (phonétisation d'un mot ou son étiquette grammaticale) ou le synthétiseur (volume, hauteur de la voix, vitesse d'élocution)..L'utilisation de balises est actuellement, en cours de normalisation par l'organisme W3C. Une première version du langage de balisage SSML (Speech Synthesis Markup Language - langage de balisage pour la synthèse vocale) a été publiée en septembre 2004, via l'url http:/www.w3.org/TR/speech-synthesis/. L'enrichissement du texte d'entrée se fait grâce à un éditeur spécialisé. L'outil « TTS Director » de la société Loquendo est un exemple d'éditeur dédié à la synthèse vocale (http://www.loquendo.com/en/technology/tts director.htm).
le paramétrage du système. Par exemple, l'outil Lexitool qui fait partie du catalogue de la société Elan Speech, permet de gérer un lexique d'exception. L'opérateur enrichit les données du système en ajoutant dans le lexique les mots que le système ne prononce pas correctement et en leur associant la prononciation attendue.
la synthèse interactive. Celle-ci est décrite dans l'article de Peter Rutten, Justin Fackrell « The application of interactive speech unit selection in TTS systems ». Eurospeech 2003. L'intervention de l'opérateur se fait dans le processus de synthèse après l'exécution d'une étape importante du traitement et conduit à modifier le comportement global du système par la suite en modifiant les paramètres de cette étape de traitement. Par exemple, dans cet article, un opérateur peut modifier localement le paramétrage du synthétiseur, après exécution du traitement de sélection, pour produire une variante de production de synthèse plus proche de ce qui est attendu.

Ces méthodes ont pour inconvénient majeur la faible corrélation entre la modification effectuée par l'opérateur et le résultat final obtenu. Par le terme « faible corrélation », on entend ici que l'opérateur n'a pas une manipulation intuitive du système. Cette manipulation nécessite un apprentissage important avant que l'opérateur soit capable de déterminer le ou les paramètres à modifier pour obtenir un meilleur résultat.
Le but de l'invention est donc de résoudre cet inconvénient en proposant un système et un procédé de synthèse vocale interactif d'utilisation aisée pour un opérateur.
L'objet de l'invention est un système de synthèse vocale par concaténation d'unités acoustiques selon la revendication 1.
D'autres caractéristiques sont :

le paramétrage du texte comporte des balises insérées dans le texte à synthétiser ;
la ou chaque unité de traitement élémentaire est adaptée pour effectuer l'un des traitements élémentaires de l'ensemble des traitements élémentaires de :
1. a) - validation du texte à synthétiser,
2. b) - découpage du texte en phrases,
3. c) - découpage du texte en groupes de souffle,
4. d) - découpage du texte en mots,
5. e) - modification d'un lexique d'exceptions,
6. f) - phonétisation des mots,
7. g) - analyse grammaticale,
8. h) - prosodie.
les moyens de traitement linguistique comportent des moyens de traitement élémentaires pour effectuer la totalité des traitements élémentaires dudit ensemble de traitements élémentaires.

Un autre objet est un procédé de synthèse vocale par concaténation d'unités acoustiques selon la revendication 5.
D'autres caractéristiques de cet objet sont

la modification des paramètres consiste à créer/modifier des balises dans le texte à synthétiser ;
l'étape de la génération de résultats intermédiaires comporte l'une des sous étapes de traitement élémentaire :
validation du texte à synthétiser,
découpage du texte en phrases,
découpage du texte en groupes de souffle,
découpage du texte en mots,
modification d'un lexique d'exceptions,
phonétisation des mots,
analyse grammaticale,
prosodie.
ledit procédé comporte en outre une étape de sélection de la sous étape de traitement élémentaire à exécuter parmi l'ensemble des sous étapes de traitement élémentaire ;
il est exécuté successivement 8 fois et à chaque fois, une sous étape de traitement élémentaire différente est sélectionnée dans l'ordre suivant :
validation du texte à synthétiser,
découpage du texte en phrases,
découpage du texte en groupes de souffle,
découpage du texte en mots,
modification d'un lexique d'exceptions,
phonétisation des mots,
analyse grammaticale,
prosodie.

Un autre objet est un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé lorsque ledit programme est exécuté sur un ordinateur.
Avantageusement, le traitement linguistique est décomposé pour l'opérateur en une série de traitements élémentaires lui permettant de maîtriser l'ensemble des paramètres ayant un impact sur la qualité du flux sonore produit.
Pouvant sélectionner l'étape élémentaire sur laquelle il souhaite intervenir, l'opérateur maîtrise avantageusement l'outil de synthèse vocale dans ce qui lui paraît être le détail de son fonctionnement.
De plus, la suite de traitements élémentaires propose un ordre logique de traitement bien adapté au mode de fonctionnement de l'opérateur alors qu'elle ne correspond pas au fonctionnement interne du système de synthèse.
L'invention sera mieux comprise à la lecture de la description qui va suivre, faite uniquement à titre d'exemple, et en relation avec les dessins en annexe dans lesquels :

la figure 1 est un schéma synoptique d'un système de synthèse vocale selon un mode de réalisation de l'invention ;
la figure 2 est un ordinogramme d'un procédé de synthèse vocale selon un mode de réalisation de l'invention ;
la figure 3 est une variante du procédé selon la figure 2 ; et
la figure 4 est un ordinogramme d'un procédé de synthèse vocale utilisant le procédé de la figure 3 selon un ordre de présentation de traitements élémentaires.

En référence à la figure 1, un système 1 de synthèse vocale comporte des moyens 2 d'entrée d'un texte à synthétiser. Ce texte est stocké dans une mémoire tampon 3 sous la forme d'un enregistrement comprenant le texte proprement dit codé, par exemple, selon la norme ISO/IEC 10646 ainsi que des paramètres d'aide au traitement linguistique, par exemple sous forme de balises SSML.
La mémoire tampon 3 est connectée à des moyens 4 de traitement linguistique de ce texte. Ces moyens 4 de traitement linguistique sont connectés à une seconde mémoire tampon 5 dans laquelle ils stockent le résultat du traitement linguistique sous forme d'une suite de phonèmes accompagnés d'indications prosodiques.
Cette seconde mémoire 5 est connectée à des moyens 6 de synthèse par concaténation d'éléments préenregistrés pour restituer un signal acoustique en fonction de la suite de phonèmes.
Le signal acoustique est transformé en sons par des enceintes 7.
Une description détaillée de ces différents éléments est contenue dans le document de G. Richard et O. Cappé précité.
Le système 1 de synthèse vocale comporte des moyens 8 de saisie et d'édition. Ces moyens 8 de saisie et d'édition comportent des moyens 9 de saisie de type clavier ainsi qu'un outil de pointage 10 tel qu'une souris. Ils comportent également un écran de visualisation 11 et des moyens 12 de pilotage de ces périphériques 9, 10, 11.
De façon avantageuse, ces moyens 8 de saisie et d'édition présentent à un opérateur du système 1 de synthèse vocale une interface graphique conviviale.
Les moyens 4 de traitement linguistique comportent une chaîne d'unités 4A, 4B, 4C de traitement élémentaire, chacune de celle-ci tractant un élément particulier de la chaîne de traitement linguistique tel que le découpage du texte en phrases, le découpage des phrases en mots, la phonétisation des mots, l'analyse grammaticale, la prosodie...
Chaque unité 4A, 4B, 4C de traitement élémentaire est connectée à un éditeur 8A, 8B, 8C spécialisé des moyens 8 de saisie et d'édition permettant à l'opérateur d'intervenir sur les résultats élémentaires de l'unité 4A, 4B, 4C correspondante pour les modifier.
Chaque paire constituée d'une unité 4A, 4B, 4C de traitement élémentaire et de son éditeur 8A, 8B, 8C, constitue un module 13A, 13B, 13C de traitement et d'édition pour une étape déterminée du traitement linguistique.
Le système 1 de synthèse vocale comporte des moyens 14 de paramétrage connectés à la première mémoire-tampon 3 et aux modules 13A, 13B, 13C de traitement élémentaire.
Ces moyens 14 de paramétrage ajoutent, modifient ou suppriment les paramètres d'aide au traitement linguistique contenus dans l'enregistrement stocké dans la mémoire tampon en fonction des modifications apportées par l'opérateur sur les résultats élémentaires de l'unité 4A, 4B, 4C de traitement élémentaire de sorte que lors d'un traitement ultérieur de l'enregistrement par les mêmes unités de traitement élémentaire, le résultat élémentaire obtenu en sortie de chaque unité soit le résultat modifié par l'opérateur. Les moyens 14 ne sont pas propres à agir sur le paramétrage proprement dit des unités de traitement élémentaires, ni sur les moyens de synthèse 6.
Dans un mode de réalisation préféré, le système 1 de synthèse vocale comporte 8 modules correspondant à 8 étapes du traitement linguistique du texte.
Le premier module porte sur le texte lui-même. Il permet à l'opérateur de valider que le texte à synthétiser lui convient. Optionnellement, ce module permet d'enrichir le texte avec des balises de changement de voix.
La technique utilisée par ce premier module est décrite dans l'état de la technique, par exemple dans la standardisation du langage SSML du W3C.
Le deuxième module porte sur le découpage du texte en phases. L'éditeur montre à l'opérateur les frontières de phases qui peuvent ainsi être supprimées, déplacées ou insérées.
Le troisième module porte sur le découpage en groupes de souffle. L'éditeur met en évidence les groupes de souffle et les durées des pauses entre les groupes. L'opérateur peut modifier le placement des pauses et leurs durées.
Le quatrième module porte sur le découpage en mots. L'éditeur met en évidence les regroupements de mots qui ont un lien. L'opérateur peut séparer des mots ou en regrouper d'autres pour former des locutions.
Le cinquième module porte sur le lexique. L'opérateur intervient sur les données en ajoutant, modifiant ou supprimant des entrées du lexique d'exception.
Le sixième module porte sur la phonétisation des mots. L'éditeur présente à l'opérateur la ou les formes phonétiques de chaque mot sur lesquels le système se base pour vocaliser le texte. L'opérateur intervient sur le choix des variantes de prononciation, les liaisons, le e muet,... Il est à noter que ce module se différentie du module précédent portant sur le lexique en ce qu'il ne modifie pas les données mais le résultat du processus de phonétisation.
Le septième module porte sur l'analyse grammaticale. L'éditeur présente à l'opérateur le résultat de l'analyse grammaticale et les règles ayant abouti à ce résultat. L'opérateur peut modifier le choix des règles et des marqueurs grammaticaux associés à chacun des mots ou groupe de mots.
Le huitième module porte sur la prosodie. L'éditeur présente à l'opérateur les informations prosodiques sous forme de courbes ou de tableaux de valeurs que l'opérateur peut modifier.
Le fonctionnement de chaque unité de traitement élémentaire et de son module d'interfaçage associé va maintenant être explicité en relation avec la figure 2.
Le texte étant stocké en 20 dans le système 1 de synthèse vocale, une synthèse vocale complète, jusqu'à la génération du signal sonore, est effectuée en 21. L'opérateur a ainsi un signal sonore de référence pour son analyse.
Cette synthèse 21 comporte successivement une étape de traitement linguistique 22 et une étape de synthèse par concaténation 23 comme expliqué précédemment.
Lors de l'étape de traitement linguistique 22, l'une des unités 4A, 4B, 4C de traitement élémentaire génère en 24 des résultats intermédiaires. Par exemple, les moyens d'analyse grammaticale génèrent un résultat d'analyse grammaticale accompagné des règles utilisées.
Le résultat sonore ainsi que les résultats intermédiaires obtenus sont présentés à l'opérateur en 25.
Si le résultat sonore est conforme en 26 aux attentes de l'opérateur, celui-ci est validé en 27 ainsi que les résultats intermédiaires.
Si le résultat sonore et/ou les résultats intermédiaires ne sont pas conformes aux attentes de l'opérateur, celui-ci modifie en 28 les résultats intermédiaires en utilisant le module d'interface correspondant.
Ces modifications sont prises en compte en 29 par le système 1 de synthèse vocale sous forme d'une modification des paramètres d'aide au traitement linguistique contenus dans le texte mémorisé. De façon préférentielle, cette prise en compte est faite sous la forme d'un enrichissement ou d'une modification de l'enrichissement du texte à synthétiser.
Puis l'étape 21 de synthèse vocale est exécutée de nouveau en utilisant le nouveau texte enrichi.
Le procédé d'amélioration boucle jusqu'à ce que l'opérateur soit satisfait du résultat obtenu.
On conçoit que pour obtenir un flux sonore ayant toutes les caractéristiques souhaitées par l'opérateur, il peut être nécessaire d'intervenir sur plusieurs traitements élémentaires.
Dans un mode préférentiel de réalisation, figure 3, le procédé de synthèse vocale comporte en outre une étape 30 de sélection du module de traitement élémentaire dont les résultats intermédiaires vont être analysés et, éventuellement, modifiés par l'opération.
Ainsi, l'opérateur peut avantageusement choisir le type de traitement élémentaire dont il souhaite analyser et modifier les résultats.
De manière avantageuse, figure 4 les modifications sont faites dans l'ordre de présentation des unités de traitement élémentaire suivant.
L'opérateur commence en 40 par éditer le texte par l'intermédiaire du premier module associé aux unités de traitement élémentaire du texte lui-même.
Puis, quand il a obtenu un résultat satisfaisant à ce niveau, l'opérateur lance en 41 le deuxième module de découpage du texte en phrases.
Après obtention d'un résultat intermédiaire satisfaisant, il lance en 42 le troisième module de découpage en groupes de souffle, puis en 43 le quatrième module de découpage en mots, puis en 44 le cinquième module du lexique, puis en 45 le sixième module de phonétisation des mots, puis en 46 le septième module d'analyse grammaticale, puis en 47 le huitième module de prosodie.
Ce mode de réalisation est remarquable en ce qu'il suit un ordre logique pour l'opérateur mais qui ne correspond pas à l'organisation des traitements à l'intérieur d'un analyseur linguistique d'un système de synthèse vocale classique.
L'opérateur peut également revenir en arrière pour modifier les résultats intermédiaires d'un des modules déjà traités, par exemple parce qu'il s'est aperçu tardivement d'une erreur.

Claims

Système de synthèse vocale par concaténation d'unités acoustiques comportant :
- des moyens de mémorisation (3) d'un texte à synthétiser et de paramètres d'aide au traitement linguistique,

- des moyens (4) de traitement linguistique dudit texte pour transformer ledit texte en une suite de phonèmes accompagnés d'indications prosodiques,

- des moyens (6) de synthèse par concaténation d'éléments préenregistrés pour restituer un signal acoustique, en fonction de la suite de phonèmes,

- des moyens (8) de saisie et d'édition,
caractérisé en ce que les moyens (4) de traitement linguistique comportent au moins une unité (4A, 4B, 4C) de traitement élémentaire générant des résultats intermédiaires de traitement linguistique dudit texte, ladite unité de traitement élémentaire étant associée à un éditeur (8A, 8B, 8C) des moyens de saisie et d'édition (8), permettant à un opérateur de modifier les résultats de l'unité (4A, 4B, 4C) de traitement élémentaire, et en ce que ledit système de synthèse vocale comporte en outre des moyens (14) de paramétrage du texte à synthétiser aptes à modifier les paramètres d'aide au traitement linguistiques stockés dans les moyens de mémorisation (3) en fonction des résultats modifiés par l'opérateur, et lesdits moyens (4) de traitement linguistiques adaptant le traitement linguistique du texte en fonction desdits paramètres d'aide au traitement linguistique.
Système de synthèse vocale selon la revendication 1, caractérisé en ce que le paramétrage du texte comporte des balises insérées dans le texte à synthétiser.
Système de synthèse vocale selon la revendication 1 ou 2, caractérisé en ce que la ou chaque unité de traitement élémentaire est adaptée pour effectuer l'un des traitements élémentaires de l'ensemble des traitements élémentaires de :
a) - validation du texte à synthétiser,

b) - découpage du texte en phrases,

c) - découpage du texte en groupes de souffle,

d) - découpage du texte en mots,

e) - modification d'un lexique d'exceptions,

f) - phonétisation des mots,

g) - analyse grammaticale,

h) - prosodie.
Système de synthèse vocale selon la revendication 3, caractérisé en ce que les moyens de traitement linguistique comportent des moyens de traitement élémentaires pour effectuer la totalité des traitements élémentaires dudit ensemble de traitements élémentaires.
Procédé de synthèse vocale par concaténation d'unités acoustiques comportant les étapes de :
- stockage (20) d'un texte à synthétiser et de paramètres d'aide au traitement linguistique,

- traitement linguistique (22) dudit texte pour transformer ledit texte en une suite de phonèmes accompagnés d'indications prosodiques,

- génération (23,24) d'un signal sonore et de résultats intermédiaires à partir de ladite suite,

- analyse (25) par un opérateur du signal sonore et des résultats intermédiaires,

- modification (28) par l'operateur desdits résultats intermédiaires si ledit opérateur établit que la qualité du signal sonore est Insuffisante,

- création et/ou modification (29) de paramètres d'aide au traitement linguistique du texte à synthétiser,

- bouclage sur l'étape de traitement linguistique, celle-ci générant une nouvelle suite de phonèmes tenant compte desdits paramètres d'aide au traitement linguistique.
Procédé de synthèse vocale selon la revendication 5, caractérisé en ce que la modification des paramètres consiste a créer/modifier des balises dans le texte a synthétiser.
Procédé de synthèse vocale selon la revendication 5 ou 6, caractérisé en ce que l'étape de la génération de résultats intermédiaires comporte l'une des sous étapes de traitement élémentaire :
- validation du texte à synthétiser,

- découpage du texte en phrases,

- découpage du texte en groupes de souffle,

- découpage du texte en mots,

- modification d'un lexique d'exceptions,

- phonétisation des mots,

- analyse grammaticale,

- prosodie.
Procédé de synthèse vocale selon la revendication 7, caractérisé en ce qu'il comporte en outre une étape de sélection (30) de la sous étape de traitement élémentaire à exécuter parmi l'ensemble des sous étapes de traitement élémentaire.
Procédé de synthèse vocale caractérisé en ce que le procédé de la revendication 8 est exécuté successivement 8 fois et qu'à chaque fois, une sous étape de traitement élémentaire différente est sélectionnée dans l'ordre suivant :
- validation du texte à synthétiser,

- découpage du texte en phrases,

- découpage du texte en groupes de souffle,

- découpage du texte en mots,

- modification d'un lexique d'exceptions,

- phonétisation des mots,

- analyse grammaticale,

- prosodie.
Programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon l'une des revendications 5 à 9 lorsque ledit programme est exécuté sur un ordinateur.