FR2892555A1 - Systeme et procede de synthese vocale par concatenation d'unites acoustiques - Google Patents

Systeme et procede de synthese vocale par concatenation d'unites acoustiques Download PDF

Info

Publication number
FR2892555A1
FR2892555A1 FR0510831A FR0510831A FR2892555A1 FR 2892555 A1 FR2892555 A1 FR 2892555A1 FR 0510831 A FR0510831 A FR 0510831A FR 0510831 A FR0510831 A FR 0510831A FR 2892555 A1 FR2892555 A1 FR 2892555A1
Authority
FR
France
Prior art keywords
candidate
acoustic units
candidate acoustic
units
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0510831A
Other languages
English (en)
Inventor
Edouard Hinard
Cedric Boidin
Laurent Roussarie
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0510831A priority Critical patent/FR2892555A1/fr
Priority to PCT/FR2006/002114 priority patent/WO2007048891A1/fr
Priority to AT06808137T priority patent/ATE427545T1/de
Priority to ES06808137T priority patent/ES2325132T3/es
Priority to EP06808137A priority patent/EP1952388B1/fr
Priority to DE602006006094T priority patent/DE602006006094D1/de
Publication of FR2892555A1 publication Critical patent/FR2892555A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Ce système de synthèse vocale par concaténation d'unités acoustiques comporte :- des moyens (6) de transcription phonétique aptes à générer une suite d'unités acoustiques cibles, représentative du texte à synthétiser,- des moyens (7) de stockage d'unités acoustiques candidates, chaque unité acoustique candidate comportant un fragment de parole préenregistrée,- des moyens (8) de présélection aptes à produire une pluralité de flux d'unités acoustiques candidates, chaque flux étant présélectionné sur la base d'une minimisation de son coût global, ledit coût global étant la somme de fonctions de coûts qui déterminent le coût entre chaque unité acoustique cible et les unités acoustiques candidates et de fonctions de coûts des transitions entre deux unités acoustiques candidates, et- des moyens (9) d'interface aptes à permettre à un opérateur de comparer la qualité auditive de chaque flux d'unités acoustiques candidates présélectionné pour choisir le flux dont la qualité auditive lui parait la meilleure.

Description

La présente invention concerne un système et un procédé de synthèse vocale
par concaténation d'unités acoustiques. La synthèse vocale par concaténation d'unités acoustiques utilise un certain nombre de principes connus.
Typiquement, une chaîne de synthèse vocale à partir du texte comprend les étapes de - traitement linguistique permettant d'extraire du texte des informations pertinentes pour la synthèse, - transcription phonétique transformant les informations linguistiques en une chaîne phonétique comportant une suite d'unités acoustiques cibles, - sélection des unités acoustiques candidates, c'est-à-dire sélection des fragments de paroles préenregistrées qui seront utilisées pour la synthèse, et - synthèse du signal consistant à concaténer les unités acoustiques candidates sélectionnées pour former le signal sonore demandé.
La qualité du signal sonore dépend essentiellement du choix des unités acoustiques candidates : il s'agit d'utiliser les fragments de paroles les plus appropriés pour obtenir un signal sonore naturel . Traditionnellement, la sélection des unités acoustiques candidates est basée sur un algorithme de Viterbi. Celui-ci détermine la séquence optimale des unités acoustiques à utiliser en calculant le chemin optimal dans un graphe, graphe dont les noeuds sont les unités acoustiques candidates et les arcs les transitions entre les unités acoustiques candidates. Le chemin est optimal dans le sens d'une minimisation de la somme des coûts associés aux noeuds et aux arcs qui constituent le chemin. Le coût associé à une unité acoustique candidate, noeud du graphe, est appelé coût-cible et mesure l'adéquation entre l'unité acoustique candidate et l'unité acoustique cible. Le coût associé à une transition, arc du graphe, est appelé coût de concaténation et mesure la qualité de la concaténation entre les deux unités candidates qu'elle relie.
Ces différents coûts sont déterminés par des fonctions de coût permettant de les calculer pour chacun des arcs et noeuds du graphe. On conçoit aisément que, ces fonctions de coût étant censées représenter la qualité de la synthèse, leurs choix et leurs paramétrages ont une forte influence sur le résultat final. 2 Pour synthétiser la meilleure phrase, perceptuellement parlant, la demande de brevet US 2003/0229494 de RUTTEN et AL. propose de faire intervenir un opérateur qui, par itération successive, ajuste la qualité de la phrase produite. Le procédé proposé pour cette demande, consiste donc à sélectionner de façon classique, une suite d'unités acoustiques candidates, à faire écouter par l'opérateur la phrase ainsi produite par le module de sélection, puis à ajuster les paramètres de la sélection avant de relancer une sélection,... Le procédé est réitéré jusqu'à ce que l'opérateur obtienne une solution qui lui convienne.
Le procédé et le système de synthèse vocale proposés par cette demande présentent l'inconvénient d'obliger l'opérateur à intervenir sur les paramètres de la sélection pour obtenir une solution. Or ces paramètres, comme, par exemple, les paramètres des fonctions de coût, n'ont pas toujours de liens directs et intuitifs avec le résultat obtenu. Cela nécessite donc, de la part de l'opérateur, un long apprentissage avant d'être capable d'utiliser un tel système efficacement. De plus, à chaque changement de paramètres, il est nécessaire de lancer une nouvelle étape de sélection qui est très consommatrice en ressources de calcul.
Le but de l'invention est donc de remédier à ces inconvénients en proposant un système et un procédé de synthèse vocale aisés à mettre en oeuvre. L'objet de l'invention est un système de synthèse vocale par concaténation d'unités acoustiques comportant : - des moyens de transcription phonétique aptes à générer une suite d'unités acoustiques cibles, représentative du texte à synthétiser, - des moyens de stockage d'unités acoustiques candidates, chaque unité acoustique candidate comportant un fragment de parole préenregistrée, - des moyens de présélection aptes à produire au moins un flux d'unités acoustiques candidates, chaque flux étant présélectionné sur la base d'une minimisation de son coût global, ledit coût global étant la somme de fonctions de coûts qui déterminent le coût entre chaque unité acoustique cible et les unités acoustiques candidates et de fonctions de coûts des transitions entre deux unités acoustiques candidates, et - des moyens d'interface aptes à permettre à un opérateur d'évaluer la qualité auditive de chaque flux d'unités acoustiques candidates présélectionné, caractérisé en ce que les moyens de présélection sont aptes à produire une pluralité de flux d'unités acoustiques candidates ayant les meilleurs coûts globaux, et en ce que les moyens d'interface sont aptes à permettre à un opérateur de comparer les flux d'unités acoustiques présélectionnés et de choisir le flux dont la qualité auditive lui paraît la meilleure. D'autres caractéristiques de l'invention sont - les moyens de présélection utilisent un algorithme N-best pour présélectionner la pluralité de flux d'unités acoustiques candidates ; - les moyens d'interface comportent des moyens de filtrage aptes à éliminer, à partir de critères phonétiques, un sous-ensemble de flux d'unités acoustiques candidates de la pluralité des flux d'unités acoustiques candidates présélectionnés ; - les critères phonétiques comportent, seuls ou en combinaison, des critères d'interdiction de présence d'une unité acoustique, des critères d'interdiction de présence d'une concaténation entre deux unités acoustiques, et des critères d'interdiction d'une concaténation sur une transition. Un autre objet de l'invention est un procédé de synthèse vocale par concaténation d'unités acoustiques comportant une étape préalable de stockage d'unités acoustiques candidates, chaque unité acoustique candidate comportant un fragment de parole préenregistrée, et ledit procédé comportant en outre les étapes de : - transcription phonétique apte à générer une suite d'unités acoustiques cibles représentative du texte à synthétiser, - présélection d'au moins un flux d'unités acoustiques candidates, chaque flux étant présélectionné sur la base d'une minimisation de son coût global, ledit coût global étant la somme de fonctions de coûts qui déterminent le coût entre chaque unité acoustique cible et les unités acoustiques candidates et de fonctions de coûts des transitions entre deux unités acoustiques candidates, et -évaluation par un opérateur de la qualité auditive de chaque et ledit procédé est caractérisé en ce que - l'étape de présélection est apte à produire une pluralité de flux d'unités acoustiques candidates présélectionnées ayant les meilleurs coûts globaux, et - l'étape d'évaluation consiste, pour l'opérateur, à comparer les flux 5 d'unités acoustiques présélectionnés et à choisir le flux dont la qualité auditive lui paraît la meilleure. D'autres caractéristiques de cet objet sont -l'étape de présélection utilise un algorithme N-best pour présélectionner la pluralité de flux d'unités acoustiques candidates ; 10 - l'étape d'évaluation comporte une étape de filtrage, à partir de critères phonétiques, apte à éliminer un sous-ensemble de flux d'unités acoustiques candidates de la pluralité des flux d'unités acoustiques candidates présélectionnés ; - les critères phonétiques comportent, seuls ou en combinaison, des 15 critères d'interdiction de présence d'une unité acoustique, des critères d'interdiction de présence d'une concaténation entre deux unités acoustiques, et des critères d'interdiction d'une concaténation sur une transition. Un autre objet est un produit programme d'ordinateur comprenant des instructions de code de programme enregistré sur un support lisible par un 20 ordinateur, pour mettre en oeuvre le procédé de synthèse vocale lorsque ledit programme fonctionne sur un ordinateur. Un autre objet est un support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur. L'invention sera mieux comprise à la lecture de la description qui va 25 suivre faite uniquement à titre d'exemple et en relation avec les dessins en annexe dans lesquels : - la figure 1 est un schéma simplifié d'un système de synthèse vocale selon l'invention ; - la figure 2 est un ordinogramme du procédé selon un mode de 30 réalisation préféré de l'invention ; - la figure 3 est un schéma de présélection des unités acoustiques candidates ; et - la figure 4 est un schéma d'un écran d'interface avec l'opérateur du système de synthèse vocale selon un mode de réalisation préféré de l'invention.
En référence à la figure 1, un système 1 de synthèse vocale est destiné à transformer un texte 2 en un flux sonore 3. Le texte 2 est entré dans le système 1 par l'intermédiaire de moyens de saisie 4 qui le transforme en un fichier, typiquement au standard UNICODE.
Ce fichier est traité par des moyens 5 de traitements linguistiques permettant d'extraire du texte des informations pertinentes pour la synthèse par une analyse linguistique du texte. Ces informations linguistiques sont utilisées par les moyens 6 de transcription phonétique. Cette transcription, non nécessairement unique, se présente sous la forme d'une suite d'unités acoustiques cibles, éventuellement augmentée d'informations supplémentaires telles que des consignes prosodiques ou des catégories grammaticales. Ces moyens 4, 5 et 6 permettant d'obtenir une suite d'unités acoustiques cibles sont bien connus de l'homme du métier et ne seront pas décrits plus en détail. Des informations complémentaires sur ces moyens peuvent être trouvées, par exemple, dans la demande de brevet US 2003/0229494 précitée. Le système 1 de synthèse vocale comporte également des moyens 7 de stockage d'unités acoustiques candidates typiquement sous forme d'une base de données. Ces unités acoustiques candidates comportent principalement des fragments de paroles préenregistrées. Ces fragments peuvent correspondre à des phonèmes, des diphones, des syllabes, ... Chaque unité acoustique candidate représente une variation sonore d'une unité acoustique de base, par exemple des variations de longueur, de timbre, ... Typiquement, les moyens 7 de stockage peuvent contenir plus de 100 000 unités acoustiques candidates. Dans la description qui suit, et à titre purement illustratif, les unités acoustiques seront supposées être des diphones. Les moyens 7 de stockage sont reliés à des moyens 8 de présélection dont l'objet est de produire au moins un flux d'unités acoustiques candidates.
Chaque flux d'unités acoustiques candidates est représentatif de la suite d'unités acoustiques cibles. Habituellement, un système de synthèse vocale ne produit qu'un seul flux d'unités acoustiques. Un algorithme communément utilisé pour produire cet unique flux est l'algorithme de Viterbi qui minimise le coût global, somme des 6 coûts-cible et des coûts de transition pour les unités acoustiques candidates et les transitions de ce flux. Des exemples de fonctions de coût utilisables dans le cadre de cet algorithme de Viterbi sont décrits dans Perceptual and Objective Detection of discontinuities in concatenative Speech synthesis , Yannis Stylianou and Ann K. Syrdal, ICASSP 2001. Pour cela, les moyens 8 de présélection n'utilisent pas que l'algorithme de Viterbi puisque celui-ci ne fournit qu'un seul flux, celui ayant le meilleur coût global. A titre purement illustratif, la suite de flux produite par les moyens 8 de présélection est le résultat d'un algorithme de type N-best qui fournit une suite ordonnée de N flux dont le premier flux correspond à la solution de l'algorithme de Viterbi. Deux exemples de ce type d'algorithme sont décrits dans A comparison of two Exact Algorithms for finding the NBest Sentence Hypothese in Continuous Speech Recognition , V.M. Jimenez, A. Marzal, J. Monné, Eurospeech 1995. Les moyens 8 de présélection sont connectés à des moyens 9 d'interface. Ceux-ci sont connectés à des moyens 10 de restitution sonore permettant ainsi à un opérateur d'écouter, à la demande, un des flux d'unités acoustiques présélectionnés, et de déterminer ainsi celui qui a la meilleure qualité auditive. Les moyens 9 d'interface sont également connectés à des moyens 11 de visualisation et de saisie permettant à l'opérateur de visualiser et de sélectionner les différents flux présélectionnés.
De manière préférentielle, ces moyens 9 d'interface comportent des moyens 12 de filtrage. Ceux-ci sont adaptés pour que l'opérateur, par utilisation de critères phonétiques, puisse éliminer des sous-ensembles de flux parmi les flux présélectionnés de façon à limiter le nombre d'écoutes et de comparaisons à effectuer pour choisir le meilleur flux.
Le fonctionnement de ce système va maintenant être explicité en référence à la figure 2. Le procédé démarre à l'étape 20. La saisie d'un texte est effectuée à l'étape 21. Celui-ci est traité en 22 pour en extraire des informations linguistiques.
Ces informations linguistiques sont utilisées en 23 pour produire classiquement une suite d'unités acoustiques cibles. Par utilisation de l'algorithme de présélection, on sélectionne en 24 un nombre N de flux d'unités acoustiques candidates.
Par exemple, figure 3, pour la suite 30 de quatre unités acoustiques cibles, on a représenté en 31 l'ensemble des graphes possibles dont les unités acoustiques candidates sont les noeuds 10-1, 10-2, 11-1,... Le flux 32, représenté en trait plein épais, correspond à la première solution. Il correspond au flux des unités acoustiques candidates 10-1, 11-2, 12-10 1, 13-1. Le flux 33, représenté en traits pointillés épais, correspond à la deuxième solution. Il est composé des unités acoustiques candidates 10-2, 11-1, 12-3, 13-3. L'ensemble des N flux ainsi présélectionnés est stocké en mémoire et 15 rendu disponible à l'utilisateur. Celui-ci écoute en 25, figure 2, un des flux présélectionné. S'il est satisfait par la qualité de ce flux en 26, alors le procédé est terminé en 27. Par contre, si le flux écouté n'est pas satisfaisant, un autre flux est 20 écouté en 25 jusqu'à l'écoute d'un flux de bonne qualité. On conçoit que cette écoute successive peut être longue et fastidieuse. Aussi, il est avantageux d'offrir à l'utilisateur une interface permettant de filtrer l'ensemble des flux selon des critères phonétiques modifiables par l'utilisateur.
25 Ainsi, une étape 28 d'édition des filtres est, de manière facultative, insérée dans la boucle d'écoute / sélection. A titre d'exemple, un schéma simplifié d'un écran d'interface est représenté en figure 4. Le flux actuellement traité et écouté par l'opérateur est représenté en 30 40 avec la suite des unités acoustiques candidates sélectionnées. Par l'utilisation des boutons 41 et 42, l'opérateur passe au flux précédent ou au flux suivant. Il peut également choisir un des flux qu'il a déjà écouté et retenu dans la fenêtre 43.
8 Il dispose d'opérations de filtrage pour contraindre les propriétés des flux qu'il veut visionner ou écouter. Parmi les opérations de filtrage à sa disposition, il peut - interdire en 44 la présence d'une unité dans les flux filtrés. Par exemple, il peut interdire la présence de l'unité acoustique 10-4, - interdire en 45 la présence d'une concaténation entre deux unités acoustiques dans les flux filtrés. Par exemple, il peut interdire la transition entre les unités 11-2 et 12-1, - interdire en 46 toute concaténation sur une transition. Par exemple, il peut interdire toute concaténation entre les états acoustiques 12 et 13. Les seuls flux autorisés auront alors nécessairement, pour cette transition, deux unités adjacentes dans la base. La ligne 47 résume l'ensemble des filtres utilisés. On conçoit qu'il est possible de combiner plusieurs filtres selon une logique booléenne. On a ainsi décrit un système et un procédé de synthèse vocale par concaténation d'unités acoustiques aisées à manipuler puisque l'opérateur n'a pas à attendre que des calculs d'optimisation soient faits pour comparer deux flux. En effet, tous les calculs sont faits lors de l'étape de présélection et sont donc effectués sans que l'opérateur n'intervienne. De plus, les opérations de filtrage telles que la suppression d'une concaténation correspondent à une analyse auditive directe des flux. II suffit en effet d'écouter un flux comportant une telle concaténation, de s'apercevoir qu'elle est mal sonnante, et donc de décider d'éliminer tous les flux comportant cette concaténation. Ce procédé de synthèse vocale peut être mis en oeuvre par un programme d'ordinateur fonctionnant sur un ordinateur de type station de travail. Ce programme d'ordinateur est enregistré sur un support de données lisible par cet ordinateur.

Claims (10)

REVENDICATIONS
1. Système de synthèse vocale par concaténation d'unités acoustiques comportant : - des moyens (6) de transcription phonétique aptes à générer une suite d'unités acoustiques cibles, représentative du texte à synthétiser, - des moyens (7) de stockage d'unités acoustiques candidates, chaque unité acoustique candidate comportant un fragment de parole préenregistrée, - des moyens (8) de présélection aptes à produire au moins un flux d'unités acoustiques candidates, chaque flux étant présélectionné sur la base d'une minimisation de son coût global, ledit coût global étant la somme de fonctions de coûts qui déterminent le coût entre chaque unité acoustique cible et les unités acoustiques candidates et de fonctions de coûts des transitions entre deux unités acoustiques candidates, et - des moyens (9) d'interface aptes à permettre à un opérateur d'évaluer la qualité auditive de chaque flux d'unités acoustiques candidates présélectionné, caractérisé en ce que les moyens (8) de présélection sont aptes à produire une pluralité de flux d'unités acoustiques candidates ayant les meilleurs coûts globaux, et en ce que les moyens (9) d'interface sont aptes à permettre à un opérateur de comparer les flux d'unités acoustiques présélectionnés et de choisir le flux dont la qualité auditive lui paraît la meilleure.
2. Système de synthèse vocale selon la revendication 1, caractérisé en ce que les moyens de présélection utilisent un algorithme N-best pour présélectionner la pluralité de flux d'unités acoustiques candidates.
3. Système de synthèse vocale selon la revendication 1 ou 2, caractérisé en ce que les moyens (9) d'interface comportent des moyens (12) de filtrage aptes à éliminer, à partir de critères phonétiques, un sous-ensemble de flux d'unités acoustiques candidates de la pluralité des flux d'unités acoustiques candidates présélectionnés.
4. Système de synthèse vocale selon la revendication 3, caractérisé en ce que les critères phonétiques comportent, seuls ou en combinaison, des critères d'interdiction de présence d'une unité acoustique, des critères d'interdiction de présence d'une concaténation entre deux unités acoustiques, et des critères d'interdiction d'une concaténation sur une transition. 10
5. Procédé de synthèse vocale par concaténation d'unités acoustiques comportant une étape préalable de stockage d'unités acoustiques candidates, chaque unité acoustique candidate comportant un fragment de parole préenregistrée, et ledit procédé comportant en outre les étapes de : - transcription phonétique (23) apte à générer une suite d'unités acoustiques cibles représentative du texte à synthétiser, - présélection (24) d'au moins un flux d'unités acoustiques candidates, chaque flux étant présélectionné sur la base d'une minimisation de son coût global, ledit coût global étant la somme de fonctions de coûts qui déterminent le coût entre chaque unité acoustique cible et les unités acoustiques candidates et de fonctions de coûts des transitions entre deux unités acoustiques candidates, et - évaluation (25, 26) par un opérateur de la qualité auditive de chaque flux, et ledit procédé est caractérisé en ce que -l'étape de présélection est apte à produire une pluralité de flux d'unités acoustiques candidates présélectionnées ayant les meilleurs coûts globaux, et - l'étape d'évaluation consiste, pour l'opérateur, à comparer les flux d'unités acoustiques présélectionnés et à choisir le flux dont la qualité auditive lui paraît la meilleure.
6. Procédé de synthèse vocale selon la revendication 5, caractérisé en ce que l'étape de présélection utilise un algorithme N- best pour présélectionner la pluralité de flux d'unités acoustiques candidates.
7. Procédé de synthèse vocal selon la revendication 5 ou 6, caractérisé en ce que l'étape (25, 26) d'évaluation comporte une étape (28) de filtrage, à partir de critères phonétiques, apte à éliminer un sous-ensemble de flux d'unités acoustiques candidates de la pluralité des flux d'unités acoustiques candidates présélectionnés.
8. Procédé de synthèse vocal selon la revendication 7, caractérisé en ce que les critères phonétiques comportent, seuls ou en combinaison, des critères d'interdiction de présence d'une unité acoustique, des critères d'interdiction de présence d'une concaténation entre deux unités acoustiques, et des critères d'interdiction d'une concaténation sur une transition. 11
9. Produit programme d'ordinateur comprenant des instructions de code de programme enregistré sur un support lisible par un ordinateur, pour mettre en oeuvre le procédé de synthèse vocale selon l'une des revendications 6 à 10 lorsque ledit programme fonctionne sur un ordinateur.
10. Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur selon la revendication 9.
FR0510831A 2005-10-24 2005-10-24 Systeme et procede de synthese vocale par concatenation d'unites acoustiques Withdrawn FR2892555A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR0510831A FR2892555A1 (fr) 2005-10-24 2005-10-24 Systeme et procede de synthese vocale par concatenation d'unites acoustiques
PCT/FR2006/002114 WO2007048891A1 (fr) 2005-10-24 2006-09-14 Systeme et un procede de synthese vocale par concatenation d'unites acoustiques
AT06808137T ATE427545T1 (de) 2005-10-24 2006-09-14 System und verfahren zur sprachsynthese durch verkettung akustischer einheiten
ES06808137T ES2325132T3 (es) 2005-10-24 2006-09-14 Sistema y procedimiento de sintesis de voz por concatenacion de unidades acusticas.
EP06808137A EP1952388B1 (fr) 2005-10-24 2006-09-14 Systeme et procede de synthese vocale par concatenation d'unites acoustiques
DE602006006094T DE602006006094D1 (de) 2005-10-24 2006-09-14 System und verfahren zur sprachsynthese durch verkettung akustischer einheiten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0510831A FR2892555A1 (fr) 2005-10-24 2005-10-24 Systeme et procede de synthese vocale par concatenation d'unites acoustiques

Publications (1)

Publication Number Publication Date
FR2892555A1 true FR2892555A1 (fr) 2007-04-27

Family

ID=36013299

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0510831A Withdrawn FR2892555A1 (fr) 2005-10-24 2005-10-24 Systeme et procede de synthese vocale par concatenation d'unites acoustiques

Country Status (6)

Country Link
EP (1) EP1952388B1 (fr)
AT (1) ATE427545T1 (fr)
DE (1) DE602006006094D1 (fr)
ES (1) ES2325132T3 (fr)
FR (1) FR2892555A1 (fr)
WO (1) WO2007048891A1 (fr)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047259A1 (en) * 2000-03-31 2001-11-29 Yasuo Okutani Speech synthesis apparatus and method, and storage medium
US20020013707A1 (en) * 1998-12-18 2002-01-31 Rhonda Shaw System for developing word-pronunciation pairs
US20030055641A1 (en) * 2001-09-17 2003-03-20 Yi Jon Rong-Wei Concatenative speech synthesis using a finite-state transducer
US20030088416A1 (en) * 2001-11-06 2003-05-08 D.S.P.C. Technologies Ltd. HMM-based text-to-phoneme parser and method for training same
US20030229494A1 (en) * 2002-04-17 2003-12-11 Peter Rutten Method and apparatus for sculpting synthesized speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020013707A1 (en) * 1998-12-18 2002-01-31 Rhonda Shaw System for developing word-pronunciation pairs
US20010047259A1 (en) * 2000-03-31 2001-11-29 Yasuo Okutani Speech synthesis apparatus and method, and storage medium
US20030055641A1 (en) * 2001-09-17 2003-03-20 Yi Jon Rong-Wei Concatenative speech synthesis using a finite-state transducer
US20030088416A1 (en) * 2001-11-06 2003-05-08 D.S.P.C. Technologies Ltd. HMM-based text-to-phoneme parser and method for training same
US20030229494A1 (en) * 2002-04-17 2003-12-11 Peter Rutten Method and apparatus for sculpting synthesized speech

Also Published As

Publication number Publication date
ATE427545T1 (de) 2009-04-15
EP1952388A1 (fr) 2008-08-06
DE602006006094D1 (de) 2009-05-14
WO2007048891A1 (fr) 2007-05-03
ES2325132T3 (es) 2009-08-26
EP1952388B1 (fr) 2009-04-01

Similar Documents

Publication Publication Date Title
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
CA1324670C (fr) Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
JP3984207B2 (ja) 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
EP0867856A1 (fr) "Méthode et dispositif de detection d'activité vocale"
CA3053032A1 (fr) Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d'une enveloppe spectrale
EP2215626A1 (fr) Systeme d'interpretation simultanee automatique
KR20200145776A (ko) 음성보정 합성방법, 장치 및 프로그램
EP1543502B1 (fr) Procede de reconnaissance vocale avec correction automatique
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
EP1952388B1 (fr) Systeme et procede de synthese vocale par concatenation d'unites acoustiques
JP4005360B2 (ja) 合成すべき音声応答の基本周波数の時間特性を定めるための方法
JP2007178686A (ja) 音声変換装置
Bae et al. A neural text-to-speech model utilizing broadcast data mixed with background music
JP3803302B2 (ja) 映像要約装置
JPH10173769A (ja) 音声メッセージ検索装置
FR2642882A1 (fr) Appareil de traitement de la parole
EP1960996B1 (fr) Synthese vocale par concatenation d'untes acoustiques
WO2007028871A1 (fr) Systeme de synthese vocale ayant des parametres prosodiques modifiables par un operateur
US11302300B2 (en) Method and apparatus for forced duration in neural speech synthesis
FR3136884A1 (fr) Compression audio à très bas débit
JP4287664B2 (ja) 音声合成装置
Dejonckere et al. Spectral specificities of acting voice in professional actresses
FR2796486A1 (fr) Procedes et dispositifs pour substituer une voix synthetisee dynamiquement a des vocabulaires identifies automatiquement
CN116403564A (zh) 一种音频编辑方法及装置、电子设备及存储介质
WO2023111480A1 (fr) Dispositif de modification d'echelle temporelle d'un signal audio

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20070629