EP1777697B1

EP1777697B1 - Procédé de synthèse vocale sans modification de prosodie

Info

Publication number: EP1777697B1
Application number: EP07002565A
Authority: EP
Inventors: Min Chu; Hu Peng
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-12-04
Filing date: 2001-12-03
Publication date: 2013-03-20
Anticipated expiration: 2021-12-03
Also published as: EP1777697A2; EP1777697A3

Claims

Procédé de synthèse vocale comprenant :
la génération d'un vecteur de contexte d'apprentissage pour chaque unité d'un ensemble d'unités vocales d'apprentissage dans un corpus vocal d'apprentissage, chaque vecteur de contexte d'apprentissage indiquant le contexte prosodique d'une unité vocale d'apprentissage contenue dans le corpus vocal d'apprentissage, dans lequel chaque vecteur de contexte comporte une coordonnée tonale gauche indiquant une catégorie de tonalité d'une unité vocale située à gauche de l'unité vocale d'apprentissage ;

l'indexation d'un ensemble de segments vocaux associés à un ensemble d'unités vocales d'apprentissage basé sur les vecteurs de contexte pour les unités vocales d'apprentissage ;

la génération d'un vecteur de contexte d'entrée pour chaque unité d'un ensemble d'unités vocales d'entrée dans un texte d'entrée (304), chaque vecteur de contexte d'entrée indiquant le contexte prosodique d'une unité vocale d'entrée dans le texte d'entrée ;

l'utilisation des vecteurs de contexte d'entrée pour identifier un segment vocal pour chaque unité vocale d'entrée ; et

la concaténation des segments vocaux identifiés pour former un signal vocal synthétique.
Procédé selon la revendication 1, dans lequel chaque vecteur de contexte comporte une coordonnée de position dans une expression indiquant la position de l'unité vocale dans une expression.
Procédé selon la revendication 1, dans lequel chaque vecteur de contexte comporte une coordonnée de position dans un mot indiquant la position de l'unité vocale dans un mot.
Procédé selon la revendication 1, dans lequel chaque vecteur de contexte comporte une coordonnée phonétique gauche indiquant une catégorie pour le phonème situé à gauche de l'unité vocale.
Procédé selon la revendication 1, dans lequel chaque vecteur de contexte comporte une coordonnée phonétique droite indiquant une catégorie pour le phonème situé à droite de l'unité vocale.
Procédé selon la revendication 1, dans lequel chaque vecteur de contexte comporte une coordonnée de tonalité droite indiquant une catégorie pour le ton de l'unité vocale située à droite de l'unité vocale.
Procédé selon la revendication 1, dans lequel l'indexation d'un ensemble de segments vocaux comporte la génération d'une arborescence de décision (320) basée sur les vecteurs de contexte d'apprentissage.
Procédé selon la revendication 7, dans lequel l'utilisation des vecteurs de contexte pour identifier un segment vocal comporte la recherche de l'arborescence de décision en utilisant le vecteur de contexte d'entrée.
Procédé selon la revendication 8, dans lequel la recherche dans l'arborescence de décision comporte :
l'identification d'une feuille dans l'arborescence pour chaque vecteur de contexte d'entrée, chaque feuille comportant au moins un segment vocal candidat ; et

la sélection d'un segment vocal candidat pour chaque noeud feuille dans lequel, s'il existe plusieurs segments vocaux candidats au niveau du noeud, la sélection se fonde sur une fonction de coût.
Procédé selon la revendication 9, dans lequel la fonction de coût comporte une distance entre le vecteur de contexte d'entrée et un vecteur de contexte d'apprentissage associé à un segment vocal.
Procédé selon la revendication 10, dans lequel la fonction de coût comporte en outre un coût de lissage fondé sur un segment vocal candidat d'au moins une unité vocale voisine.
Procédé selon la revendication 11, dans lequel le coût de lissage donne préférence à la sélection d'une série de segments vocaux pour une série de vecteurs de contexte d'entrée si la série de segments vocaux est apparue sous la forme d'une série dans le corpus vocal d'apprentissage.
Procédé selon la revendication 1, dans lequel la sélection de segments pour une synthèse vocale avec concaténation comporte :
l'analyse d'un texte d'entrée sous la forme d'unités vocales ;

l'identification d'informations de contexte pour chaque unité vocale en se basant sur sa localisation dans le texte d'entrée et sur au moins une unité vocale voisine ;

l'identification d'un ensemble de segments vocaux candidats pour chaque unité vocale en se basant sur les informations de contexte ; et

l'identification d'une séquence de segments vocaux parmi les segments vocaux candidats en se basant en partie sur un coût de lissage entre les segments vocaux.
Support lisible par ordinateur contenant des instructions exécutables par ordinateur, conçues pour mettre en oeuvre le procédé selon l'une des revendications précédentes, lorsqu'elles sont exécutées sur un ordinateur (110).