EP2215632B1

EP2215632B1 - Procede, dispositif, et code de programme pour la conversion vocale

Info

Publication number: EP2215632B1
Application number: EP08804436A
Authority: EP
Inventors: María Arantzazu DEL POZO ECHEZARRETA
Original assignee: Fundacion Centro de Tecnologias de Interaccion Visual y Comunicaciones Vicomtech
Current assignee: Fundacion Centro de Tecnologias de Interaccion Visual y Comunicaciones Vicomtech
Priority date: 2008-09-19
Filing date: 2008-09-19
Publication date: 2011-03-16
Anticipated expiration: 2028-09-19
Also published as: DE602008005641D1; ES2364005T3; EP2215632A1; WO2010031437A1; ATE502380T1

Claims

Procédé de conversion d'un signal de parole d'un locuteur source en un signal vocal converti, qui comprend:
une étape d'apprentissage, dans laquelle:

étant donné une base de données d'apprentissage de données sources et cibles parallèles, pour chaque période de pitch de ladite base de données d'apprentissage, le procédé comprend les étapes consistant à:

modéliser chaque période de pitch au moyen d'une forme d'onde glottique et d'un filtre de conduit vocal conformément au modèle de Lu et Smith pour obtenir un ensemble de paramètres LF de Liljencrants-Fant, ledit ensemble de paramètres LF comprenant un paramètre de force d'excitation E_e et un ensemble de paramètres T, T_p, T_e, T_a, T_c, modélisant une forme d'onde glottique, et un ensemble de coefficients de filtre de conduit vocal tout pôle α₁ ... α_p;

convertir lesdits paramètres T, T_p, T_e, T_a, T_c, en paramètres R, R_g, R_k, R_a;

convertir lesdits coefficients de filtre de conduit vocal tout pôle, α₁ ... α_p, en fréquences spectrales de raies dans l'échelle de Bark lsf₁ ... lsf_p;

définir un vecteur glottique G à convertir;

définir un vecteur de conduit vocal LSF à convertir, ledit vecteur de conduit vocal LSF comprenant lesdites fréquences spectrales de raies dans l'échelle de Bark lsf₁ ... lsf_p;

appliquer un débruitage par ondelettes pour obtenir une estimation d'un bruit d'aspiration glottique;

à partir de l'ensemble de vecteurs de conduit vocal LSF obtenus pour chaque période de pitch de ladite base de données d'apprentissage, estimer une fonction de transformation linéaire probabiliste continue de conduit vocal à l'aide du critère d'erreur des moindres carrés;

le procédé étant caractérisé en ce que ladite étape de modélisation comprend en outre les étapes consistant à:

modéliser ladite estimation du bruit d'aspiration en modulant un bruit gaussien à variance unitaire à moyenne nulle avec ladite forme d'onde glottique modélisée et en ajustant son énergie ANE pour qu'elle corresponde à celle de ladite estimation du bruit d'aspiration;

ledit vecteur glottique G à convertir comprenant ledit paramètre de force d'excitation E_e, lesdits paramètres R, R_g, R_k, R_a, et ladite énergie ANE de l'estimation du bruit d'aspiration,

le procédé comprenant en outre:

une étape de conversion, dans laquelle une forme d'onde de parole de test donnée est modélisée et transformée en un ensemble de paramètres convertis, E_e', R_g', R_k', R_a', ANE', LSF';

une étape de synthèse, dans laquelle une forme d'onde de parole convertie est synthétisée à partir dudit ensemble de paramètres convertis, E_e', R_g', R_k', R_a', ANE', LSF'.
Procédé selon la revendication 1, dans lequel ladite étape d'apprentissage comprend en outre l'étape consistant:
à partir de l'ensemble de vecteurs glottiques G obtenus pour chaque période de pitch de ladite base de données d'apprentissage, à estimer une fonction de transformation linéaire probabiliste continue de conduit vocal à l'aide du critère d'erreur des moindres carrés.
Procédé selon la revendication 1 ou la revendication 2, dans lequel ladite étape de modélisation de chaque période de pitch au moyen d'une forme d'onde glottique et d'un filtre de conduit vocal selon le modèle de Lu et Smith comprend les étapes consistant à:
modéliser la forme d'onde glottique à l'aide du modèle Rosenberg-Klatt;

utiliser une optimisation convexe pour obtenir un ensemble de paramètres de forme d'onde glottique Rosenberg-Klatt et les coefficients de filtre de conduit vocal tout pôle α₁ ... α_p, où ladite étape d'utilisation d'une optimisation convexe comprend une étape de préaccentuation adaptative pour estimer et supprimer une contribution de filtre d'inclinaison spectrale de la forme d'onde avant l'optimisation convexe.
Procédé selon la revendication 3, dans lequel ladite étape de modélisation de chaque période de pitch au moyen d'une forme d'onde glottique et d'un filtre de conduit vocal conformément au modèle de Lu et Smith comprend en outre les étapes consistant à:
obtenir une forme d'onde glottique dérivée par un filtrage inverse de ladite période de pitch à l'aide desdits coefficients de filtre de conduit vocal tout pôle α₁ ... α_p;

adapter ledit ensemble de paramètres LF à ladite forme d'onde glottique dérivée filtrée inverse par estimation directe et optimisation non linéaire sous contraintes.
Procédé selon l'une quelconque des revendications précédentes, dans lequel ladite étape de conversion comprend, pour chaque période de pitch de ladite forme d'onde de parole de test, les étapes consistant à:
obtenir un vecteur glottique G à convertir, ledit vecteur glottique comprenant un paramètre de force d'excitation E_e, un ensemble de paramètres R, R_g, R_k, R_a, et l'énergie ANE de ladite estimation du bruit d'aspiration;

obtenir un vecteur de conduit vocal LSF à convertir, ledit vecteur de conduit vocal LSF comprenant un ensemble de fréquences spectrales de raies dans l'échelle de Bark lsf₁ ... lsf_p;

appliquer ladite fonction de transformation linéaire probabiliste continue de conduit vocal estimée lors de l'étape d'apprentissage pour obtenir un vecteur de paramètre de conduit vocal converti LSF;

transformer ledit vecteur glottique G à l'aide de ladite fonction de transformation linéaire probabiliste continue de forme d'onde glottique estimée lors de l'étape d'apprentissage, pour obtenir ainsi un vecteur glottique converti G' comprenant un ensemble de paramètres convertis E_e', R_g', R_k', R_a', ANE', LSF'.
Procédé selon la revendication 5, dans lequel lesdites étapes d'obtention d'un vecteur glottique G à convertir et d'un vecteur de conduit vocal LSF à convertir comprennent en outre les étapes consistant à:
modéliser chaque période de pitch au moyen d'une forme d'onde glottique et d'un filtre de conduit vocal conformément au modèle de Lu et Smith pour obtenir un ensemble de paramètres LF, ledit ensemble de paramètres LF comprenant un paramètre de force d'excitation E_e et un ensemble de paramètres T, T_p, T_e, T_a, T_c, modélisant une forme d'onde glottique, et un ensemble de coefficients de filtre de conduit vocal tout pôle α₁ ... α_p;

convertir lesdits coefficients de filtre de conduit vocal tout pôle en fréquences spectrales de raies dans l'échelle de Bark lsf₁ ... lsf_p;

convertir lesdits paramètres T en paramètres R, R_g, R_k, R_a;

définir un vecteur glottique G à convertir;

définir un vecteur de conduit vocal LSF à convertir.
Procédé selon l'une quelconque des revendications 5 ou 6, dans lequel ladite étape de conversion comprend en outre une étape de post-filtrage dudit vecteur de paramètre de conduit vocal converti LSF'.
Procédé selon l'une quelconque des revendications précédentes, dans lequel ladite étape de synthèse, dans laquelle ladite forme d'onde de parole convertie est synthétisée à partir dudit ensemble de paramètres convertis E_e' , Rg', R_k' , R_a' , ANE' , LSF' , comprend les étapes consistant à:
interpoler les trajectoires desdits paramètres convertis R_g', R_k', R_a', ANE', LSF' de chaque période de pitch, pour obtenir ainsi un ensemble de paramètres interpolés R_g", R_k", R_a", ANE", LSF" comprenant des paramètres R interpolés, R_g", R_k", R_a", une énergie interpolée, ANE " , et un vecteur de conduit vocal interpolé LSF" ;

convertir ledit vecteur de conduit vocal interpolé LSF" en un vecteur de coefficient de filtre tout pôle A";

convertir lesdits paramètres R interpolés, R_g", R_k", R_a'', en paramètres T interpolés, T_p", T_e", T_a", T_c";

pour chaque trame de ladite forme d'onde de parole de test, générer un signal d'excitation e_k(n), où k désigne la k^ième trame.
Procédé selon la revendication 8, dans lequel ladite étape de génération d'un signal d'excitation comprend les étapes consistant à, pour chacune desdites trames:
si ladite trame est exprimée vocalement:

à partir desdits paramètres T interpolés, T_p", T_e", T_a", T_c", et dudit paramètre de force d'excitation E_e, générer une forme d'onde glottique interpolée lf_k(n);

à partir du paramètre d'énergie interpolé ANE", générer un bruit d'aspiration interpolé an_k(n);

générer ledit signal d'excitation exprimé vocalement e_k(n) en ajoutant ladite forme d'onde glottique interpolée lf_k(n) et ledit bruit d'aspiration interpolé an_k(n);

si ladite trame n'est pas exprimée vocalement:

générer ledit signal d'excitation non exprimé vocalement e_k(n) à partir d'une source de bruit gaussien gn_k(n).
Procédé selon l'une quelconque des revendications 8 ou 9, dans lequel ladite étape de synthèse comprend en outre les étapes consistant à:
générer une contribution de synthèse de chaque trame en filtrant ledit signal d'excitation e_k(n) avec ledit vecteur de coefficient de filtre tout pôle interpolé A";

multiplier ladite contribution de synthèse par une fenêtre de Hamming, venant en recouvrement et s'ajoutant, de manière à générer le signal de parole converti.
Procédé applicable à des transformations de qualité vocale, telles qu'une réparation de voix trachéo-oesophagienne, qui comprend les étapes de procédé de l'une quelconque des revendications précédentes.
Dispositif comprenant des moyens adaptés pour exécuter les étapes du procédé de l'une quelconque des revendications précédentes.
Moyen de code de programme informatique adapté pour exécuter les étapes du procédé selon l'une quelconque des revendications 1 à 11, lorsque ledit programme est exécuté sur un ordinateur, un processeur de signal numérique, un réseau prédiffusé programmable par l'utilisateur FPGA, un circuit intégré à application spécifique, un microprocesseur, un microcontrôleur ou toute autre forme de matériel programmable.