ES2322909T3

ES2322909T3 - Procedimiento de estimacion de una funcion de conversion de voz.

Info

Publication number: ES2322909T3
Application number: ES05850632T
Authority: ES
Inventors: Olivier Rosec; Taoufik En-Najjary
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-01-31
Filing date: 2005-12-28
Publication date: 2009-07-01
Anticipated expiration: 2025-12-28
Also published as: EP1846918A1; WO2006082287A1; DE602005012998D1; ATE424022T1; EP1846918B1

Abstract

Procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor definida a partir de un mensaje vocal grabado por el citado locutor, y por otra parte, la voz de un locutor de referencia definida por una base de datos de síntesis vocal, que se caracteriza porque el citado procedimiento comprende las etapas consistentes en: - generar, a partir de dicho mensaje vocal grabado por el locutor y de la citada base de datos de síntesis vocal, un registro sintético de dicho mensaje vocal, y - estimar la citada función de conversión de voz por medio de una operación de aprendizaje efectuada sobre el citado mensaje vocal grabado y el citado registro sintético.

Description

Procedimiento de estimación de una función de conversión de voz.

La presente invención se refiere a un procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor definida a partir de un mensaje vocal grabado por el citado locutor y, por otra parte, la voz de un locutor de referencia definida por una base de datos de síntesis vocal.

Igualmente, se refiere a un procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor fuente definida a partir de un primer mensaje vocal grabado por el citado locutor fuente, y por otra parte, la voz de un locutor objetivo definida a partir de un segundo mensaje vocal grabado por el citado locutor objetivo.

La invención encuentra una aplicación ventajosa cada vez que se desea hacer que un locutor diga un mensaje vocal grabado por otro locutor. También es posible, por ejemplo, diversificar las voces utilizadas en los sistemas de síntesis de palabra, o a la inversa, restituir de manera anónima los mensajes grabados por diferentes locutores. Se puede prever, asimismo, la utilización del procedimiento conforme a la invención para realizar doblajes de películas.

De manera general, la conversión de voz consiste en estimar una función de transformación, o de conversión, que aplicada a un primer locutor cuya voz se define a partir de un mensaje vocal grabado, permite reproducir, tan fielmente como sea posible, la voz de un segundo locutor. En el marco de la invención, el citado segundo locutor puede ser un locutor de referencia cuya voz está definida por una base de datos de síntesis vocal, o un locutor denominado "objetivo" cuya voz está igualmente definida a partir de un mensaje vocal grabado, siendo calificado el primer locutor como "fuente".

La identidad vocal de un locutor depende de numerosas características, ya sea segmentales (timbre, altura de voz, calidad vocal), o ya sea supra-segmentales (estilo de elocución). Entre éstas, el timbre sigue siendo la información más importante, debido a que la mayor parte de los trabajos en el campo de la conversión de voz tratan esencialmente de la modificación del timbre. Sin embargo, durante la conversión, se puede efectuar también una modificación de la frecuencia fundamental, conocida también como "pitch", con el fin de respetar globalmente la altura de voz del segundo locutor.

En esencia, el principio de la conversión de voz consiste, de manera conocida, en una operación de aprendizaje que pretende estimar una función que asocia el timbre de la voz del primer locutor con el de la voz del segundo locutor. Para ello, se necesitan dos registros paralelos de dos locutores, es decir que incluyen el mismo mensaje vocal. Se lleva a cabo un análisis sobre cada uno de los registros con el fin de extraer parámetros representativos del timbre de la voz. A continuación, tras el alineamiento de los dos registros, se empieza por efectuar una clasificación, es decir, una partición de los espacios acústicos de los dos locutores. Esta clasificación se utiliza a continuación para la estimación de la función de conversión. Se han propuesto numerosos métodos de transformación basados en este mismo principio, entre los que se pueden citar, por ejemplo, la conversión por cuantificación vectorial (M. Abe, S. Nakamura, K. Shikano y H. Kuwabara, "Voice conversion through vector quantization", Proceedings of ICASSP, pp. 655-658, 1988), por regresión lineal múltiple (H. Valbret, "Sistema de conversión de voz para síntesis de la palabra", PhD Thesis, ENST, París, 1992), por alineamiento frecuencial dinámico (H. Valbret, E. Moulines, J.P. Tubach, "Voice transformation using PSOLA technique", Speech Communication, vol. 11, pp. 175-187, 1995), por redes de neuronas (M. Narendranath, H.A. Murthy, S. Rajendran y B. Yegnanarayana, "Transformation of formants for voice conversion using artificial neural networks", Speech Communication, vol. 16, pp. 207-216, 1995), o incluso por modelo de mezcla de gaussianos (GMM) propuesto en "Y. Stylianou, O. Cappe, C. Moulines, Continuous probabilistic transform for voice conversion, IEEE Transactions on Speech and Audio Processing, vol. 6(2), pp. 131-142, marzo de 1998", y mejorada por Kain (A. Kain y M. Macon, "Text-to-speech voice adaptation from sparse training data", Proceedings of ICSLP, 1998).

Los procedimientos de estimación de funciones de conversión de voz que acaban de ser presentados, utilizan registros, o cuerpos, de mensajes paralelos de los dos locutores. Sin embargo, no siempre es posible obtener tales registros. Esto se debe a que, paralelamente al desarrollo de los procedimientos de conversión basados en la utilización de cuerpos paralelos, se han llevado a cabo otros trabajos con el fin de hacer que resulte posible la conversión en el caso de que los cuerpos fuente y objetivo no sean paralelos. Estos trabajos se han inspirado en gran medida en técnicas de adaptación al locutor utilizadas convencionalmente en el reconocimiento de la palabra por modelos de Markov ocultos (en inglés HMM de Hidden Markov Model). Se ha propuesto una aplicación interesante (J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda y T. Kobayashi, "A context clustering technique for average voice models", IEICE Trans. Inf & Syst, vol. E86-D (3), pp. 534-542, marzo de 2003), en la que el módulo de adaptación al locutor permite personalizar un sistema de síntesis mediante HMM. En un primer momento, se realiza una clasificación de los modelos HMM en contexto por árbol de decisión para construir un modelo de voz "medio". A continuación, los parámetros de estos modelos HMM son adaptados en función del locutor objetivo. Las pruebas, tanto objetivas como subjetivas, han mostrado con certeza la utilización del procedimiento en el marco de la síntesis por HMM. Pero la calidad de la palabra convertida accesible por los sistemas de síntesis por HMM es, sin embargo, muy mediocre.

Se ha propuesto igualmente una técnica de adaptación al locutor (A. Mouchtaris, J. van der Spiegel y P. Mueller, "Non-parallel training for voice conversion by maximum likelihood constrained adaptation", en Proceeding ICASSP, 2004, vol. 1, pp. 1-4) para obtener una conversión de voz basada en cuerpos no paralelos. En esta aplicación, se formula la hipótesis de que dos cuerpos paralelos A y B se encuentran disponibles. Para realizar la conversión entre los cuerpos no paralelos, fuente C y objetivo D, se supone además que los cuerpos C y D son paralelos respectivamente con una parte de los cuerpos A y B. En ese caso, la función de conversión entre los locutores C y D se expresa como la composición de tres funciones de conversión, respectivamente de los locutores C hacia A, de A hacia B, y de B hacia D. El marco de aplicación de este procedimiento parece bastante restrictivo, puesto que requiere, no obstante, porciones de registro paralelas. Además, no se ha propuesto ningún mecanismo que permita controlar el paralelismo de los cuerpos utilizados. Por último, la composición de las tres funciones de conversión corre el riesgo de arrastrar errores de transformación importantes. Al final, la calidad de la palabra convertida obtenida por este procedimiento se considera menos buena que la obtenida a partir de cuerpos paralelos.

También, un problema técnico a resolver mediante el objeto de la presente invención consiste en proponer un procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor definida a partir de un mensaje vocal grabado por el citado locutor, y por otra parte, la voz de un locutor de referencia definida por una base de datos de síntesis vocal, que permitiría obtener una palabra convertida de calidad mejor que la proporcionada por los procedimientos de cuerpos no paralelos conocidos.

El documento US-2002/0173962 describe un procedimiento para la síntesis de una voz personalizada a partir de texto, en el que la operación de aprendizaje se realiza entre un mensaje vocal sintético obtenido a partir del texto y un mensaje vocal correspondiente pronunciado por el locutor objetivo.

La solución al problema técnico planteado consiste, según la presente invención, en que dicho procedimiento comprende las etapas consistentes en:

- generar, a partir de dicho mensaje vocal grabado por el locutor y de la base de datos de síntesis vocal, un registro sintético de dicho mensaje vocal;

- estimar la citada función de conversión de voz por medio de una operación de aprendizaje efectuada sobre el citado mensaje vocal grabado y el citado registro sintético.

De ese modo, se comprende que el procedimiento según la invención permite obtener dos registros paralelos del mismo mensaje vocal, uno que ha sido grabado directamente por el locutor, y que constituye de algún modo el mensaje de base, y otro que es una reproducción sintética de este mensaje de base. La estimación de la función de conversión buscada se realiza entonces mediante una operación de aprendizaje convencional efectuada sobre dos registros paralelos. Las diferentes etapas de este tratamiento van a ser descritas en detalle más adelante.

Se pueden prever dos aplicaciones del procedimiento conforme a la invención, a saber, por una parte, una aplicación a la conversión de mensajes vocales grabados por un locutor fuente en mensajes correspondientes reproducidos por el citado locutor de referencia, y por otra parte, una aplicación a la conversión de mensajes sintéticos grabados por un locutor de referencia en mensajes correspondientes reproducidos por un locutor objetivo. La primera aplicación conduce a realizar anónimos, aunque reproducidos por un mismo locutor de referencia, de los mensajes vocales grabados por locutores diferentes. La segunda aplicación pretende, por el contrario, diversificar las voces utilizadas en la síntesis de la palabra.

El mismo principio de paralelización de mensajes a través de un locutor de referencia puede ser aplicado a la conversión de voz entre dos locutores conforme a un procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor fuente definida a partir de un primer mensaje vocal grabado por el citado locutor fuente y, por otra parte, la voz de un locutor objetivo definida a partir de un segundo mensaje vocal grabado por el citado locutor objetivo, el cual, según la invención, es relevante debido a que el citado procedimiento comprende las etapas consistentes en:

- generar, a partir de dicho primer mensaje grabado por el locutor fuente y de una base de datos de síntesis vocal, un registro sintético de dicho primer mensaje vocal,

- estimar una primera función de conversión de voz entre la voz del locutor fuente y la voz de un locutor de referencia definida por la citada base de datos de síntesis vocal, por medio de una operación de aprendizaje efectuada sobre el citado primer mensaje vocal grabado por el locutor fuente y el citado registro sintético del primer mensaje vocal,

- generar, a partir de dicho segundo mensaje vocal grabado por el locutor objetivo y de la citada base de datos de síntesis vocal, un registro sintético de dicho segundo mensaje vocal,

- estimar una segunda función de conversión de voz entre la voz de dicho locutor de referencia y la voz del locutor objetivo, por medio de una operación de aprendizaje efectuada sobre el citado registro sintético del segundo mensaje vocal y el citado segundo mensaje vocal grabado por el locutor objetivo,

- estimar la citada función de conversión de voz por composición de la citada primera y la citada segunda funciones de conversión de voz.

Según un primer modo de realización de la invención, la citada base de datos de síntesis vocal es una base de datos de un sistema de síntesis de palabra por concatenación.

Según un segundo modo de realización de la invención, la citada base de datos de síntesis vocal es una base de datos de un sistema de síntesis de palabra por cuerpo.

Se recuerda que los sistemas de síntesis por concatenación pueden utilizar bases de dífonos mono-representados. La elección del dífono, y no del fono (realización acústica de un fonema), resulta de la importancia de la zona transitoria, así conservada, comprendida entre dos fonos para la inteligibilidad de la señal de palabra. La síntesis por dífono conduce en general a una señal sintética cuya inteligibilidad es bastante buena. Por el contrario, las modificaciones efectuadas por el algoritmo TD-PSOLA (F. Charpentier y E. Moulines, "Pitch-synchronous waveform processing techniques for text-to- speech synthesis using diphones", Proceedings of Eurospeech, 1989), con el fin de satisfacer las consignas prosódicas, introducir distorsiones de la señal de síntesis y degradar así notablemente la calidad de la palabra sintética restituida.

La disponibilidad reciente de recursos informáticos importantes ha permitido la aparición de soluciones nuevas reagrupadas bajo la denominación de síntesis por cuerpo. En esta alternativa, la base de datos acústicos no está restringida a un diccionario de dífonos mono-representados, sino que contiene estos mismos elementos grabados en diferentes contextos (gramatical, sintáctico, fonémico, fonológico o prosódico). Cada elemento así manipulado, denominado también "unidad", es por tanto un segmento de palabra caracterizado por un conjunto de descriptores simbólicos relativos al contexto en el que ha sido grabado. En esta alternativa por cuerpo, la problemática de la síntesis cambia también radicalmente: no se trata ya de deformar la señal de palabra pretendiendo degradar lo menos posible la calidad del timbre, sino más bien de disponer de una base de datos suficientemente rica y de un algoritmo fino que permita la selección de las unidades mejor adaptadas al contexto y que minimice los artefactos en los instantes de concatenación. La selección de las unidades puede ser por tanto asemejada a un problema de minimización de una función de costes compuesta por dos tipos de métricas: un "coste objetivo" que mide la adecuación de las unidades con los parámetros simbólicos emitidos desde los módulos de tratamientos lingüísticos del sistema, y un "coste de concatenación" que tiene en cuenta la compatibilidad acústica de dos unidades consecutivas.

Por razones de complejidad algorítmica, enumerar y tratar de golpe el conjunto de combinaciones de unidades correspondientes a la fonetización de un texto dado es difícilmente previsible. Conviene, por tanto, realizar un filtrado de los datos antes de decidir sobre la elección de la secuencia óptima. Por esta razón, el módulo de selección de las unidades opera generalmente en dos etapas: en primer lugar, una "pre-selección" que consiste en seleccionar conjuntos de unidades candidatas para cada secuencia objetivo, y después una "selección final" que pretende determinar la secuencia óptima según una determinada función de coste predeterminada. Los métodos de pre-selección han sido bautizados, para la mayor parte de las variantes del método, como "Context Oriented Clustering" introducida por Nakajima (S. Nakajima y H. Hiroshi, "Automatic Generation of Synthesis Units Based on Context Oriented Clustering", Proceedings of ICASSP, pp. 659-662, Nueva York, EE.UU., abril 1988). A título de ejemplo, se pueden citar los trabajos de Black y Taylor (A.W. Black y P. Taylor, "Automatically clustering similar units for unit selection in speech synthesis", Proceedings of Eurospeech, Rodas, Grecia, septiembre de 1997), y de Donovan (R.E. Donovan, "Trainable Speech Synthesis", PhD Thesis, Universidad de Cambridge, Reino Unido, 1996) sobre este tema. La selección final se hace por minimización de una función de coste, generalmente mediante un algoritmo de tipo Viterbi. Se han propuesto numerosas funciones de coste que se diferencian esencialmente por la naturaleza de los diferentes costes utilizados, así como por la manera en que estos costes son combinados. Se debe apreciar, sin embargo, que la determinación de tales funciones de coste heterogéneas, de forma automática, se presenta delicada, a pesar de los numerosos trabajos en este campo (H. Peng, Y Zhong y M. Chu, "Perpetually optimizing the cost function for unit selection in a TTS System with one single run of MOS evaluation", Proceedings ICSLP, pp. 2613-2616, 2002), (S.S. Park, C.K. Kim y N.S. Kim, "Discriminative weight training for unit-selection based speech synthesis", Proceedings of Eurospeech, pp. 281-284, 2003), (T. Toda, H. Kawai y M. Tsuzaki, "Optimizing sub-cost functions for segment selection based on perceptual evaluations in concatenative speech synthesis", Proceedings of ICASSP, pp. 657-660, Montreal, Canadá, 2004).

La descripción que se va a realizar en lo que sigue con relación a los dibujos anexos, dados a título de ejemplos no limitativos, permitirá comprender bien en qué consiste la invención y cómo puede ser llevada a cabo.

La figura 1 es un diagrama de bloques que representa las etapas de un procedimiento de conversión de voz entre un locutor y un locutor de referencia.

La figura 2 es un diagrama de bloques que representa las etapas de un procedimiento de conversión de voz entre un locutor fuente y un locutor objetivo.

La figura 3 es un esquema de un sistema de conversión de voz que hace uso del procedimiento de estimación conforme a la invención.

En la figura 1, se ha ilustrado un procedimiento de estimación de conversión de voz entre un locutor y un locutor de referencia. La voz de dicho locutor se define a partir de un mensaje vocal grabado, mientras que la voz de dicho locutor de referencia se define a partir de una base 10 de datos acústicos de un sistema de síntesis de palabra por concatenación, con preferencia por cuerpo, aunque se puede utilizar igualmente un sistema de síntesis por dífonos mono-representados.

En una primera etapa, se genera un registro sintético paralelo al mensaje vocal grabado por el locutor a partir de la citada base 10 de datos de síntesis vocal.

A tal fin, un primer bloque necesario para la generación, denominado bloque 20 de análisis de anotación, tiene por objeto extraer del registro del locutor considerado, informaciones de tipo simbólico, relativas al mensaje contenido en el citado registro.

Un primer tipo de tratamiento previsto consiste en extraer del registro vocal el mensaje pronunciado en forma textual. Éste puede ser obtenido de forma automática por medio de un sistema de reconocimiento vocal, o de forma manual mediante escucha y transcripción de los mensajes vocales. En ese caso, el texto así reconocido alimenta directamente el sistema 30 de síntesis vocal, generando así el registro sintético de referencia deseado.

Sin embargo, puede ser ventajoso determinar la cadena fonética realizada de forma efectiva por el locutor considerado. Para ello, se pueden utilizar procedimientos estándar de descodificación acústico-fonética, por ejemplo a base de modelos HMM. Para esta variante, es posible obligar al sintetizador vocal a reproducir exactamente la fonetización así determinada.

De manera más general, resulta deseable introducir un mecanismo de anotación del registro con el fin de extraer las máximas informaciones que puedan ser tenidas en cuenta por el sistema de síntesis de concatenación. Entre ellas, las informaciones relativas a la anotación parecen particularmente pertinentes, puesto que permiten controlar mejor los modos de elocución del locutor. Así, un algoritmo de anotación prosódica puede estar integrado en el procedimiento, o se puede prever una fase de anotación manual del cuerpo con el fin de tener en cuenta los marcadores melódicos que se consideren pertinentes.

Resulta posible entonces estimar la función de conversión buscada aplicando a los dos registros paralelos disponibles, a saber el mensaje vocal grabado y el registro sintético de referencia, una operación de aprendizaje que va a ser descrita ahora en detalle.

Según puede apreciarse en la figura 1, el tratamiento aplicado a los dos registros hace que aparezcan diferentes operaciones necesarias para obtener la función de conversión deseada. Estas operaciones son, por orden:

- análisis acústico 40,

- alineamiento 50 de los cuerpos,

- clasificación acústica 60,

- estimación 70 de la función de conversión.

El análisis acústico se efectúa, por ejemplo, por medio del modelo HNM ("Harmonic plus Noise Model"), que supone que un segmento (denominado también trama) expresado por la señal de palabra s(n), puede ser descompuesto en una parte armónica h(n) que representa la componente cuasi-periódica de la señal constituida por una suma de L sinusoides armónicas de amplitudes A_{I} y de fases \varphi_{I}, y en una parte ruidosa b(n) que representa el ruido de fricción y la variación de la excitación de la glotis de un período al otro, modelizado por un filtro LPC ("Linear Prediction Coefficients") excitado por un ruido blanco gaussiano (Y. Stylianou, "Harmonic plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", PhD Thesis, Escuela Nacional Superior de Telecomunicaciones, Francia, 1996).

1

\vskip1.000000\baselineskip

siendo:

2

Para una trama no expresada, la parte armónica está ausente y la señal se modeliza simplemente mediante un ruido blanco conformado mediante filtrado auto-regresivo (AR).

La primera etapa del análisis HNM consiste en tomar una decisión en cuanto al carácter expresado o no de la trama analizada. Este tratamiento se realiza en modo asíncrono con la ayuda de un paso de análisis fijado en 10 ms.

Para una trama expresada, se determina en primer lugar la frecuencia fundamental F_{0} y la frecuencia máxima de expresión, es decir, la frecuencia por encima de la cual se considera que la señal está constituida únicamente por ruido. A continuación, un análisis sincronizado sobre F_{0} permite estimar los parámetros de la parte armónica (las amplitudes y las fases), así como los parámetros del ruido. Los parámetros de los armónicos se calculan por minimización de un criterio de los menores cuadrados ponderados (véase el artículo de Y. Stylianou citado más arriba):

\vskip1.000000\baselineskip

3

\vskip1.000000\baselineskip

en la que s(n) es la señal original, h(n) es la parte armónica definida por la relación (5) que se expone más adelante, w(n) es la ventana de análisis, y T^{0}_{i} es el período fundamental de la trama actual. Conviene apreciar que la trama de análisis tiene una duración igual a dos veces el período fundamental (véase el artículo de Y. Stylianou citado más arriba). Este análisis armónico es importante en la medida en que aporta una información fiable sobre el valor del espectro a las frecuencias armónicas. Una información de ese tipo resulta necesaria para tener una estimación robusta de la envolvente espectral.

Las partes del espectro que corresponden a ruido (que se trata de la componente de ruido de una trama expresada o de una trama no expresada), son modelizadas con la ayuda de una simple predicción lineal. La respuesta en frecuencia del modelo AR así estimado se muestrea a continuación con paso constante, lo que proporciona una estimación de la envolvente espectral sobre las zonas ruidosas.

En el modo de realización propuesto, dado este muestreo de la envolvente espectral, se deducen los parámetros que modelizan esta envolvente espectral utilizando el procedimiento del cepstro discreto regularizado (O. Cappe, E. Moulines, Regularization techniques for discrete cepstrum estimation, IEEE Signal Processing Letters, vol. 3 (4), pp. 100-102, abril de 1996). El orden de la modelización cepstral ha sido fijado en 20. Además, para reproducir lo más fielmente posible las propiedades del oído humano, se efectúa una transformación en escala de Bark. Estos coeficientes son así para aproximar los MFCC ("Mel Frequency Cepstral Coefficients") encontrados convencionalmente en el reconocimiento de la palabra. De ese modo, para cada trama de palabra, se calcula un vector acústico constituido por parámetros cepstrales.

Conviene apreciar igualmente que se pueden utilizar otros tipos de parámetros que modelizan la envolvente espectral: por ejemplo, los LSF (Line Spectral Frequency) o incluso los LAR (Log Area Ratio).

Tras el análisis acústico, conviene hacer corresponder los diferentes vectores acústicos de los dos registros. Para ello, se utiliza un algoritmo clásico, denominado de alineamiento dinámico (en inglés DTW en correspondencia con "Dynamic Time Warping").

Ventajosamente, si se encuentran disponibles una anotación y una segmentación de los dos registros (por ejemplo, una repartición en fonemas), y si estas informaciones son concordantes entre los dos registros, entonces la vía de alineamiento puede ser la obligada con el fin de respetar las marcas de segmentación.

En el modo de realización propuesto, se realiza una clasificación conjunta de los vectores acústicos de los dos registros alineados. Sean x_{1:N} = [x_{1}, x_{2}, ..., x_{N}] e y_{1:N} = [y_{1}, y_{2}, ..., y_{N}] las secuencias de vectores acústicos alineados. Sean x e y las variables aleatorias relativas a los vectores acústicos de cada uno de los registros, y z = (x, y) el par asociado. En la clasificación acústica aquí descrita, la variable aleatoria z está modelizada por medio de una mezcla de leyes gaussianas (en inglés, GMM en correspondencia con "Gaussian Mixture Model") de orden Q. Su densidad de probabilidad se escribe entonces de la forma siguiente:

\vskip1.000000\baselineskip

4

\vskip1.000000\baselineskip

donde N(z; \mu; \sum) es la densidad de probabilidad de la ley normal de media \mu y de matriz de covalencia \sum, y donde los \alpha_{i} son coeficientes de la mezcla (\alpha_{i} es la probabilidad a priori de que z sea generada por la i^{ésima} gaussiana).

La estimación de los parámetros del modelo se efectúa aplicando un procedimiento iterativo clásico, a saber el algoritmo EM (Expectation - Maximization) (A.P. Dempster, N.M. Laird, D.R. Rubin, Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society B, vol. 39, pp. 1-38, 1977). La determinación de los parámetros iniciales del modelo GMM se obtiene con la ayuda de una técnica estándar de cuantificación vectorial.

Una vez aprendido el modelo GMM, puede ser utilizado para determinar, por regresión, una función de conversión entre el locutor y el locutor de referencia. En caso de una conversión de un locutor x a un locutor y, ésta se escribe de la siguiente forma:

5

donde

6

es la probabilidad a posteriori de que x sea generada por la gaussiana de índice i, con:

7

La figura 2 ilustra un procedimiento de estimación de una función de conversión de voz entre un locutor fuente y un locutor objetivo, cuyas voces están respectivamente definidas a partir de mensajes vocales grabados por cada uno de los locutores, siendo estos registros no paralelos.

En una primera etapa, los registros sintéticos de referencia se generan a partir de los citados mensajes vocales grabados según un procedimiento análogo al que se acaba de describir en relación con la figura 1.

Resultan entonces necesarias dos etapas de conversión para convertir la voz del locutor fuente en la del locutor objetivo. En un primer momento, hay que convertir los parámetros del locutor fuente en los del locutor de referencia, y después transformar estos últimos de manera que reproduzcan al locutor objetivo deseado. De ese modo, puede ser estimada una función que permite la conversión fuente-objetivo buscada componiendo dos funciones de transformación dadas por (4):

8

Un sistema de conversión de voz que integra el procedimiento de estimación descrito, ha sido representado en la figura 3. En el modo de realización propuesto, la etapa de análisis reposa siempre en una modelización por HNM, pero esta vez se lleva a cabo de manera pitch-síncrona, puesto que ello permite modificaciones de pitch y de envolvente espectral de mejor calidad (véase el artículo de Y. Stylianou citado con anterioridad). Los parámetros espectrales extraídos son transformados a continuación con la ayuda de un módulo 80 de conversión que realiza la conversión determinada por la relación (6).

Estos parámetros modificados, así como las informaciones residuales necesarias para la generación sonora (frecuencia fundamental, fase de los armónicos, ganancia de la parte ruidosa, frecuencia máxima de expresión), son transmitidos a un módulo de síntesis mediante HNM. La componente armónica de la señal definida por la ecuación (2) y presente para las tramas de señal expresadas, se genera mediante suma de sinusoides previamente tabuladas cuyas amplitudes se calculan a partir de los parámetros espectrales convertidos. La parte estocástica se determina mediante Transformada de Fourier Inversa (IFFT) sobre el espectro calculado a partir de los parámetros espectrales.

Como variante, el modelo HNM puede ser reemplazado por otros modelos conocidos por el experto en la materia, tales como los modelos por predicción lineal (LPC en correspondencia con "Linear Predictive Coding"), los modelos sinusoidales o MBE ("Multi-Band Excited"). El procedimiento de conversión por GMM puede ser reemplazado por técnicas convencionales de cuantificación vectorial (VQ en correspondencia con "Vector Quantization") o de cuantificación vectorial indistinta (Fuzzy VQ).

La descripción que se acaba de proporcionar del procedimiento de estimación conforme a la invención, no hace referencia más que a la transformación sola de parámetros relativos al timbre. Pero debe entenderse que el mismo procedimiento puede ser aplicado igualmente a la transformación de otros tipos de parámetros como la frecuencia fundamental ("pitch"), o incluso de parámetros asociados a la calidad vocal.

Según una implementación preferida de la invención, las etapas del procedimiento se determinan mediante las instrucciones de un programa de estimación de una función de conversión de voz incorporada en un servidor, y el procedimiento según la invención se utiliza cuando este programa se carga en un ordenador cuyo funcionamiento está entonces comandado por la ejecución del programa.

En consecuencia, la invención se aplica igualmente a un programa de ordenador, en particular a un programa de ordenador sobre, o en, un soporte de informaciones, adaptado para poner en práctica la invención. Este programa puede utilizar cualquier lenguaje de programación, y estar en forma de código fuente, código objeto, o código intermedio entre código fuente y código objeto tal como en una forma parcialmente compilada, o en cualquier otra forma deseada para implementar el procedimiento según la invención.

El soporte de las informaciones puede ser cualquier entidad o dispositivo capaz de almacenar el programa. Por ejemplo, el soporte puede incorporar un medio de almacenamiento tal como una memoria ROM, por ejemplo un CD ROM o una memoria ROM en circuito microelectrónico, o incluso un medio de registro magnético, por ejemplo un disquete (disco flotante) o un disco duro.

Por otra parte, el soporte de las informaciones puede ser un soporte transmisible, tal como una señal eléctrica u óptica, que puede ser enrutada por medio de un cable eléctrico u óptico, por radio o por otros medios. El programa según la invención puede ser, en particular, tele-cargado en una red de tipo Internet.

Alternativamente, el soporte de las informaciones puede ser un circuito integrado en el que esté incorporado el programa, estando el circuito adaptado para ejecutar el, o para ser utilizado en la ejecución del, procedimiento en cuestión.

Claims

1. Procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor definida a partir de un mensaje vocal grabado por el citado locutor, y por otra parte, la voz de un locutor de referencia definida por una base de datos de síntesis vocal, que se caracteriza porque el citado procedimiento comprende las etapas consistentes en:

- generar, a partir de dicho mensaje vocal grabado por el locutor y de la citada base de datos de síntesis vocal, un registro sintético de dicho mensaje vocal, y

2. Procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor fuente definida a partir de un primer mensaje vocal grabado por el citado locutor fuente, y por otra parte, la voz de un locutor objetivo definida a partir de un segundo mensaje vocal grabado por el citado locutor objetivo, que se caracteriza porque el citado procedimiento comprende las etapas consistentes en:

- generar, a partir de dicho primer mensaje vocal grabado por el locutor fuente y de una base de datos de síntesis vocal, un registro sintético de dicho primer mensaje vocal;

- estimar una primera función de conversión de voz entre la voz del locutor fuente y la voz de un locutor de referencia definida por la citada base de datos de síntesis vocal, mediante una operación de aprendizaje realizada sobre el citado primer mensaje vocal grabado por el locutor fuente y el citado registro sintético del primer mensaje vocal;

- generar, a partir de dicho segundo mensaje vocal grabado por el locutor objetivo y de la citada base de datos de síntesis vocal, un registro sintético de dicho segundo mensaje vocal;

- estimar una segunda función de conversión de voz entre la voz de dicho locutor de referencia y la voz del locutor objetivo, por medio de una operación de aprendizaje efectuada sobre el citado registro sintético del segundo mensaje vocal y el citado segundo mensaje vocal grabado por el locutor objetivo; y

- estimar la citada función de conversión de voz por composición de la citada primera y de la citada segunda funciones de conversión de voz.

3. Procedimiento según una de las reivindicaciones 1 ó 2, que se caracteriza porque la citada base de datos de síntesis vocal es una base de datos de un sistema de síntesis de la palabra por concatenación.

4. Procedimiento según una de las reivindicaciones 1 ó 2, que se caracteriza porque la citada base de datos de síntesis vocal es una base de datos de un sistema de síntesis de la palabra por cuerpo.

5. Aplicación del procedimiento según la reivindicación 1 a la conversión de mensajes vocales grabados por un locutor fuente en mensajes correspondientes reproducidos por el citado locutor de referencia.

6. Aplicación del procedimiento según la reivindicación 1 a la conversión de mensajes sintéticos grabados por un locutor de referencia en mensajes correspondientes reproducidos por un locutor objetivo.

7. Sistema de conversión de voz, que se caracteriza porque comprende un módulo de conversión de voz que comprende medios para la puesta en práctica del procedimiento según una cualquiera de las reivindicaciones 1 a 4.

8. Programa de ordenador sobre un soporte de informaciones, incluyendo el citado programa instrucciones de programa adaptadas para la puesta en práctica de un procedimiento según una cualquiera de las reivindicaciones 1 a 4, cuando el programa se carga y se ejecuta en un sistema informático.