ES2322909T3 - Procedimiento de estimacion de una funcion de conversion de voz. - Google Patents
Procedimiento de estimacion de una funcion de conversion de voz. Download PDFInfo
- Publication number
- ES2322909T3 ES2322909T3 ES05850632T ES05850632T ES2322909T3 ES 2322909 T3 ES2322909 T3 ES 2322909T3 ES 05850632 T ES05850632 T ES 05850632T ES 05850632 T ES05850632 T ES 05850632T ES 2322909 T3 ES2322909 T3 ES 2322909T3
- Authority
- ES
- Spain
- Prior art keywords
- voice
- vocal
- speaker
- message
- recorded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 46
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 46
- 230000001755 vocal effect Effects 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 41
- 239000000203 mixture Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 10
- 230000009466 transformation Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000011002 quantification Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000220010 Rhode Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Procedimiento de estimación de una función de conversión de voz entre, por una parte, la voz de un locutor definida a partir de un mensaje vocal grabado por el citado locutor, y por otra parte, la voz de un locutor de referencia definida por una base de datos de síntesis vocal, que se caracteriza porque el citado procedimiento comprende las etapas consistentes en: - generar, a partir de dicho mensaje vocal grabado por el locutor y de la citada base de datos de síntesis vocal, un registro sintético de dicho mensaje vocal, y - estimar la citada función de conversión de voz por medio de una operación de aprendizaje efectuada sobre el citado mensaje vocal grabado y el citado registro sintético.
Description
Procedimiento de estimación de una función de
conversión de voz.
La presente invención se refiere a un
procedimiento de estimación de una función de conversión de voz
entre, por una parte, la voz de un locutor definida a partir de un
mensaje vocal grabado por el citado locutor y, por otra parte, la
voz de un locutor de referencia definida por una base de datos de
síntesis vocal.
Igualmente, se refiere a un procedimiento de
estimación de una función de conversión de voz entre, por una
parte, la voz de un locutor fuente definida a partir de un primer
mensaje vocal grabado por el citado locutor fuente, y por otra
parte, la voz de un locutor objetivo definida a partir de un segundo
mensaje vocal grabado por el citado locutor objetivo.
La invención encuentra una aplicación ventajosa
cada vez que se desea hacer que un locutor diga un mensaje vocal
grabado por otro locutor. También es posible, por ejemplo,
diversificar las voces utilizadas en los sistemas de síntesis de
palabra, o a la inversa, restituir de manera anónima los mensajes
grabados por diferentes locutores. Se puede prever, asimismo, la
utilización del procedimiento conforme a la invención para realizar
doblajes de películas.
De manera general, la conversión de voz consiste
en estimar una función de transformación, o de conversión, que
aplicada a un primer locutor cuya voz se define a partir de un
mensaje vocal grabado, permite reproducir, tan fielmente como sea
posible, la voz de un segundo locutor. En el marco de la invención,
el citado segundo locutor puede ser un locutor de referencia cuya
voz está definida por una base de datos de síntesis vocal, o un
locutor denominado "objetivo" cuya voz está igualmente definida
a partir de un mensaje vocal grabado, siendo calificado el primer
locutor como "fuente".
La identidad vocal de un locutor depende de
numerosas características, ya sea segmentales (timbre, altura de
voz, calidad vocal), o ya sea supra-segmentales
(estilo de elocución). Entre éstas, el timbre sigue siendo la
información más importante, debido a que la mayor parte de los
trabajos en el campo de la conversión de voz tratan esencialmente
de la modificación del timbre. Sin embargo, durante la conversión,
se puede efectuar también una modificación de la frecuencia
fundamental, conocida también como "pitch", con el fin de
respetar globalmente la altura de voz del segundo locutor.
En esencia, el principio de la conversión de voz
consiste, de manera conocida, en una operación de aprendizaje que
pretende estimar una función que asocia el timbre de la voz del
primer locutor con el de la voz del segundo locutor. Para ello, se
necesitan dos registros paralelos de dos locutores, es decir que
incluyen el mismo mensaje vocal. Se lleva a cabo un análisis sobre
cada uno de los registros con el fin de extraer parámetros
representativos del timbre de la voz. A continuación, tras el
alineamiento de los dos registros, se empieza por efectuar una
clasificación, es decir, una partición de los espacios acústicos de
los dos locutores. Esta clasificación se utiliza a continuación
para la estimación de la función de conversión. Se han propuesto
numerosos métodos de transformación basados en este mismo
principio, entre los que se pueden citar, por ejemplo, la
conversión por cuantificación vectorial (M. Abe, S. Nakamura, K.
Shikano y H. Kuwabara, "Voice conversion through vector
quantization", Proceedings of ICASSP, pp.
655-658, 1988), por regresión lineal múltiple (H.
Valbret, "Sistema de conversión de voz para síntesis de la
palabra", PhD Thesis, ENST, París, 1992), por alineamiento
frecuencial dinámico (H. Valbret, E. Moulines, J.P. Tubach, "Voice
transformation using PSOLA technique", Speech Communication,
vol. 11, pp. 175-187, 1995), por redes de neuronas
(M. Narendranath, H.A. Murthy, S. Rajendran y B. Yegnanarayana,
"Transformation of formants for voice conversion using artificial
neural networks", Speech Communication, vol. 16, pp.
207-216, 1995), o incluso por modelo de mezcla de
gaussianos (GMM) propuesto en "Y. Stylianou, O. Cappe, C.
Moulines, Continuous probabilistic transform for voice conversion,
IEEE Transactions on Speech and Audio Processing, vol. 6(2),
pp. 131-142, marzo de 1998", y mejorada por Kain
(A. Kain y M. Macon,
"Text-to-speech voice adaptation
from sparse training data", Proceedings of ICSLP, 1998).
Los procedimientos de estimación de funciones de
conversión de voz que acaban de ser presentados, utilizan
registros, o cuerpos, de mensajes paralelos de los dos locutores.
Sin embargo, no siempre es posible obtener tales registros. Esto se
debe a que, paralelamente al desarrollo de los procedimientos de
conversión basados en la utilización de cuerpos paralelos, se han
llevado a cabo otros trabajos con el fin de hacer que resulte
posible la conversión en el caso de que los cuerpos fuente y
objetivo no sean paralelos. Estos trabajos se han inspirado en gran
medida en técnicas de adaptación al locutor utilizadas
convencionalmente en el reconocimiento de la palabra por modelos de
Markov ocultos (en inglés HMM de Hidden Markov Model). Se ha
propuesto una aplicación interesante (J. Yamagishi, M. Tamura, T.
Masuko, K. Tokuda y T. Kobayashi, "A context clustering technique
for average voice models", IEICE Trans. Inf & Syst, vol.
E86-D (3), pp. 534-542, marzo de
2003), en la que el módulo de adaptación al locutor permite
personalizar un sistema de síntesis mediante HMM. En un primer
momento, se realiza una clasificación de los modelos HMM en contexto
por árbol de decisión para construir un modelo de voz "medio".
A continuación, los parámetros de estos modelos HMM son adaptados en
función del locutor objetivo. Las pruebas, tanto objetivas como
subjetivas, han mostrado con certeza la utilización del
procedimiento en el marco de la síntesis por HMM. Pero la calidad de
la palabra convertida accesible por los sistemas de síntesis por
HMM es, sin embargo, muy mediocre.
Se ha propuesto igualmente una técnica de
adaptación al locutor (A. Mouchtaris, J. van der Spiegel y P.
Mueller, "Non-parallel training for voice
conversion by maximum likelihood constrained adaptation", en
Proceeding ICASSP, 2004, vol. 1, pp. 1-4) para
obtener una conversión de voz basada en cuerpos no paralelos. En
esta aplicación, se formula la hipótesis de que dos cuerpos
paralelos A y B se encuentran disponibles. Para realizar la
conversión entre los cuerpos no paralelos, fuente C y objetivo D,
se supone además que los cuerpos C y D son paralelos
respectivamente con una parte de los cuerpos A y B. En ese caso, la
función de conversión entre los locutores C y D se expresa como la
composición de tres funciones de conversión, respectivamente de los
locutores C hacia A, de A hacia B, y de B hacia D. El marco de
aplicación de este procedimiento parece bastante restrictivo,
puesto que requiere, no obstante, porciones de registro paralelas.
Además, no se ha propuesto ningún mecanismo que permita controlar
el paralelismo de los cuerpos utilizados. Por último, la composición
de las tres funciones de conversión corre el riesgo de arrastrar
errores de transformación importantes. Al final, la calidad de la
palabra convertida obtenida por este procedimiento se considera
menos buena que la obtenida a partir de cuerpos paralelos.
También, un problema técnico a resolver mediante
el objeto de la presente invención consiste en proponer un
procedimiento de estimación de una función de conversión de voz
entre, por una parte, la voz de un locutor definida a partir de un
mensaje vocal grabado por el citado locutor, y por otra parte, la
voz de un locutor de referencia definida por una base de datos de
síntesis vocal, que permitiría obtener una palabra convertida de
calidad mejor que la proporcionada por los procedimientos de cuerpos
no paralelos conocidos.
El documento US-2002/0173962
describe un procedimiento para la síntesis de una voz personalizada
a partir de texto, en el que la operación de aprendizaje se realiza
entre un mensaje vocal sintético obtenido a partir del texto y un
mensaje vocal correspondiente pronunciado por el locutor
objetivo.
La solución al problema técnico planteado
consiste, según la presente invención, en que dicho procedimiento
comprende las etapas consistentes en:
- generar, a partir de dicho mensaje vocal
grabado por el locutor y de la base de datos de síntesis vocal, un
registro sintético de dicho mensaje vocal;
- estimar la citada función de conversión de voz
por medio de una operación de aprendizaje efectuada sobre el citado
mensaje vocal grabado y el citado registro sintético.
De ese modo, se comprende que el procedimiento
según la invención permite obtener dos registros paralelos del
mismo mensaje vocal, uno que ha sido grabado directamente por el
locutor, y que constituye de algún modo el mensaje de base, y otro
que es una reproducción sintética de este mensaje de base. La
estimación de la función de conversión buscada se realiza entonces
mediante una operación de aprendizaje convencional efectuada sobre
dos registros paralelos. Las diferentes etapas de este tratamiento
van a ser descritas en detalle más adelante.
Se pueden prever dos aplicaciones del
procedimiento conforme a la invención, a saber, por una parte, una
aplicación a la conversión de mensajes vocales grabados por un
locutor fuente en mensajes correspondientes reproducidos por el
citado locutor de referencia, y por otra parte, una aplicación a la
conversión de mensajes sintéticos grabados por un locutor de
referencia en mensajes correspondientes reproducidos por un locutor
objetivo. La primera aplicación conduce a realizar anónimos, aunque
reproducidos por un mismo locutor de referencia, de los mensajes
vocales grabados por locutores diferentes. La segunda aplicación
pretende, por el contrario, diversificar las voces utilizadas en la
síntesis de la palabra.
El mismo principio de paralelización de mensajes
a través de un locutor de referencia puede ser aplicado a la
conversión de voz entre dos locutores conforme a un procedimiento de
estimación de una función de conversión de voz entre, por una
parte, la voz de un locutor fuente definida a partir de un primer
mensaje vocal grabado por el citado locutor fuente y, por otra
parte, la voz de un locutor objetivo definida a partir de un segundo
mensaje vocal grabado por el citado locutor objetivo, el cual,
según la invención, es relevante debido a que el citado
procedimiento comprende las etapas consistentes en:
- generar, a partir de dicho primer mensaje
grabado por el locutor fuente y de una base de datos de síntesis
vocal, un registro sintético de dicho primer mensaje vocal,
- estimar una primera función de conversión de
voz entre la voz del locutor fuente y la voz de un locutor de
referencia definida por la citada base de datos de síntesis vocal,
por medio de una operación de aprendizaje efectuada sobre el citado
primer mensaje vocal grabado por el locutor fuente y el citado
registro sintético del primer mensaje vocal,
- generar, a partir de dicho segundo mensaje
vocal grabado por el locutor objetivo y de la citada base de datos
de síntesis vocal, un registro sintético de dicho segundo mensaje
vocal,
- estimar una segunda función de conversión de
voz entre la voz de dicho locutor de referencia y la voz del
locutor objetivo, por medio de una operación de aprendizaje
efectuada sobre el citado registro sintético del segundo mensaje
vocal y el citado segundo mensaje vocal grabado por el locutor
objetivo,
- estimar la citada función de conversión de voz
por composición de la citada primera y la citada segunda funciones
de conversión de voz.
Según un primer modo de realización de la
invención, la citada base de datos de síntesis vocal es una base de
datos de un sistema de síntesis de palabra por concatenación.
Según un segundo modo de realización de la
invención, la citada base de datos de síntesis vocal es una base de
datos de un sistema de síntesis de palabra por cuerpo.
Se recuerda que los sistemas de síntesis por
concatenación pueden utilizar bases de dífonos
mono-representados. La elección del dífono, y no
del fono (realización acústica de un fonema), resulta de la
importancia de la zona transitoria, así conservada, comprendida
entre dos fonos para la inteligibilidad de la señal de palabra. La
síntesis por dífono conduce en general a una señal sintética cuya
inteligibilidad es bastante buena. Por el contrario, las
modificaciones efectuadas por el algoritmo TD-PSOLA
(F. Charpentier y E. Moulines, "Pitch-synchronous
waveform processing techniques for text-to- speech
synthesis using diphones", Proceedings of Eurospeech, 1989), con
el fin de satisfacer las consignas prosódicas, introducir
distorsiones de la señal de síntesis y degradar así notablemente la
calidad de la palabra sintética restituida.
La disponibilidad reciente de recursos
informáticos importantes ha permitido la aparición de soluciones
nuevas reagrupadas bajo la denominación de síntesis por cuerpo. En
esta alternativa, la base de datos acústicos no está restringida a
un diccionario de dífonos mono-representados, sino
que contiene estos mismos elementos grabados en diferentes
contextos (gramatical, sintáctico, fonémico, fonológico o
prosódico). Cada elemento así manipulado, denominado también
"unidad", es por tanto un segmento de palabra caracterizado por
un conjunto de descriptores simbólicos relativos al contexto en el
que ha sido grabado. En esta alternativa por cuerpo, la
problemática de la síntesis cambia también radicalmente: no se trata
ya de deformar la señal de palabra pretendiendo degradar lo menos
posible la calidad del timbre, sino más bien de disponer de una base
de datos suficientemente rica y de un algoritmo fino que permita la
selección de las unidades mejor adaptadas al contexto y que
minimice los artefactos en los instantes de concatenación. La
selección de las unidades puede ser por tanto asemejada a un
problema de minimización de una función de costes compuesta por dos
tipos de métricas: un "coste objetivo" que mide la adecuación
de las unidades con los parámetros simbólicos emitidos desde los
módulos de tratamientos lingüísticos del sistema, y un "coste de
concatenación" que tiene en cuenta la compatibilidad acústica de
dos unidades consecutivas.
Por razones de complejidad algorítmica, enumerar
y tratar de golpe el conjunto de combinaciones de unidades
correspondientes a la fonetización de un texto dado es difícilmente
previsible. Conviene, por tanto, realizar un filtrado de los datos
antes de decidir sobre la elección de la secuencia óptima. Por esta
razón, el módulo de selección de las unidades opera generalmente en
dos etapas: en primer lugar, una
"pre-selección" que consiste en seleccionar
conjuntos de unidades candidatas para cada secuencia objetivo, y
después una "selección final" que pretende determinar la
secuencia óptima según una determinada función de coste
predeterminada. Los métodos de pre-selección han
sido bautizados, para la mayor parte de las variantes del método,
como "Context Oriented Clustering" introducida por Nakajima
(S. Nakajima y H. Hiroshi, "Automatic Generation of Synthesis
Units Based on Context Oriented Clustering", Proceedings of
ICASSP, pp. 659-662, Nueva York, EE.UU., abril
1988). A título de ejemplo, se pueden citar los trabajos de Black y
Taylor (A.W. Black y P. Taylor, "Automatically clustering similar
units for unit selection in speech synthesis", Proceedings of
Eurospeech, Rodas, Grecia, septiembre de 1997), y de Donovan (R.E.
Donovan, "Trainable Speech Synthesis", PhD Thesis, Universidad
de Cambridge, Reino Unido, 1996) sobre este tema. La selección
final se hace por minimización de una función de coste, generalmente
mediante un algoritmo de tipo Viterbi. Se han propuesto numerosas
funciones de coste que se diferencian esencialmente por la
naturaleza de los diferentes costes utilizados, así como por la
manera en que estos costes son combinados. Se debe apreciar, sin
embargo, que la determinación de tales funciones de coste
heterogéneas, de forma automática, se presenta delicada, a pesar de
los numerosos trabajos en este campo (H. Peng, Y Zhong y M. Chu,
"Perpetually optimizing the cost function for unit selection in a
TTS System with one single run of MOS evaluation", Proceedings
ICSLP, pp. 2613-2616, 2002), (S.S. Park, C.K. Kim y
N.S. Kim, "Discriminative weight training for
unit-selection based speech synthesis",
Proceedings of Eurospeech, pp. 281-284, 2003), (T.
Toda, H. Kawai y M. Tsuzaki, "Optimizing sub-cost
functions for segment selection based on perceptual evaluations in
concatenative speech synthesis", Proceedings of ICASSP, pp.
657-660, Montreal, Canadá, 2004).
La descripción que se va a realizar en lo que
sigue con relación a los dibujos anexos, dados a título de ejemplos
no limitativos, permitirá comprender bien en qué consiste la
invención y cómo puede ser llevada a cabo.
La figura 1 es un diagrama de bloques que
representa las etapas de un procedimiento de conversión de voz entre
un locutor y un locutor de referencia.
La figura 2 es un diagrama de bloques que
representa las etapas de un procedimiento de conversión de voz entre
un locutor fuente y un locutor objetivo.
La figura 3 es un esquema de un sistema de
conversión de voz que hace uso del procedimiento de estimación
conforme a la invención.
En la figura 1, se ha ilustrado un procedimiento
de estimación de conversión de voz entre un locutor y un locutor de
referencia. La voz de dicho locutor se define a partir de un mensaje
vocal grabado, mientras que la voz de dicho locutor de referencia
se define a partir de una base 10 de datos acústicos de un sistema
de síntesis de palabra por concatenación, con preferencia por
cuerpo, aunque se puede utilizar igualmente un sistema de síntesis
por dífonos mono-representados.
En una primera etapa, se genera un registro
sintético paralelo al mensaje vocal grabado por el locutor a partir
de la citada base 10 de datos de síntesis vocal.
A tal fin, un primer bloque necesario para la
generación, denominado bloque 20 de análisis de anotación, tiene
por objeto extraer del registro del locutor considerado,
informaciones de tipo simbólico, relativas al mensaje contenido en
el citado registro.
Un primer tipo de tratamiento previsto consiste
en extraer del registro vocal el mensaje pronunciado en forma
textual. Éste puede ser obtenido de forma automática por medio de un
sistema de reconocimiento vocal, o de forma manual mediante escucha
y transcripción de los mensajes vocales. En ese caso, el texto así
reconocido alimenta directamente el sistema 30 de síntesis vocal,
generando así el registro sintético de referencia deseado.
Sin embargo, puede ser ventajoso determinar la
cadena fonética realizada de forma efectiva por el locutor
considerado. Para ello, se pueden utilizar procedimientos estándar
de descodificación acústico-fonética, por ejemplo a
base de modelos HMM. Para esta variante, es posible obligar al
sintetizador vocal a reproducir exactamente la fonetización así
determinada.
De manera más general, resulta deseable
introducir un mecanismo de anotación del registro con el fin de
extraer las máximas informaciones que puedan ser tenidas en cuenta
por el sistema de síntesis de concatenación. Entre ellas, las
informaciones relativas a la anotación parecen particularmente
pertinentes, puesto que permiten controlar mejor los modos de
elocución del locutor. Así, un algoritmo de anotación prosódica
puede estar integrado en el procedimiento, o se puede prever una
fase de anotación manual del cuerpo con el fin de tener en cuenta
los marcadores melódicos que se consideren pertinentes.
Resulta posible entonces estimar la función de
conversión buscada aplicando a los dos registros paralelos
disponibles, a saber el mensaje vocal grabado y el registro
sintético de referencia, una operación de aprendizaje que va a ser
descrita ahora en detalle.
Según puede apreciarse en la figura 1, el
tratamiento aplicado a los dos registros hace que aparezcan
diferentes operaciones necesarias para obtener la función de
conversión deseada. Estas operaciones son, por orden:
- análisis acústico 40,
- alineamiento 50 de los cuerpos,
- clasificación acústica 60,
- estimación 70 de la función de conversión.
El análisis acústico se efectúa, por ejemplo,
por medio del modelo HNM ("Harmonic plus Noise Model"), que
supone que un segmento (denominado también trama) expresado por la
señal de palabra s(n), puede ser descompuesto en una
parte armónica h(n) que representa la componente
cuasi-periódica de la señal constituida por una
suma de L sinusoides armónicas de amplitudes A_{I} y
de fases \varphi_{I}, y en una parte ruidosa
b(n) que representa el ruido de fricción y la
variación de la excitación de la glotis de un período al otro,
modelizado por un filtro LPC ("Linear Prediction Coefficients")
excitado por un ruido blanco gaussiano (Y. Stylianou, "Harmonic
plus Noise Model for speech, combined with statistical methods, for
speech and speaker modification", PhD Thesis, Escuela Nacional
Superior de Telecomunicaciones, Francia, 1996).
\vskip1.000000\baselineskip
siendo:
Para una trama no expresada, la parte armónica
está ausente y la señal se modeliza simplemente mediante un ruido
blanco conformado mediante filtrado auto-regresivo
(AR).
La primera etapa del análisis HNM consiste en
tomar una decisión en cuanto al carácter expresado o no de la trama
analizada. Este tratamiento se realiza en modo asíncrono con la
ayuda de un paso de análisis fijado en 10 ms.
Para una trama expresada, se determina en primer
lugar la frecuencia fundamental F_{0} y la frecuencia
máxima de expresión, es decir, la frecuencia por encima de la cual
se considera que la señal está constituida únicamente por ruido. A
continuación, un análisis sincronizado sobre F_{0} permite
estimar los parámetros de la parte armónica (las amplitudes y las
fases), así como los parámetros del ruido. Los parámetros de los
armónicos se calculan por minimización de un criterio de los menores
cuadrados ponderados (véase el artículo de Y. Stylianou citado más
arriba):
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
en la que s(n) es la
señal original, h(n) es la parte armónica definida por
la relación (5) que se expone más adelante, w(n) es
la ventana de análisis, y T^{0}_{i} es el período
fundamental de la trama actual. Conviene apreciar que la trama de
análisis tiene una duración igual a dos veces el período
fundamental (véase el artículo de Y. Stylianou citado más arriba).
Este análisis armónico es importante en la medida en que aporta una
información fiable sobre el valor del espectro a las frecuencias
armónicas. Una información de ese tipo resulta necesaria para tener
una estimación robusta de la envolvente
espectral.
Las partes del espectro que corresponden a ruido
(que se trata de la componente de ruido de una trama expresada o de
una trama no expresada), son modelizadas con la ayuda de una simple
predicción lineal. La respuesta en frecuencia del modelo AR así
estimado se muestrea a continuación con paso constante, lo que
proporciona una estimación de la envolvente espectral sobre las
zonas ruidosas.
En el modo de realización propuesto, dado este
muestreo de la envolvente espectral, se deducen los parámetros que
modelizan esta envolvente espectral utilizando el procedimiento del
cepstro discreto regularizado (O. Cappe, E. Moulines,
Regularization techniques for discrete cepstrum estimation, IEEE
Signal Processing Letters, vol. 3 (4), pp. 100-102,
abril de 1996). El orden de la modelización cepstral ha sido fijado
en 20. Además, para reproducir lo más fielmente posible las
propiedades del oído humano, se efectúa una transformación en
escala de Bark. Estos coeficientes son así para aproximar los MFCC
("Mel Frequency Cepstral Coefficients") encontrados
convencionalmente en el reconocimiento de la palabra. De ese modo,
para cada trama de palabra, se calcula un vector acústico
constituido por parámetros cepstrales.
Conviene apreciar igualmente que se pueden
utilizar otros tipos de parámetros que modelizan la envolvente
espectral: por ejemplo, los LSF (Line Spectral Frequency) o incluso
los LAR (Log Area Ratio).
Tras el análisis acústico, conviene hacer
corresponder los diferentes vectores acústicos de los dos registros.
Para ello, se utiliza un algoritmo clásico, denominado de
alineamiento dinámico (en inglés DTW en correspondencia con
"Dynamic Time Warping").
Ventajosamente, si se encuentran disponibles una
anotación y una segmentación de los dos registros (por ejemplo, una
repartición en fonemas), y si estas informaciones son concordantes
entre los dos registros, entonces la vía de alineamiento puede ser
la obligada con el fin de respetar las marcas de segmentación.
En el modo de realización propuesto, se realiza
una clasificación conjunta de los vectores acústicos de los dos
registros alineados. Sean x_{1:N} = [x_{1}, x_{2}, ...,
x_{N}] e y_{1:N} = [y_{1}, y_{2}, ..., y_{N}]
las secuencias de vectores acústicos alineados. Sean x e
y las variables aleatorias relativas a los vectores
acústicos de cada uno de los registros, y z = (x, y) el par
asociado. En la clasificación acústica aquí descrita, la variable
aleatoria z está modelizada por medio de una mezcla de leyes
gaussianas (en inglés, GMM en correspondencia con "Gaussian
Mixture Model") de orden Q. Su densidad de probabilidad se
escribe entonces de la forma siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde N(z; \mu;
\sum) es la densidad de probabilidad de la ley normal de media
\mu y de matriz de covalencia \sum, y donde los
\alpha_{i} son coeficientes de la mezcla
(\alpha_{i} es la probabilidad a priori de que
z sea generada por la i^{ésima}
gaussiana).
La estimación de los parámetros del modelo se
efectúa aplicando un procedimiento iterativo clásico, a saber el
algoritmo EM (Expectation - Maximization) (A.P. Dempster, N.M.
Laird, D.R. Rubin, Maximum likelihood from incomplete data via the
EM algorithm, Journal of the Royal Statistical Society B, vol. 39,
pp. 1-38, 1977). La determinación de los parámetros
iniciales del modelo GMM se obtiene con la ayuda de una técnica
estándar de cuantificación vectorial.
Una vez aprendido el modelo GMM, puede ser
utilizado para determinar, por regresión, una función de conversión
entre el locutor y el locutor de referencia. En caso de una
conversión de un locutor x a un locutor y, ésta se
escribe de la siguiente forma:
donde
es la probabilidad a
posteriori de que x sea generada por la gaussiana de
índice i,
con:
La figura 2 ilustra un procedimiento de
estimación de una función de conversión de voz entre un locutor
fuente y un locutor objetivo, cuyas voces están respectivamente
definidas a partir de mensajes vocales grabados por cada uno de los
locutores, siendo estos registros no paralelos.
En una primera etapa, los registros sintéticos
de referencia se generan a partir de los citados mensajes vocales
grabados según un procedimiento análogo al que se acaba de describir
en relación con la figura 1.
Resultan entonces necesarias dos etapas de
conversión para convertir la voz del locutor fuente en la del
locutor objetivo. En un primer momento, hay que convertir los
parámetros del locutor fuente en los del locutor de referencia, y
después transformar estos últimos de manera que reproduzcan al
locutor objetivo deseado. De ese modo, puede ser estimada una
función que permite la conversión fuente-objetivo
buscada componiendo dos funciones de transformación dadas por
(4):
Un sistema de conversión de voz que integra el
procedimiento de estimación descrito, ha sido representado en la
figura 3. En el modo de realización propuesto, la etapa de análisis
reposa siempre en una modelización por HNM, pero esta vez se lleva
a cabo de manera pitch-síncrona, puesto que ello
permite modificaciones de pitch y de envolvente espectral de mejor
calidad (véase el artículo de Y. Stylianou citado con anterioridad).
Los parámetros espectrales extraídos son transformados a
continuación con la ayuda de un módulo 80 de conversión que realiza
la conversión determinada por la relación (6).
Estos parámetros modificados, así como las
informaciones residuales necesarias para la generación sonora
(frecuencia fundamental, fase de los armónicos, ganancia de la
parte ruidosa, frecuencia máxima de expresión), son transmitidos a
un módulo de síntesis mediante HNM. La componente armónica de la
señal definida por la ecuación (2) y presente para las tramas de
señal expresadas, se genera mediante suma de sinusoides previamente
tabuladas cuyas amplitudes se calculan a partir de los parámetros
espectrales convertidos. La parte estocástica se determina mediante
Transformada de Fourier Inversa (IFFT) sobre el espectro calculado a
partir de los parámetros espectrales.
Como variante, el modelo HNM puede ser
reemplazado por otros modelos conocidos por el experto en la
materia, tales como los modelos por predicción lineal (LPC en
correspondencia con "Linear Predictive Coding"), los modelos
sinusoidales o MBE ("Multi-Band Excited"). El
procedimiento de conversión por GMM puede ser reemplazado por
técnicas convencionales de cuantificación vectorial (VQ en
correspondencia con "Vector Quantization") o de cuantificación
vectorial indistinta (Fuzzy VQ).
La descripción que se acaba de proporcionar del
procedimiento de estimación conforme a la invención, no hace
referencia más que a la transformación sola de parámetros relativos
al timbre. Pero debe entenderse que el mismo procedimiento puede
ser aplicado igualmente a la transformación de otros tipos de
parámetros como la frecuencia fundamental ("pitch"), o incluso
de parámetros asociados a la calidad vocal.
Según una implementación preferida de la
invención, las etapas del procedimiento se determinan mediante las
instrucciones de un programa de estimación de una función de
conversión de voz incorporada en un servidor, y el procedimiento
según la invención se utiliza cuando este programa se carga en un
ordenador cuyo funcionamiento está entonces comandado por la
ejecución del programa.
En consecuencia, la invención se aplica
igualmente a un programa de ordenador, en particular a un programa
de ordenador sobre, o en, un soporte de informaciones, adaptado para
poner en práctica la invención. Este programa puede utilizar
cualquier lenguaje de programación, y estar en forma de código
fuente, código objeto, o código intermedio entre código fuente y
código objeto tal como en una forma parcialmente compilada, o en
cualquier otra forma deseada para implementar el procedimiento según
la invención.
El soporte de las informaciones puede ser
cualquier entidad o dispositivo capaz de almacenar el programa. Por
ejemplo, el soporte puede incorporar un medio de almacenamiento tal
como una memoria ROM, por ejemplo un CD ROM o una memoria ROM en
circuito microelectrónico, o incluso un medio de registro magnético,
por ejemplo un disquete (disco flotante) o un disco duro.
Por otra parte, el soporte de las informaciones
puede ser un soporte transmisible, tal como una señal eléctrica u
óptica, que puede ser enrutada por medio de un cable eléctrico u
óptico, por radio o por otros medios. El programa según la
invención puede ser, en particular, tele-cargado en
una red de tipo Internet.
Alternativamente, el soporte de las
informaciones puede ser un circuito integrado en el que esté
incorporado el programa, estando el circuito adaptado para ejecutar
el, o para ser utilizado en la ejecución del, procedimiento en
cuestión.
Claims (8)
1. Procedimiento de estimación de una función
de conversión de voz entre, por una parte, la voz de un locutor
definida a partir de un mensaje vocal grabado por el citado locutor,
y por otra parte, la voz de un locutor de referencia definida por
una base de datos de síntesis vocal, que se caracteriza
porque el citado procedimiento comprende las etapas consistentes
en:
- generar, a partir de dicho mensaje vocal
grabado por el locutor y de la citada base de datos de síntesis
vocal, un registro sintético de dicho mensaje vocal, y
- estimar la citada función de conversión de voz
por medio de una operación de aprendizaje efectuada sobre el citado
mensaje vocal grabado y el citado registro sintético.
2. Procedimiento de estimación de una función
de conversión de voz entre, por una parte, la voz de un locutor
fuente definida a partir de un primer mensaje vocal grabado por el
citado locutor fuente, y por otra parte, la voz de un locutor
objetivo definida a partir de un segundo mensaje vocal grabado por
el citado locutor objetivo, que se caracteriza porque el
citado procedimiento comprende las etapas consistentes en:
- generar, a partir de dicho primer mensaje
vocal grabado por el locutor fuente y de una base de datos de
síntesis vocal, un registro sintético de dicho primer mensaje
vocal;
- estimar una primera función de conversión de
voz entre la voz del locutor fuente y la voz de un locutor de
referencia definida por la citada base de datos de síntesis vocal,
mediante una operación de aprendizaje realizada sobre el citado
primer mensaje vocal grabado por el locutor fuente y el citado
registro sintético del primer mensaje vocal;
- generar, a partir de dicho segundo mensaje
vocal grabado por el locutor objetivo y de la citada base de datos
de síntesis vocal, un registro sintético de dicho segundo mensaje
vocal;
- estimar una segunda función de conversión de
voz entre la voz de dicho locutor de referencia y la voz del
locutor objetivo, por medio de una operación de aprendizaje
efectuada sobre el citado registro sintético del segundo mensaje
vocal y el citado segundo mensaje vocal grabado por el locutor
objetivo; y
- estimar la citada función de conversión de voz
por composición de la citada primera y de la citada segunda
funciones de conversión de voz.
3. Procedimiento según una de las
reivindicaciones 1 ó 2, que se caracteriza porque la citada
base de datos de síntesis vocal es una base de datos de un sistema
de síntesis de la palabra por concatenación.
4. Procedimiento según una de las
reivindicaciones 1 ó 2, que se caracteriza porque la citada
base de datos de síntesis vocal es una base de datos de un sistema
de síntesis de la palabra por cuerpo.
5. Aplicación del procedimiento según la
reivindicación 1 a la conversión de mensajes vocales grabados por
un locutor fuente en mensajes correspondientes reproducidos por el
citado locutor de referencia.
6. Aplicación del procedimiento según la
reivindicación 1 a la conversión de mensajes sintéticos grabados
por un locutor de referencia en mensajes correspondientes
reproducidos por un locutor objetivo.
7. Sistema de conversión de voz, que se
caracteriza porque comprende un módulo de conversión de voz
que comprende medios para la puesta en práctica del procedimiento
según una cualquiera de las reivindicaciones 1 a 4.
8. Programa de ordenador sobre un soporte de
informaciones, incluyendo el citado programa instrucciones de
programa adaptadas para la puesta en práctica de un procedimiento
según una cualquiera de las reivindicaciones 1 a 4, cuando el
programa se carga y se ejecuta en un sistema informático.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0550278 | 2005-01-31 | ||
FR0550278 | 2005-01-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2322909T3 true ES2322909T3 (es) | 2009-07-01 |
Family
ID=34954674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05850632T Active ES2322909T3 (es) | 2005-01-31 | 2005-12-28 | Procedimiento de estimacion de una funcion de conversion de voz. |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1846918B1 (es) |
AT (1) | ATE424022T1 (es) |
DE (1) | DE602005012998D1 (es) |
ES (1) | ES2322909T3 (es) |
WO (1) | WO2006082287A1 (es) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2017832A4 (en) * | 2005-12-02 | 2009-10-21 | Asahi Chemical Ind | VOICE QUALITY CONVERSION SYSTEM |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
CN108780643B (zh) * | 2016-11-21 | 2023-08-25 | 微软技术许可有限责任公司 | 自动配音方法和装置 |
CN111179902B (zh) * | 2020-01-06 | 2022-10-28 | 厦门快商通科技股份有限公司 | 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
-
2005
- 2005-12-28 WO PCT/FR2005/003308 patent/WO2006082287A1/fr active Application Filing
- 2005-12-28 DE DE602005012998T patent/DE602005012998D1/de active Active
- 2005-12-28 ES ES05850632T patent/ES2322909T3/es active Active
- 2005-12-28 AT AT05850632T patent/ATE424022T1/de not_active IP Right Cessation
- 2005-12-28 EP EP05850632A patent/EP1846918B1/fr not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
ATE424022T1 (de) | 2009-03-15 |
EP1846918A1 (fr) | 2007-10-24 |
DE602005012998D1 (de) | 2009-04-09 |
WO2006082287A1 (fr) | 2006-08-10 |
EP1846918B1 (fr) | 2009-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arslan | Speaker transformation algorithm using segmental codebooks (STASC) | |
Ye et al. | Quality-enhanced voice morphing using maximum likelihood transformations | |
US7996222B2 (en) | Prosody conversion | |
US20120095767A1 (en) | Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system | |
Plumpe et al. | HMM-based smoothing for concatenative speech synthesis. | |
ES2322909T3 (es) | Procedimiento de estimacion de una funcion de conversion de voz. | |
Krstulovic et al. | An HMM-based speech synthesis system applied to German and its adaptation to a limited set of expressive football announcements. | |
Nose et al. | Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency | |
Přibilová et al. | Non-linear frequency scale mapping for voice conversion in text-to-speech system with cepstral description | |
Gerosa et al. | Towards age-independent acoustic modeling | |
Lee et al. | A segmental speech coder based on a concatenative TTS | |
Kumar et al. | Using phone and diphone based acoustic models for voice conversion: a step towards creating voice fonts | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
Al-Radhi et al. | Continuous vocoder applied in deep neural network based voice conversion | |
Nurminen et al. | A parametric approach for voice conversion | |
Lachhab et al. | A preliminary study on improving the recognition of esophageal speech using a hybrid system based on statistical voice conversion | |
Sharma et al. | Polyglot speech synthesis: a review | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
Verma et al. | Voice fonts for individuality representation and transformation | |
Salor et al. | Dynamic programming approach to voice transformation | |
i Barrobes | Voice Conversion applied to Text-to-Speech systems | |
Huckvale | 14 An Introduction to Phonetic Technology | |
Lehana et al. | Transformation of short-term spectral envelope of speech signal using multivariate polynomial modeling | |
Baudoin et al. | Advances in very low bit rate speech coding using recognition and synthesis techniques | |
Ho et al. | Voice conversion between UK and US accented English. |