ES2964322T3 - Sistema y método de conversión de voz multilingüe - Google Patents

Sistema y método de conversión de voz multilingüe Download PDF

Info

Publication number
ES2964322T3
ES2964322T3 ES20217111T ES20217111T ES2964322T3 ES 2964322 T3 ES2964322 T3 ES 2964322T3 ES 20217111 T ES20217111 T ES 20217111T ES 20217111 T ES20217111 T ES 20217111T ES 2964322 T3 ES2964322 T3 ES 2964322T3
Authority
ES
Spain
Prior art keywords
voice
speaker
features
candidate
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20217111T
Other languages
English (en)
Inventor
Cevat Yerli
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TMRW Foundation IP SARL
Original Assignee
TMRW Foundation IP SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TMRW Foundation IP SARL filed Critical TMRW Foundation IP SARL
Application granted granted Critical
Publication of ES2964322T3 publication Critical patent/ES2964322T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Abstract

Un sistema y método de conversión de voz entre idiomas comprende un extractor de características de voz configurado para recibir un primer segmento de audio de voz en un primer idioma y un segundo segmento de audio de voz en un segundo idioma, y extraer, respectivamente, características de audio que comprenden la primera voz, el hablante. características acústicas dependientes y características lingüísticas independientes del hablante de la segunda voz. Uno o más generadores están configurados para recibir características extraídas y producir a partir de ahí una tercera voz candidata que mantiene las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz, en donde la tercera voz candidata habla el segundo idioma. . Uno o más discriminadores están configurados para comparar el tercer candidato de voz con los datos reales del terreno y proporcionar los resultados de la comparación al generador para refinar el tercer candidato de voz. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Sistema y método de conversión de voz multilingüe
Referencias cruzadas a solicitudes relacionadas.
La presente solicitud reivindica la prioridad de la solicitud provisional de patente US n.° 62/955227, presentada el 30 de diciembre de 2019.
Antecedentes
Normalmente, las producciones multimedia que incluyen voz, p. ej., aplicaciones, películas, audiolibros y juegos, se crean con actores reales que interpretan las actuaciones guionizadas. Con frecuencia, las voces se traducen con ayuda de "actores de doblaje" a diferentes idiomas. Muchas audiencias necesitan recurrir a actores de doblaje alternativos para diferentes idiomas, ya que los actores originales normalmente no hablan todos los idiomas en los que se ofrecen estas producciones.
La conversión de voz (CV) convierte la voz de un hablante para que suene como la de otro hablante. Más específicamente, la mayoría de técnicas de CV se centran en conseguir que un hablante original suene como un hablante objetivo, lo que implica llevar a cabo un mapeado de características espectrales de ambos hablantes, el original y el idioma objetivo. La mayoría de las técnicas de CV actuales está diseñada para la CV monolingüe, es decir, el idioma de los hablantes fuente y objetivo es el mismo. La CV multilingüe puede resultar más dificultosa que la CV monolingüe debido a que no siempre se encuentran disponibles en la práctica datos paralelos (es decir, datos que comprendan el contenido hablando en ambos idiomas). Por lo tanto, las técnicas de CV multilingüe que pueden funcionar con datos no paralelos podrían utilizarse para una CV multilingüe que podría utilizarse en doblajes de producciones multimedia.
Según la solicitud de patente US n.° 2018/342256A1, es conocido un método para la conversión de voz que utiliza una red adversarial generativa. Según la solicitud de patente n.° US2015/127349A1, es conocido un método para la conversión multilingüe que se basa en un modelo de lenguaje hablado basado en un modelo de Markov oculto.
Resumen
Este resumen se proporciona para presentar conceptos seleccionados en forma simplificada que se describen en mayor detalle posteriormente, en la descripción detallada. Este resumen no pretende identificar características clave del objeto reivindicado, ni pretende ser utilizado como ayuda para determinar el alcance del objeto reivindicado.
La presente divulgación se refiere de manera general a la conversión de voz, y más específicamente se refiere a un método y a un sistema que permiten la conversión de voz multilingüe con datos no paralelos. La presente invención proporciona un método de conversión de voz multilingüe según la reivindicación 1, un sistema de aprendizaje automático según la reivindicación 10 y un programa informático según la reivindicación 13. En las reivindicaciones dependientes se divulgan realizaciones adicionales.
De acuerdo con realizaciones de la presente divulgación, un método de conversión de voz multilingüe llevado a cabo por un sistema de aprendizaje automático, esto es un sistema de “machine leaming”, (p. ej., un sistema de red adversarial generativa (GAN, por sus siglas en inglés, generative adversarial network)) comprende recibir, por parte de un extractor de características de voz, un primer segmento de audio de voz en un primer idioma y un segundo segmento de audio de voz en un segundo idioma. El método extrae, a través del extractor de características de voz, del primer segmento de audio de voz y del segundo segmento de audio de voz, respectivamente, características de audio que comprenden características acústicas dependientes del hablante de primera voz y características lingüísticas independientes del hablante de segunda voz. El método genera mediante uno o más generadores a partir del conjunto de datos de entrenamiento, un candidato de tercera voz que presenta las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz, en donde el candidato de tercera voz habla el segundo idioma. El método transcurre por la comparación por uno o más discriminadores del candidato de tercera voz con los datos de realidad de campo (“ground truth data”) que comprenden las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz. El sistema proporciona resultados de la etapa de comparación de vuelta al generador para el refinado del candidato de tercera voz.
El resumen anteriormente proporcionado no incluye una lista exhaustiva de todos los aspectos de la presente divulgación. Se contempla que la divulgación incluya todos los sistemas y métodos que pueden ponerse en práctica a partir de todas las combinaciones adecuadas de los diversos aspectos compendiados anteriormente, así como los dados a conocer en el apartado de descripción detallada, a continuación, comprendidos dentro del alcance según las reivindicaciones adjuntas. Dichas combinaciones poseen ventajas particulares no específicamente mencionadas en el resumen anteriormente proporcionado. Resultarán evidentes otras características y ventajas a partir de los dibujos adjuntos y a partir de la descripción detallada que sigue a continuación.
Descripción de los dibujos
Los aspectos anteriormente proporcionados y muchas otras ventajas asociadas se apreciarán más fácilmente a medida que se entiendan mejor, en referencia a la descripción detallada, posteriormente, considerada junto con los dibujos adjuntos, en los que:
la FIG. 1A ilustra una representación esquemática de un sistema que permite la conversión de voz multilingüe con datos no paralelos, según una realización.
La FIG. 1B ilustra otra realización del sistema que permite la conversión de voz multilingüe con datos no paralelos.
La FIG. 2 ilustra una representación esquemática de un sistema que permite la conversión de voz multilingüe con datos no paralelos utilizando un algoritmo de GAN de Wasserstein autocodificante variacional (VAW-GAN, por sus siglas en inglés, “variational autoencoding wasserstein GAN”), según una realización.
La FIG. 3A ilustra una representación esquemática de una función de mapeado directo que utiliza un algoritmo de GAN de ciclo consistente ("CycleGAN"), según una realización.
La FIG. 3B ilustra una representación esquemática de una función de mapeado inverso que utiliza un algoritmo de GAN de ciclo consistente ("CycleGAN"), según una realización.
La FIG. 4 ilustra una representación esquemática de una plataforma de transmisión de películas en línea de muestra que implementa un sistema de conversión de voz multilingüe entrenado, según una realización.
La FIG. 5 ilustra una representación esquemática de un método que permite la conversión de voz multilingüe con datos no paralelos, según una realización.
La FIG. 6 ilustra una representación esquemática de un método que describe una función de mapeado directo que permite la conversión de voz multilingüe con datos no paralelos mediante la utilización de un algoritmo de GAN de ciclo consistente (CycleGAN), según una realización.
La FIG. 7 ilustra una representación esquemática de un método que describe una función de mapeado inverso que permite una conversión de voz multilingüe con datos no paralelos mediante la utilización de un algoritmo de GAN de ciclo consistente ("Cycle GAN"), según una realización.
Descripción detallada
En la descripción a continuación se hace referencia a dibujos que muestran a título ilustrativo diversas realizaciones. Además, se describen posteriormente diversas realizaciones en referencia a varios ejemplos. Debe entenderse que las realizaciones pueden incluir cambios en el diseño y estructura sin apartarse del alcance del objeto reivindicado.
En algunos aspectos de la presente divulgación, un sistema de conversión de voz multilingüe con datos no paralelos permite una conversión en tiempo real o prácticamente en tiempo real y el doblaje de lenguaje hablado mediante la combinación de características de sonido de una primera voz en un primer idioma y de una segunda voz en un segundo idioma para generar candidatos de tercera voz en el segundo idioma. Los candidatos de tercera voz generados comprenden características acústicas dependientes del hablante de primera voz y características lingüísticas independientes del hablante de segunda voz, de manera que los candidatos de tercera voz suenan como si la primera voz estuviese hablando en el segundo idioma, manteniendo simultáneamente las características lingüísticas típicas del segundo idioma. Con estos objetivos, el sistema comprende un sistema de aprendizaje automático (p. ej., un sistema de red neuronal profunda (DNN, por sus siglas en inglés, “deep neural network”), o un sistema basado en una red neuronal competitiva o adversarial, tal como un sistema de red adversarial generativa (GAN, por sus siglas en inglés, “generative adversarial network”)) que es entrenado con una pluralidad de muestras de voz de cada uno de los hablantes antes de estar preparado para generar un candidato de tercera voz para el uso en la conversión de habla multilingüe en tiempo real o prácticamente en tiempo real. El sistema de conversión de voz multilingüe está configurado para extraer características de sonido de cada una de las voces y aplicarlas durante el entrenamiento del sistema de aprendizaje automático para la generación de candidatos de tercera voz.
En realizaciones que utilizan sistemas de GAN, entre algunas ventajas de dichos sistemas se incluyen que no se basan en datos bilingües y su alineación, ni en ningún proceso externo, tal como el reconocimiento automático del habla (ASR, por sus siglas en inglés, “automatic speech recognition”). En dichas realizaciones, el sistema de GAN también puede entrenarse con una cantidad limitada de datos de entrenamiento no paralelos de dos idiomas cualesquiera. En algunas realizaciones, la función objetiva optimizada por los GAN da como resultado la generación de datos artificiales que son indistinguibles de los datos reales o de realidad de campo. Los datos paralelos son datos que comprenden expresiones que presentan el mismo contenido lingüístico en ambos idiomas, que habitualmente resultan difíciles de recoger, mientras que los datos no paralelos son datos que comprenden expresiones que contienen un contenido lingüístico diferente en ambos idiomas.
La FIG. 1A ilustra una representación esquemática de un sistema de conversión de voz multilingüe 100a con datos no paralelos, según una realización.
La FIG. 1A ilustra una primera fuente de voz 102 que produce un primer segmento de audio de voz 104 en un primer idioma y una segunda fuente de voz 106 que produce un segundo segmento de audio de voz 108 en un segundo idioma. El primer segmento de audio de voz 104 y el segundo segmento de audio de voz 108 se envían mediante una red 110, tal como Internet, a un servidor 112 que almacena un sistema de aprendizaje automático 114 en la memoria 116. El servidor 112 comprende, además, por lo menos un procesador 118 configurado para procesar los datos comprendidos en el primer y segundo segmentos de audio 104-106 con instrucciones comprendidas en el sistema de aprendizaje automático 114. El procesador o procesadores 118 ejecutan código informático comprendido en el sistema de aprendizaje automático 114 para generar por lo menos un candidato de tercera voz 120 en el segundo idioma. Aunque para facilitar la ilustración en la presente memoria se describen ejemplos en referencia a un único servidor, debe entenderse que cualquier funcionalidad descrita en la presente memoria como proporcionada por un servidor puede ser proporcionada por un sistema informático de servidor que comprenda uno o más ordenadores servidores.
En algunas realizaciones, el primer y segundo segmentos de audio de voz 104 y 108 se transfieren al sistema de aprendizaje automático 114 mediante una interfaz de usuario a la que pueden acceder los usuarios mediante dispositivos de usuario electrónicos (p. ej., un ordenador, tal como un PC o teléfono móvil) conectados a una red. Los dispositivos de usuario pueden presentar un micrófono integrado o auxiliar a través del que los usuarios pueden grabar los segmentos de voz. En otras realizaciones, los segmentos de voz pueden cargarse en forma de archivos digitales pregrabados. En otras realizaciones, se producen sintéticamente uno o más de los segmentos de audio y, de esta manera, no se necesita un usuario humano para producir las señales de audio grabadas en los segmentos de audio.
En algunas realizaciones, el sistema de conversión de voz multilingüe 100a comprende, además, una base de datos de voces 122 conectada al sistema de aprendizaje automático 114. La base de datos de voces 122 está configurada para almacenar uno o más candidatos seleccionados de tercera voz y comprende una pluralidad de terceras voces entrenadas. El sistema 100a puede entrenar, de esta manera, el sistema de conversión multilingüe 114 con el primer y segundo segmentos de audio de voz y generar una cantidad adecuada de segmentos de audio de tercera voz en el segundo idioma 120, lo que puede permitir la selección de una tercera voz que está almacenada en la base de datos de voces 122 para el uso en el futuro durante la conversión y doblaje de voz. Dichas terceras voces seleccionadas pueden utilizarse para una pluralidad de aplicaciones, tales como para la producción multimedia que podría requerir la conversión y doblaje de voz, incluyendo películas, audiolibros, juegos y otras aplicaciones.
La FIG. 1B ilustra otra realización de un sistema de conversión multilingüe 100b con datos no paralelos. El sistema de conversión multilingüe 100b incluye datos adicionales sobre las características de audio de voz de cada uno de los segmentos de audio de voz 104 y 108. De esta manera, en las realizaciones de la FIG. 1B, el sistema de aprendizaje automático 114 está configurado para ser entrenado para la conversión de voz multilingüe con datos que comprenden características acústicas dependientes del hablante 124 extraídas del primer segmento de audio 104 y características lingüísticas independientes del hablante 126 extraídas del segundo segmento de audio de voz 108. La conversión multilingüe resulta en un candidato de tercera voz 120 en el segundo idioma que comprende características acústicas dependientes del hablante y características lingüísticas independientes del hablante.
Las características acústicas dependientes del hablante 124 extraídas se refieren a características de voz que caracterizan el sonido real de la voz de un hablante y permiten a los oyentes distinguir entre hablantes que dicen las mismas palabras, p. ej., en el mismo tono, acento, amplitud y cadencia. En algunas realizaciones, las características acústicas dependientes del hablante 124 comprenden características del segmento que son de corto plazo (p. ej., características que pueden determinarse a partir de segmentos de audio cortos) relacionadas con características de tracto vocal, tales como el timbre, la resonancia, envolvente espectral e intensidad media de tono. Las características lingüísticas independientes del hablante 126 podrían comprender características suprasegmentarias relacionadas con propiedades acústicas del dominio en más de un segmento y se relacionan con características tales como el contorno del tono, la duración de las palabras, el ritmo, la articulación, las sílabas, los fonemas, los contornos de entonación o los patrones de estrés. Dichas características suprasegmentarias podrían presentar una elevada correlación con características lingüísticas típicas de un lenguaje o dialecto específico, tales como características que definen el acento del lenguaje o dialecto.
A título de ejemplo, el timbre puede considerarse una característica acústica dependiente del hablante 124 que es una propiedad fisiológica que resulta del conjunto de componentes de frecuencia realizados por un hablante para emitir un sonido particular. De esta manera, por ejemplo, el candidato de tercera voz 120 puede comprender, entre otros, el timbre de la fuente de la primera voz 102 y el acento de la fuente de la segunda voz 106, manteniendo simultáneamente el mismo contenido lingüístico del primer segmento de audio de voz en el primer idioma 104 y estando sometido a una conversión de idioma del primer al segundo idioma.
En algunas realizaciones, el sistema de aprendizaje automático 114 es un sistema basado en redes neuronales, tal como un sistema de red neuronal profunda (DNN), o un sistema basado en una red neuronal competitiva o adversarial, tal como un sistema de red adversarial generativa (GAN) que comprende, por ejemplo, un sistema de GAN de Wasserstein autocodificante variacional (VAW-GAN) o un sistema de GAN de ciclo consistente (CycleGAN). El sistema de aprendizaje automático 114 puede utilizar los sistemas de red anteriormente mencionados u otros basados en aprendizaje automático similar para el entrenamiento basado en conjuntos de datos de la primera y segunda voz para generar uno o más candidatos de tercera voz como parte del resultado aprendido.
La FIG. 2 ilustra otra realización de un sistema de conversión multilingüe 200 que utiliza un sistema de conversión multilingüe de GAN de Wasserstein autocodificante variacional (VAW-GAN) con datos no paralelos.
El sistema 200 procesa el segmento de audio 104 de la primera voz en el primer idioma y el segmento de audio 108 de la segunda voz en el segundo idioma, los cuales se envían al sistema de aprendizaje automático 114.
El sistema de aprendizaje automático 114 puede configurarse para el entrenamiento con expresiones producidas a partir tanto de la primera como la segunda fuente de voz, de manera que puede generarse un segmento de voz 120 de tercera voz en el segundo idioma. Tal como se da a conocer, el algoritmo de entrenamiento utilizado en el sistema de aprendizaje automático 114 de la FIG. 2 puede ser, por ejemplo, un algoritmo VAW-GAN, que no requiera corpus paralelos alineados durante el entrenamiento.
En el ejemplo mostrado en la FIG. 2, el sistema de aprendizaje automático 114 comprende un extractor de características de voz 202 configurado para realizar un mapeado 204 del perfil de voz con el fin de producir un mapa de los segmentos de audio 104 y 108 tanto de la primera como de la segunda voz y extraer los componentes de frecuencia asociados a cada sonido realizado por cada voz. La función del extractor de características de voz 202 es similar a la de un codificador o reconocedor de teléfono. El extractor de características de voz 202 puede extraer, de esta manera, relaciones entre la amplitud de las frecuencias en los segmentos de audio 104 y 108 de la primera y segunda voz para aprender las características de voz pertenecientes a cada una y permitir un mapeado exacto de las voces. Dicha extracción puede implicar la extracción, en particular, características espectrales, tono (frecuencia fundamental (f0)), energía, parámetros relacionados con la aperiodicidad, y similares. Por ejemplo, pueden mapearse las voces en un espacio vectorial una respecto a la otra basándose en los componentes de frecuencia extraídos, lo que permite la extrapolación de componentes de frecuencia sintéticos para sonidos no proporcionados en los segmentos de audio de voz. En la publicación de patente US n.° 2018/0342256 se da a conocer información adicional sobre el mapeado de voces en un espacio vectorial.
El mapeado de una representación de los segmentos de audio 104 y 108 de la primera y segunda voz se lleva a cabo para separar las características acústicas dependientes del hablante 124 respecto de las características lingüísticas independientes del hablante 126 de cada uno de los segmentos de audio 108 y 104 de la primera y segunda voz. El extractor de características de voz 202 extrae de esta manera dichas características de voz a partir de los componentes de frecuencia para el entrenamiento del sistema de aprendizaje automático 114 de una manera que permite generar un candidato 120 de tercera voz que comprende las características acústicas dependientes del hablante 124 de la primera voz y las características lingüísticas independientes del hablante 126 de la segunda voz.
En algunas realizaciones, el sistema de aprendizaje automático 114 filtra el primer segmento de audio de voz en el primer idioma 104 y el segundo segmento de audio de voz en el segundo idioma 108 en segmentos de audio analíticos utilizando, por ejemplo, un filtro receptor temporal. En dichas realizaciones, el extractor 202 de características de voz extrae los componentes de frecuencia a partir de los segmentos de audio analíticos para el posterior mapeado de una representación de cada voz en un espacio vectorial.
El sistema de aprendizaje automático 114 comprende, además, por lo menos un generador 206 y por lo menos un<discriminador 208, que son dos redes neuronales que se entrenan conjuntamente en un sistema de>GAn.<El generador>206 estima la función de mapeado entre las características acústicas dependientes del hablante 124 de la primera voz y las características lingüísticas independientes del hablante 126 de la segunda voz, comprendidas en el primer y segundo segmentos de audio 104 y 108, respectivamente, y utiliza los datos para generar un candidato 120 de tercera voz que se envía al discriminador 208. El generador 206 actúa como un descodificador o sintetizador. El discriminador 208 actúa como un clasificador binario que acepta los datos de realidad de campo procedentes del extractor 202 de características de voz que comprende la primera voz generada originalmente, características acústicas dependientes del hablante 124 y características lingüísticas independientes del hablante 126 de la segunda voz, y compara los datos de realidad de campo con los candidatos 120 de tercera voz generados sintéticamente que ha producido el generador 206. El discriminador 208 determina, además, si existe por lo menos una inconsistencia entre el candidato 120 de tercera voz, las características acústicas dependientes del hablante 124 de la primera voz y las características lingüísticas independientes del hablante 126 de la segunda voz. En una realización, en el caso de que exista por lo menos una inconsistencia, el discriminador 208 producirá información de la inconsistencia relacionada con la pérdida de consistencia entre el candidato 120 de tercera voz, las características acústicas dependientes del hablante 124 de la primera voz y las características lingüísticas independientes del hablante 126 de la segunda voz. Finalmente, el discriminador 208 proporciona la información sobre la inconsistencia de vuelta al generador 206 para el refinado del candidato 120 de tercera voz.
En algunas realizaciones, el sistema de aprendizaje automático 114 está configurado para generar una pluralidad de candidatos 120 de tercera voz, cada uno de los cuales comprende un nivel diferente de características acústicas dependientes del hablante 124 y características lingüísticas independientes del hablante 126. Por ejemplo, cada uno de los candidatos 120 de tercera voz puede mostrar una variación en el timbre o presentar un acento más fuerte/más débil, lo que puede proporcionar a un ser humano o a un programa informático diversas opciones de selección de una tercera voz óptima. En realizaciones todavía adicionales, el sistema de aprendizaje automático 114 está adicionalmente configurado para seleccionar uno o más de la pluralidad de candidatos 120 de tercera voz para el uso durante el doblaje de la voz. En realizaciones todavía adicionales, el sistema de aprendizaje automático 114 está adicionalmente configurado para almacenar la tercera o terceras voces en una base de datos (p. ej., la base de datos de voces 122 de la FIG. 1A) conectada al sistema de aprendizaje automático 114, en donde la base de datos comprende una pluralidad de redes neuronales GAN entrenadas que corresponden a las terceras voces seleccionadas.
Las FIGS. 3A-3B ilustran realizaciones (no comprendidas en la invención reivindicada) de un sistema de conversión multilingüe 300 que utiliza un algoritmo de GAN de ciclo consistente (CycleGAN), que comprende simultáneamente funciones de mapeado directa e inversa que utiliza por lo menos funciones de pérdida adversarial y de pérdida de consistencia de ciclo. La pérdida adversarial se utiliza para conseguir que la distribución de los datos generados (p. ej., un candidato de tercera voz generado) y la de los datos objetivo reales (p. ej., las características acústicas dependientes del hablante real y las características lingüísticas independientes del hablante) sean indistinguibles. La pérdida de consistencia de ciclo, por otra parte, puede introducirse para restringir parte de la información de entrada de manera que esta sea invariante al ser procesada en toda la red. Lo anterior permite encontrar una pseudopareja óptima a partir de datos multilingüe no emparejados. Además, la pérdida adversarial contribuye a reducir el suavizado excesivo de la secuencia de características convertida. Es conocido que CycleGAN consigue resultados notables en varias tareas en las que no existen datos de entrenamiento emparejados. En algunas de dichas realizaciones, también puede considerarse una pérdida de mapeado de identidad durante el entrenamiento de CycleGAN, que proporciona ayuda para preservar las características relacionadas con la identidad de cada uno de los segmentos de audio de la primera y segunda voz que deben utilizarse en el tercer candidato convertido. Mediante la combinación de dichas pérdidas, puede aprenderse un modelo a partir de muestras de entrenamiento no emparejadas y los mapeados aprendidos son capaces de asociar una entrada a un resultado deseado.
La FIG. 3A ilustra una representación esquemática de una función de mapeado directo 302 utilizando un algoritmo de CycleGAN 300 que puede utilizarse en un sistema de aprendizaje automático 114 según una realización (no comprendida en la invención reivindicada). La función de mapeado directo 302 recibe, del extractor de características 202, un primer segmento de audio de voz en el primer idioma 102 y continúa mediante la extracción, por el extractor de características de voz 202, de las características acústicas dependientes del hablante 124 de la primera voz. Debido a que las características acústicas dependientes del hablante 124 de la primera voz se extraen directamente del primer segmento de audio de voz en el primer idioma 102, estas características también se denominan en el presente documento, características acústicas dependientes del hablante 124 de primera voz de realidad de campo, a fin de diferenciarlas de las características acústicas dependientes del hablante de primera voz creada que se generan posteriormente en el procedimiento.
La función de mapeado directo 302 continúa mediante el envío de las características acústicas dependientes del hablante 124 de la primera voz de realidad de campo a un generador 302 de candidatos de primera a tercera voces, que es parte de un primer generador 306. A continuación, la función de mapeado directo 302 recibe, por parte del generador 304 de candidatos de primera a tercera voces, características lingüísticas independientes del hablante 126 de la segunda voz de realidad de campo extraídas de la función de mapeado inverso 380A. Seguidamente, la función de mapeado directo 302 genera, mediante el generador 302 de candidatos de primera a tercera voces, un candidato 310 de tercera voz en el segundo idioma utilizando las características acústicas dependientes del hablante 124 de la primera voz de realidad de campo extraídas del primer segmento de audio de voz 104 en el primer idioma, y las características acústicas independientes del hablante 126 de la segunda voz de realidad de campo recibidas de la función de mapeado inverso 308A. De esta manera, las características acústicas dependientes del hablante de primera voz creada que están comprendidas en el candidato 310 de tercera voz junto con el contenido lingüístico comprendido en el primer segmento de audio de voz en el primer idioma 104 deberían ser indistinguibles de las características acústicas dependientes del hablante 124 de realidad de campo, aunque presenten la diferencia de que el candidato 310 de tercera voz comprende las características lingüísticas independientes del hablante 126 de la segunda voz típicas del segundo idioma y de que el mensaje resultante se haya traducido al segundo idioma.
La función de mapeado directo 302, mediante un primer discriminador 312, realiza una determinación 314 de si existe una inconsistencia entre las características acústicas dependientes del hablante de primera voz creada comprendidas en el candidato 310 de tercera voz y las características acústicas dependientes del hablante 124 de la primera voz de realidad de campo, en cuyo caso, el primer discriminador 312 produce información de inconsistencia 316 relacionada con la pérdida de consistencia. El primer discriminador 312 proporciona la información de inconsistencia 316 de vuelta al generador 304 de candidatos de primera a tercera voz para el refinado del candidato 310 de tercera voz.
El candidato 308 de tercera voz seguidamente se envía a un generador 318 de tercero a primer hablante, que es parte del primer generador 306, que utiliza el candidato 310 de tercera voz para generar características acústicas dependientes del hablante 320 de la primera voz convertida como parte de la etapa de entrenamiento que utiliza el procedimiento de pérdida adversarial, lo que contribuye a reducir el suavizado excesivo de las características convertidas. Las características acústicas dependientes del hablante 320 de la primera voz convertida seguidamente se envían de vuelta al generador 304 de candidatos de primera a tercera voz para continuar el procedimiento de entrenamiento con el fin de refinar adicionalmente el candidato 310 de tercera voz. En el caso de que el candidato 310 de tercera voz sea consistente con las características acústicas dependientes del hablante 124 de la primera voz, la función de mapeado directo 302 podrá finalizar 322.
La función de mapeado directo 302 se lleva a cabo en paralelo a la función de mapeado inverso 308, que está representada mediante líneas paralelas 324 ilustradas en la FIG. 3A.
La FIG. 3B ilustra una representación esquemática de una función de mapeado inverso 310 utilizando un algoritmo de GAN de ciclo consistente (CycleGAN), según una realización (no comprendida en la invención reivindicada).
La función de mapeado inverso 308 recibe, del extractor de características 202, un segmento de audio de segunda voz en el segundo idioma 108 y continúa mediante la extracción, por parte del extractor 202 de características de voz, las características lingüísticas independientes del hablante 126. Debido a que las características lingüísticas independientes del hablante 126 de la segunda voz se extraen directamente del segundo segmento de audio de voz en el segundo idioma 104, estas características también se denominan en el presente documento, características lingüísticas independientes del hablante 126 de segunda voz de realidad de campo, a fin de diferenciarlas de las características lingüísticas independientes del hablante de segunda voz generadas posteriormente en el procedimiento.
La función de mapeado inverso 308 continúa mediante el envío de las características lingüísticas independientes del hablante 126 de la segunda voz de realidad de campo a un generador 326 de candidatos de segunda a tercera voz que es parte de un segundo generador 328. A continuación, la función de mapeado inverso 308 recibe, por el generador 326 de candidatos de segunda a tercera voz, características acústicas dependientes del hablante 125 de la primera voz de realidad de campo procedentes de la función de mapeado directo 302B. A continuación, la función de mapeado inverso 308 genera, mediante el generador 326 de candidatos de segunda a tercera voz, un candidato 330 de tercera voz en el segundo idioma utilizando las características acústicas independientes del hablante 126 de la segunda voz de realidad de campo extraídas del segmento de audio 108 de la segunda voz en el segundo idioma y las características acústicas dependientes del hablante 124 de la primera voz de realidad de campo recibidas de la función de mapeado directo 302A. De esta manera, las características lingüísticas independientes del hablante de segunda voz creada comprendidas en el candidato 330 de tercera voz deberían ser indistinguibles de las características lingüísticas independientes del hablante 126 de la segunda voz de realidad de campo, aunque presenta las diferencias de que el candidato 330 de tercera voz comprende las características acústicas dependientes del hablante 124 de la primera voz, típicas del primer segmento de audio de voz en el primer idioma 104, transmite el contenido lingüístico original del mensaje generado por el primer segmento de audio de voz en el primer idioma 104 y el mensaje resultante ha sido traducido al segundo idioma.
La función de mapeado inverso 308, mediante un segundo discriminador 322, realiza una determinación 334 de si existe una inconsistencia entre las características acústicas independientes del hablante de segunda voz creada comprendida en el candidato 330 de tercera voz y la segunda voz de realidad de campo, características acústicas independientes del hablante 126, en cuyo caso el segundo discriminador 332 produce información de inconsistencia 336 relacionada con la pérdida de consistencia. El segundo discriminador 332 proporciona la información de inconsistencia 336 de vuelta al generador 326 de candidatos de segunda a tercera voz para el refinado del candidato 330 de tercera voz.
A continuación, el candidato 330 de tercera voz envía a un generador 338 de tercer a segundo hablante que es parte del segundo generador 328 que utiliza el candidato 330 de tercera voz para generar características lingüísticas independientes del hablante 340 de la segunda voz convertida, como parte de la etapa de entrenamiento que utiliza el procedimiento de pérdida adversarial, contribuyendo a reducir el suavizado excesivo de las características convertidas, Las características lingüísticas independientes del hablante 340 de la segunda voz convertida seguidamente se envían de vuelta al generador 326 de candidatos de segunda a tercera voz para continuar el procedimiento de entrenamiento con el fin de refinar adicionalmente el candidato 330 de tercera voz. En el caso de que el candidato 330 de tercera voz sea consistente con las características acústicas independientes del hablante 126 de la segunda voz, la función de mapeado inverso 308 podrá finalizar 342.
La FIG. 4 ilustra una representación esquemática de una plataforma de transmisión de películas en línea de muestra 400 que implementa un sistema de conversión de voz multilingüe entrenado, según una realización.
La plataforma de transmisión de películas en línea 400 permite al usuario seleccionar una película 402 que comprende un menú de idiomas 404 que permite la selección de diversas opciones, tales como recibir el audio de la película 402 en una versión original 406; una versión doblada en un segundo idioma con la voz del actor original 408 y una versión doblada en el segundo idioma con una voz de actor 410. Puede utilizarse para la versión original 406 un primer audio de voz producido por un actor de doblaje original que habla el primer idioma y puede producirse un segundo audio de voz producido por un actor de doblaje que habla el segundo idioma para la opción de selección de idiomas 404 que incluye el segundo idioma con el actor de doblaje 410. La traducción del audio original en el segundo idioma y la conversión de características entre un primer y un segundo hablante implica la implementación del sistema de conversión de voz multilingüe de la presente divulgación para hacer posible la versión doblada en el segundo idioma con un actor de doblaje 410, tal como mediante los sistemas ilustrados en los sistemas 100a-300 de las FIGS. 1A-3B.
De esta manera, los sistemas de conversión multilingüe de 100a-300 de las FIGS. 1A-3B de la presente divulgación pueden configurarse para proporcionar a los espectadores una versión de la película en la que la voz del actor original se ha traducido a un idioma deseado. A título de ejemplo, y haciendo referencia a la FIG. 1B, la voz del actor original transmite las características acústicas dependientes del hablante 124 junto con contenido lingüístico relacionado con, por ejemplo, el guión de una película en la que el actor original interpreta un papel, y un segmento de audio 108 de una segunda voz producido por el actor de doblaje que sirve para entrenar el sistema de aprendizaje automático 114 con las características lingüísticas independientes del actor de doblaje 126. La combinación de las características acústicas dependientes del hablante 124 y las características lingüísticas independientes del hablante 126 genera uno o más candidatos de tercera voz que, tras suficientes rondas de entrenamiento y refinado, pueden utilizarse como un candidato seleccionado 120 de tercera voz en el segundo idioma para servir como la versión doblada con la voz del actor original 408. En algunas realizaciones, puede utilizarse una pluralidad de terceras voces generadas en la generación de una pluralidad de archivos de audio de versión doblada que comprenden diferentes niveles de las características acústicas dependientes del hablante de primera voz y de las características lingüísticas independientes del hablante de segunda voz, permitiendo ofrecer un amplio abanico de opciones para seleccionar un archivo de audio de versión doblada óptimo. La selección puede llevarse a cabo manualmente, por un ser humano (p. ej., un administrador del sistema), o automáticamente por código informático (p. ej., un programa de inteligencia artificial).
La FIG. 5 ilustra una representación esquemática de un método 500 que permite la conversión de voz multilingüe con datos no paralelos, según una realización.
El método 500 se inicia en las etapas 502 y 504 mediante la recepción, por un extracto de características de voz, de un segmento de audio de primera voz en un primer idioma y un segmento de audio de segunda voz en un segundo idioma. El método 500 continúa en la etapa 506 mediante la extracción, por el extractor de características de voz, a partir del primer segmento de audio de voz en el primer idioma y del segundo segmento de audio de voz en el segundo idioma, respectivamente, de características de audio que comprenden características acústicas dependientes del hablante de primera voz y características lingüísticas independientes del hablante de segunda voz, en la presente memoria denominadas también datos de realidad de campo, a fin de establecer una diferencia con los datos generados sintéticamente por un generador en etapas posteriores. En la etapa 508, el método 500 entrena al generador con las características acústicas independientes del hablante de primera voz y con las características lingüísticas independientes del hablante de segunda voz. En la etapa 510, el método genera a partir del conjunto de datos entrenados, un candidato de tercera voz que mantiene las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz, en donde el candidato de la tercera voz habla el segundo idioma.
Seguidamente, el método 50 continúa en la etapa 512 con la comparación por uno o más discriminadores del candidato de tercera voz con los datos de realidad de campo que comprenden las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz. Mediante esta comparación, el discriminador o discriminadores determinan en la comprobación 514 si existe por lo menos una inconsistencia entre el candidato de tercera voz y las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz. En el caso de que exista por lo menos una inconsistencia, el discriminador produce, en la etapa 516, información de inconsistencias relacionada con la pérdida de consistencia entre el candidato de tercera voz, las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz. En la etapa 518, el discriminador proporciona la información de inconsistencias de vuelta al generador para el refinado del candidato de tercera voz, volviendo nuevamente a la etapa 510. En el caso de que el candidato de tercera voz sea consistente con los datos de realidad de campo que comprenden las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz, el método podrá finalizar 520.
En algunas realizaciones, el método 500 se implementa utilizando un algoritmo de GAN de Wasserstein autocodificante variacional (VAW-GAN).
La FIG. 6 ilustra una representación esquemática de un método 600 que describe una función de mapeado directo que permite la conversión de voz multilingüe con datos no paralelos mediante la utilización de un algoritmo de GAN de ciclo consistente (CycleGAN), según una realización (no comprendida en la invención reivindicada). La función de mapeado directo se lleva a cabo simultáneamente con una función de mapeado inverso descrita en el método 700 en referencia a la FIG. 7.
La función de mapeado directo del método 600 se inicia en las etapas 602 y 604 mediante la recepción, por el extractor de características, de un primer segmento de audio de voz en un primer idioma y sigue en la etapa 606 mediante la extracción, por el extractor de características, de las características acústicas dependientes del hablante de primera voz. La función de mapeado directo continúa en la etapa 608 mediante el envío de las características acústicas dependientes del hablante de primera voz a un generador de primer a tercer hablante que es parte de un primer generador. Seguidamente, la función de mapeado directo continúa en la etapa 610 mediante la recepción, por el generador de primer a tercer hablante, de características independientes del hablante de segunda voz en un segundo idioma a partir de la función de mapeado inverso. Las características acústicas dependientes del hablante de primera voz extraídas del primer segmento de audio de voz y las características lingüísticas independientes del hablante de segunda voz de la función de mapeado inverso se denominan en la presente memoria datos de realidad de campo para establecer una diferencia con los datos generados sintéticamente por un generador en etapas posteriores. Seguidamente, la función de mapeado directo genera en la etapa 612, a través del primer generador, un candidato de tercera voz utilizando los datos de realidad de campo que comprenden características acústicas dependientes del hablando de la primera voz y características lingüísticas independientes del hablante de segunda voz.
La función de mapeado directo determina en la comprobación 614, por parte de un primer discriminador, si existe una discrepancia entre el candidato de tercera voz y las características acústicas dependientes del hablante de primera voz de realidad de campo, en cuyo caso el primer discriminador produce, en la etapa 616, información sobre inconsistencias relacionada con la pérdida de consistencia. En la etapa 618, el primer discriminador proporciona la información sobre inconsistencias de vuelta al generador de candidato de primera a tercera voz para el refinado del candidato de tercera voz. El método continúa en la etapa 620, por parte del primer discriminador, enviando el candidato de tercera voz a un generador de tercer a primer hablante que es parte del primer generador. El generador de tercer a primer hablante utiliza el candidato de tercera voz para generar, en la etapa 622, características acústicas dependientes del hablante de primera voz convertida como parte de la etapa de entrenamiento utilizando el procedimiento de pérdida adversarial, contribuyendo a reducir el suavizado excesivo de las características convertidas. Las características acústicas dependientes del hablante de primera voz convertida seguidamente se envían de vuelta al generador de candidatos de primera a tercera voz para continuar el procedimiento de entrenamiento con el fin de refinar adicionalmente el candidato de tercera voz, tal como se observa en la etapa 624, volviendo nuevamente a la etapa 612. En el caso de que el candidato de tercera voz sea consistente con las características acústicas dependientes del hablante de primera voz, la función de mapeado directo podrá finalizar 626.
La FIG. 7 ilustra una representación esquemática de un método 700 que describe una función de mapeado inverso que permite una conversión de voz multilingüe con datos no paralelos mediante la utilización de un algoritmo de CycleGAN, según una realización (no comprendida en la invención reivindicada). Tanto la función de mapeado directo del método 600 como la función de mapeado inverso del método 700 se llevan a cabo simultáneamente como parte del entrenamiento del algoritmo de CycleGAN.
La función de mapeado inverso del método 700 se inicia en las etapas 702 y 704 mediante la recepción, por el extractor de características, de un segundo segmento de audio de voz en el segundo idioma, y continúa en la etapa 706 mediante la extracción, por el extractor de características, de las características lingüísticas independientes del hablante de segunda voz. A continuación, la función de mapeado inverso continúa en la etapa 708 mediante el envío de las características lingüísticas independientes del hablante de segunda voz a un generador de candidatos de segunda a tercera voz que es parte de un segundo generador. Seguidamente, en la etapa 710, la función de mapeado inverso recibe, por parte del generador de candidatos de la segunda a tercera voz, características acústicas dependientes del hablante de primera voz procedentes de la función de mapeado directo. Las características lingüísticas independientes del hablante de segunda voz extraídas del segundo segmento de audio de voz y las características acústicas dependientes del hablante de primera voz procedentes de la función de mapeado directo se denominan en la presente memoria datos de realidad de campo para establecer una diferencia con los datos generados sintéticamente por un generador en etapas posteriores. La función de mapeado inverso continúa en la etapa 712 mediante la generación, por parte del generador de candidatos de la segunda a tercera voz, de un candidato de tercera voz utilizando las características acústicas dependientes del hablante de la segunda voz y las características acústicas dependientes del hablante de primera voz.
La función de mapeado inverso continúa en la comprobación 714 mediante la determinación, por un segundo discriminador, de si existe una discrepancia entre el candidato de tercera voz y las características lingüísticas independientes del hablante de segunda voz, en cuyo caso el segundo discriminador produce, en la etapa 716, información sobre inconsistencias relacionada con la pérdida de consistencia. En la etapa 718, el segundo discriminador proporciona la información sobre inconsistencias de vuelta al generador de candidato de segunda a tercera voz para el refinado del candidato de tercera voz. A continuación, se envía el candidato de tercera voz, en la etapa 720, a un generador de tercer a segundo hablante que es parte del segundo generador. El generador de tercer a segundo hablante utiliza el candidato de tercera voz para generar, en la etapa 722, características lingüísticas independientes del hablante de segunda voz convertida como parte de la etapa de entrenamiento utilizando el procedimiento de pérdida adversarial, contribuyendo a reducir el suavizado excesivo de las características convertidas. Las características lingüísticas independientes del hablante de segunda voz convertida seguidamente, en la etapa 724, se envían de vuelta al generador de candidatos de segunda a tercera voz para continuar el procedimiento de entrenamiento con el fin de refinar adicionalmente el candidato de tercera voz, volviendo de vuelta a la etapa 712. En el caso de que el candidato de tercera voz sea consistente con las características acústicas independientes del hablante de segunda voz, la función de mapeado inverso podrá finalizar 726.
El sistema de aprendizaje automático 114 ilustrado en las FIGS. 1A-3B y los diversos elementos comprendidos en el mismo (p. ej., uno o más extractores 202 de características de la voz, generadores 206 o discriminadores 208), que permiten la implementación de los métodos 500-700 de las FIGS. 5-7, pueden ser implementados por como mínimo un procesador 118 utilizando una pluralidad de microprocesadores que ejecutan software o firmware, o pueden implementarse utilizando uno o más circuitos integrados específicos de aplicación (ASIC, por sus siglas en inglés) y software relacionado. En otros ejemplos, el sistema de aprendizaje automático 114 y los diversos elementos comprendidos en el mismo, que permiten la implementación de los métodos 500-700 de las FIGS. 5-7, pueden implementarse utilizando una combinación de ASIC, componentes electrónicos discretos (p. ej., transistores) y microprocesadores. En algunas realizaciones, el sistema de aprendizaje automático 114 puede distribuirse en una pluralidad de diferentes máquinas. En algunas realizaciones, los componentes mostrados como separados pueden sustituirse por un único componente. Además, algunos de los componentes mostrados pueden ser adicionales o pueden sustituirse por otros componentes.
También se describen medios legibles por ordenador en los que hay almacenadas instrucciones configuradas para causar que uno o más ordenadores lleven a cabo cualquiera de los métodos descritos en la presente memoria. Un medio legible por ordenador puede incluir medios volátiles o no volátiles, extraíbles o no extraíbles, implementados en cualquier método o tecnología capaz de almacenar información, tal como instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. En general, la funcionalidad de los dispositivos informáticos indicados en la presente memoria puede implementarse en lógica informática realizada en hardware o instrucciones de software, que pueden escribirse en un lenguaje de programación, tal como los lenguajes C, C++, COBOL, JAVA™, PHP, Perl, Python, Ruby, HTML, CSS, JavaScript, VBScript, ASPX, o lenguajes de Microsoft .NET™ tales como C#, y/o similares. La lógica de computación puede compilarse en programas ejecutables o escribirse en lenguajes de programación interpretados. Generalmente, las funcionalidades descritas en la presente memoria pueden implementarse en forma de módulos lógicos que pueden duplicarse para proporcionar mayor capacidad de procesamiento, fusionarse con otros módulos o dividirse en submódulos. La lógica de computación puede almacenarse en cualquier tipo de medio legible por ordenador (p. ej., un medio no transitorio, tal como una memoria o medio de almacenamiento) o dispositivo de almacenamiento informático y almacenarse y ejecutarse en uno o más procesadores de uso general o de uso específico, creando de esta manera un dispositivo informático de uso especial configurado para proporcionar funcionalidades descritas en la presente memoria.
Aunque determinadas realizaciones se han descrito y mostrado en los dibujos adjuntos, debe entenderse que dichas realizaciones son meramente ilustrativos y que no son limitativos de la invención en sentido general, y que la invención no se encuentra limitada a las construcciones y dispositivos específicos mostrados y descritos, ya que el experto ordinario en la materia podría concebir otras diversas modificaciones. De esta manera, la descripción debe considerarse ilustrativa y no limitativa. El alcance de protección se define mediante las reivindicaciones adjuntas.

Claims (13)

  1. REIVINDICACIONES
    i.Un método de conversión de voz multilingüe ejecutado por un sistema de aprendizaje automático, en el que el método comprende:
    recibir, por un extractor de características de voz, un primer segmento de audio de voz en un primer idioma y un segundo segmento de audio de voz en un segundo idioma,
    extraer, por el extractor de características de voz a partir del primer segmento de audio de voz y del segundo segmento de audio de voz, respectivamente, características de audio que comprenden características acústicas dependientes del hablante de primera voz y características lingüísticas independientes del hablante de segunda voz,
    generar, mediante un generador de un sistema de red adversarial generativa, GAN, a partir de un conjunto de datos de entrenamiento, un candidato de tercera voz que presenta las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz, en donde el candidato de tercera voz habla el segundo idioma,
    comparar, mediante uno o más discriminadores del sistema GAN, el candidato de tercera voz con datos de realidad de campo que comprenden las características acústicas dependientes del hablante de primera voz y las características lingüísticas independientes del hablante de segunda voz, y
    proporcionar resultados de la etapa de comparación de vuelta al generador para el refinado del candidato de tercera voz.
  2. 2. El método según la reivindicación 1, en el que las características acústicas dependientes del hablante incluyen características segmentarias de corto plazo relacionadas con características de tracto vocal y las características lingüísticas independientes del hablante comprenden características suprasegmentarias relacionadas con propiedades acústicas en más de un segmento.
  3. 3. El método según la reivindicación 1 o 2, que comprende, además, generar una pluralidad de candidatos de tercera voz, en el que cada candidato de tercera voz comprende un nivel diferente de características acústicas dependientes del hablante de primera voz y de características lingüísticas independientes del hablante de segunda voz.
  4. 4. El método según la reivindicación 3, que comprende, además, seleccionar uno o más de entre la pluralidad de candidatos de tercera voz para la utilización durante la traducción de voz.
  5. 5. El método según la reivindicación 4, que comprende, además, almacenar el candidato o candidatos de tercera voz en una base de datos conectada al sistema de aprendizaje automático y que comprende una pluralidad de terceras voces entrenadas diferentes.
  6. 6. El método según cualquiera de las reivindicaciones anteriores, en el que el sistema GAN es un sistema GAN de Wasserstein autocodificante variacional, VAW-GAN, o un sistema GAN de ciclo consistente, CycleGAN.
  7. 7. El método según cualquiera de las reivindicaciones anteriores, en el que la primera voz es una voz de actor original que habla el primer idioma y en el que la segunda voz es un actor de doblaje que habla el segundo idioma.
  8. 8. El método según la reivindicación 7 que se implementa durante la traducción de voz de una película que permite la selección de una versión original, una versión doblada con la voz del actor original o una versión doblada con la voz del actor de doblaje.
  9. 9. Método según la reivindicación 8, que comprende, además:
    generar una pluralidad de candidatos de tercera voz, en el que cada candidato de tercera voz comprende un nivel diferente de características acústicas dependientes del hablante de primera voz y de características lingüísticas independientes del hablante,
    utilizar candidatos de tercera voz generados para generar de una pluralidad de archivos de audio de versión doblada que comprenden diferentes niveles de las características acústicas dependientes del hablante de primera voz y de las características lingüísticas independientes del hablante de segunda voz.
  10. 10. Un sistema de aprendizaje automático, en el que el sistema de aprendizaje automático comprende:
    un extractor de características de voz y
    una red adversarial generativa (GAN) que comprende uno o más generadores y uno o más discriminadores, en el que el extractor de características de voz y el GAN están configurados para llevar a cabo el método según cualquiera de las reivindicaciones 1 a 9.
  11. 11.El sistema según la reivindicación 10, en el que el generador o generadores están configurados adicionalmente para generar una pluralidad de candidatos de tercera voz seleccionables.
  12. 12. El sistema según la reivindicación 10 o 11, en el que el sistema de aprendizaje automático está configurado adicionalmente para:
    generar una pluralidad de archivos de audio de versión doblada que comprenden diferentes niveles de características acústicas dependientes del hablante de primera voz y de características lingüísticas independientes del hablante de segunda voz.
  13. 13. Un programa informático que comprende instrucciones que, al ser ejecutadas por un ordenador, causan que el ordenador lleve a cabo el método según cualquiera de las reivindicaciones 1 a 9.
ES20217111T 2019-12-30 2020-12-23 Sistema y método de conversión de voz multilingüe Active ES2964322T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201962955227P 2019-12-30 2019-12-30

Publications (1)

Publication Number Publication Date
ES2964322T3 true ES2964322T3 (es) 2024-04-05

Family

ID=74103885

Family Applications (1)

Application Number Title Priority Date Filing Date
ES20217111T Active ES2964322T3 (es) 2019-12-30 2020-12-23 Sistema y método de conversión de voz multilingüe

Country Status (8)

Country Link
US (2) US11797782B2 (es)
EP (2) EP4270255A3 (es)
JP (1) JP7152791B2 (es)
KR (1) KR20210086974A (es)
CN (1) CN113129914A (es)
DK (1) DK3855340T3 (es)
ES (1) ES2964322T3 (es)
HU (1) HUE064070T2 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11600284B2 (en) * 2020-01-11 2023-03-07 Soundhound, Inc. Voice morphing apparatus having adjustable parameters
US11170154B1 (en) 2021-04-09 2021-11-09 Cascade Reading, Inc. Linguistically-driven automated text formatting
CN113539239A (zh) * 2021-07-12 2021-10-22 网易(杭州)网络有限公司 语音转换方法、装置、存储介质及电子设备
WO2023059818A1 (en) * 2021-10-06 2023-04-13 Cascade Reading, Inc. Acoustic-based linguistically-driven automated text formatting
CA3236335A1 (en) * 2021-11-01 2023-05-04 Pindrop Security, Inc. Cross-lingual speaker recognition
CN114283824B (zh) * 2022-03-02 2022-07-08 清华大学 一种基于循环损失的语音转换方法及装置
CN115171651B (zh) * 2022-09-05 2022-11-29 中邮消费金融有限公司 一种儿化音合成方法、装置、电子设备及存储介质
CN115312029B (zh) * 2022-10-12 2023-01-31 之江实验室 一种基于语音深度表征映射的语音翻译方法及系统
CN116206622B (zh) * 2023-05-06 2023-09-08 北京边锋信息技术有限公司 生成对抗网络的训练、方言转换方法、装置及电子设备
CN116741146B (zh) * 2023-08-15 2023-10-20 成都信通信息技术有限公司 基于语义语调的方言语音生成方法、系统及介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100242129B1 (ko) * 1997-06-18 2000-02-01 윤종용 복수 규격을 만족하는 광 디스크
JP2009186820A (ja) 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法
US20120069974A1 (en) * 2010-09-21 2012-03-22 Telefonaktiebolaget L M Ericsson (Publ) Text-to-multi-voice messaging systems and methods
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
EP3542360A4 (en) * 2016-11-21 2020-04-29 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION
US10861476B2 (en) * 2017-05-24 2020-12-08 Modulate, Inc. System and method for building a voice database
JP6764851B2 (ja) 2017-12-07 2020-10-14 日本電信電話株式会社 系列データ変換装置、学習装置、及びプログラム
JP6773634B2 (ja) 2017-12-15 2020-10-21 日本電信電話株式会社 音声変換装置、音声変換方法及びプログラム
US11538455B2 (en) * 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
KR102473447B1 (ko) * 2018-03-22 2022-12-05 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US20190354592A1 (en) * 2018-05-16 2019-11-21 Sharat Chandra Musham Automated systems and methods for providing bidirectional parallel language recognition and translation processing with machine speech production for two users simultaneously to enable gapless interactive conversational communication
CN109147758B (zh) * 2018-09-12 2020-02-14 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN109671442B (zh) * 2019-01-14 2023-02-28 南京邮电大学 基于STARGAN和x向量的多对多说话人转换方法
US10930263B1 (en) * 2019-03-28 2021-02-23 Amazon Technologies, Inc. Automatic voice dubbing for media content localization
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US11715485B2 (en) * 2019-05-17 2023-08-01 Lg Electronics Inc. Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same
WO2020242662A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN110246488B (zh) * 2019-06-14 2021-06-25 思必驰科技股份有限公司 半优化CycleGAN模型的语音转换方法及装置
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法
KR20190114938A (ko) * 2019-09-20 2019-10-10 엘지전자 주식회사 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법

Also Published As

Publication number Publication date
JP7152791B2 (ja) 2022-10-13
US20240028843A1 (en) 2024-01-25
EP3855340A2 (en) 2021-07-28
KR20210086974A (ko) 2021-07-09
EP4270255A2 (en) 2023-11-01
US11797782B2 (en) 2023-10-24
HUE064070T2 (hu) 2024-02-28
EP4270255A3 (en) 2023-12-06
EP3855340B1 (en) 2023-08-30
DK3855340T3 (da) 2023-12-04
EP3855340A3 (en) 2021-08-25
JP2021110943A (ja) 2021-08-02
US20210200965A1 (en) 2021-07-01
CN113129914A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
ES2964322T3 (es) Sistema y método de conversión de voz multilingüe
KR102581346B1 (ko) 다국어 음성 합성 및 언어간 음성 복제
US11922924B2 (en) Multilingual neural text-to-speech synthesis
US9905220B2 (en) Multilingual prosody generation
US9697206B2 (en) System and method for enhancing voice-enabled search based on automated demographic identification
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
US8024179B2 (en) System and method for improving interaction with a user through a dynamically alterable spoken dialog system
KR20190082900A (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
EP4029010B1 (en) Neural text-to-speech synthesis with multi-level context features
CN112530400A (zh) 基于深度学习的文本生成语音的方法、系统、装置及介质
EP4032027A1 (en) Structure-preserving attention mechanism in sequence-to-sequence neural models
Kumar et al. Towards building text-to-speech systems for the next billion users
CN113948062B (zh) 数据转换方法及计算机存储介质
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
Kruspe et al. Phonotactic Language Identification for Singing.
JP7146038B2 (ja) 音声認識システム及び方法
US20230317057A1 (en) Assigning ssml tags to an audio corpus
Valliappa et al. Voice support system using deep learning approaches for unilateral vocal cord paralyzed patients
Yaroshchuk et al. An Open Dataset of Synthetic Speech
BR102022009538A2 (pt) Método para identificar e transformar a voz de um personagem com a voz de um usuário
JPWO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム