ES2728708T3

ES2728708T3 - Audiovisual dialogue system and procedure

Info

Publication number: ES2728708T3
Application number: ES14756113T
Authority: ES
Inventors: Julian Leff; Geoffrey Williams; Mark Huckvale
Original assignee: UCL Business Ltd
Current assignee: UCL Business Ltd
Priority date: 2013-08-23
Filing date: 2014-08-19
Publication date: 2019-10-28
Anticipated expiration: 2034-08-19
Also published as: US20160203827A1; EP3036737A1; EP3036737B1; WO2015025155A1; GB201315142D0; US9837091B2

Abstract

Sistema audiovisual de diálogo (1) que comprende: un dispositivo de entrada de audio (21); un dispositivo de salida de audio (31); un dispositivo de salida visual (32); y un procesador (5), estando el procesador dispuesto para: recibir (72) una señal de entrada de audio que representa una voz fuente desde el dispositivo de entrada de audio; realizar (73) una conversión sustancialmente en tiempo real de la conversión de la voz en la señal de entrada de audio para producir una señal de salida de audio que representa una voz de interés, en la que la señal de salida de audio es proporcionada al dispositivo de salida de audio, y en la que el proceso de conversión de la voz en tiempo real incluye: i) descomponer la señal de entrada de audio en un conjunto de características de filtrado variables con el tiempo y una señal residual de excitación; ii) transformar espectralmente las características de filtrado variables con el tiempo, y/o modificar el tono de la señal residual de excitación; y iii) sintetizar la señal de salida de audio dependiendo de las características de filtrado variables con el tiempo transformadas y/o de la señal residual de excitación con el tono modificado; generar (71) un avatar, en el que el avatar es presentado visualmente en el dispositivo de salida visual; y animar facialmente el avatar generado (74), en el que la animación está sincronizada con la señal de salida de audio; en el que el procesador está dispuesto además para personalizar la conversión de la voz en tiempo real, comprendiendo la personalización: 1) seleccionar una de una pluralidad de voces de interés predefinidas, en que las voces de interés predefinidas están representadas por un conjunto de las respectivas transformaciones lineales que incluyen un conjunto de características de filtrado variables con el tiempo y un factor de escalado del tono; y 2) ajustar (82) las características de filtrado variables con el tiempo y/o el factor de escalado del tono de la voz de interés predefinida, seleccionada para proporcionar los parámetros personalizados a la voz de interés, en el que las características de filtrado variables con el tiempo y/o el factor de escalado del tono de la voz de interés predefinida seleccionada, son ajustados utilizando una pluralidad de controles deslizantes (A, B, C, D) dispuestos en la interfaz del usuario, los cuales cuando son activados por el usuario establecen una magnitud de cambio mediante la cual se ajustan las características de filtrado variables con el tiempo y/o el factor de escalado del tono.Audiovisual dialogue system (1) comprising: an audio input device (21); an audio output device (31); a visual output device (32); and a processor (5), the processor being arranged to: receive (72) an audio input signal representing a source voice from the audio input device; performing (73) a substantially real-time conversion of the voice conversion into the audio input signal to produce an audio output signal representing a voice of interest, in which the audio output signal is provided to the audio output device, and in which the real-time voice conversion process includes: i) decomposing the audio input signal into a set of time-varying filtering characteristics and a residual excitation signal; ii) spectrally transform the filtering characteristics that vary over time, and / or modify the tone of the residual excitation signal; and iii) synthesize the audio output signal depending on the filtered filtering characteristics with time transformed and / or the residual excitation signal with the modified tone; generate (71) an avatar, in which the avatar is presented visually on the visual output device; and facially animate the generated avatar (74), in which the animation is synchronized with the audio output signal; in which the processor is further arranged to customize the conversion of the voice in real time, including customization: 1) select one of a plurality of predefined voices of interest, in which the predefined voices of interest are represented by a set of respective linear transformations that include a set of time-varying filtering characteristics and a pitch scaling factor; and 2) adjust (82) the filtering characteristics variable with time and / or the scaling factor of the predefined voice tone of interest, selected to provide the customized parameters to the voice of interest, in which the filtering characteristics variables with time and / or the scaling factor of the tone of the selected predefined voice of interest, are adjusted using a plurality of sliders (A, B, C, D) arranged in the user interface, which when activated by the user they establish a magnitude of change by which the filtering characteristics that vary with time and / or the pitch scaling factor are adjusted.

Description

DESCRIPCIÓNDESCRIPTION

Sistema y procedimiento de diálogo audiovisualAudiovisual dialogue system and procedure

Sector técnicoTechnical sector

La presente invención se refiere a un sistema y a un procedimiento de diálogo audiovisual. En particular, pero no exclusivamente, aspectos de la presente invención se refieren a un sistema de diálogo audiovisual y a un procedimiento que incluyen la conversión de la voz en tiempo real, la animación facial y la personalización de la voz. Antecedentes de la invención y técnica anteriorThe present invention relates to a system and a procedure for audiovisual dialogue. In particular, but not exclusively, aspects of the present invention relate to an audiovisual dialogue system and a procedure that include real-time voice conversion, facial animation and voice customization. Background of the invention and prior art

Los sistemas de diálogo hablado son utilizados de forma regular en una amplia gama de sectores técnicos, por ejemplo, en dispositivos de telefonía móvil para procesar el habla del usuario y transmitirla a un dispositivo de recepción de comunicaciones. Los sistemas de diálogo hablado emplean habitualmente una combinación de síntesis del habla y técnicas de reconocimiento de la voz. Las técnicas de síntesis del habla son utilizadas a menudo en producciones de diversión tales como videojuegos y presentaciones animadas, pero asimismo puede ser una herramienta útil en la tecnología de ayuda a personas con una diversidad de incapacidades, por ejemplo, deficiencias visuales y de habla, y dislexia.Spoken dialogue systems are used regularly in a wide range of technical sectors, for example, in mobile telephony devices to process user speech and transmit it to a communications receiving device. Spoken dialogue systems usually employ a combination of speech synthesis and voice recognition techniques. Speech synthesis techniques are often used in fun productions such as video games and animated presentations, but it can also be a useful tool in assistive technology for people with a variety of disabilities, for example, visual and speech impairments, and dyslexia

Una técnica habitual de síntesis del habla es un sistema de texto-a-habla (TTS), en el que el texto sin formato es analizado, convertido en expresiones fonéticas y a continuación convertido en habla, mediante la generación de ondas de forma. Sin embargo, el sistema TTS puede tener problemas para identificar la pronunciación correcta de ciertos aspectos del texto, por ejemplo, números, abreviaciones y deletreos que tienen pronunciaciones diferentes dependiendo del contexto de la palabra. Como resultado, el TTS puede ser un proceso largo y complejo y, por consiguiente, a menudo es necesario conocer el texto mucho antes de la síntesis del habla. En vista de esto, los sistemas TTS no son adecuados para la conversión de la voz en tiempo real.A common technique of speech synthesis is a text-to-speech system (TTS), in which plain text is analyzed, converted into phonetic expressions and then converted into speech, by generating shape waves. However, the TTS system may have trouble identifying the correct pronunciation of certain aspects of the text, for example, numbers, abbreviations and spellings that have different pronunciations depending on the context of the word. As a result, TTS can be a long and complex process and, therefore, it is often necessary to know the text long before speech synthesis. In view of this, TTS systems are not suitable for real-time voice conversion.

El tratamiento de las alucinaciones auditivas ha sido divulgado por un cierto número de medios de publicación. Artículos de noticias publicados por la BBC (http:Zwww.bbc.co.uk/news/health-22691718) y el periódico “The Guardian” (http:Zwww.guardian.co.uk/society/2013/may/29/schizophrenia-mental-health) comentan ambos la posibilidad de la utilización de técnicas de realidad virtual (VR) para producir un “avatar” que representa la “voz” oída por pacientes esquizofrénicos con el fin de ayudarles a controlar sus alucinaciones. Otro artículo de noticias de la BBC (http:/www.bbc.co.uk/news/science-environment-23144208) informa de cómo la tecnología utilizada en un ensayo clínico es capaz de ajustar la voz de un avatar virtual facilitado por el profesional terapéutico, para que se parezca a la voz de la alucinación auditiva del paciente.The treatment of auditory hallucinations has been disclosed by a number of means of publication. News articles published by the BBC (http: Zwww.bbc.co.uk/news/health-22691718) and the newspaper "The Guardian" (http: Zwww.guardian.co.uk/society/2013/may/29/ schizophrenia-mental-health) both comment on the possibility of using virtual reality (VR) techniques to produce an "avatar" that represents the "voice" heard by schizophrenic patients in order to help them control their hallucinations. Another BBC news article (http: /www.bbc.co.uk/news/science-environment-23144208) reports how the technology used in a clinical trial is able to adjust the voice of a virtual avatar provided by the therapeutic professional, so that it resembles the voice of the patient's auditory hallucination.

Otras técnicas anteriores incluyen: “Computer-assisted therapy for medication resistant auditory hallucinations: proof-of-concept study” de Leff y otros, (Terapias asistidas por ordenador para alucinaciones auditivas resistentes a la medicación: estudio de demostración conceptual), British Journal of Psychiatry, vol. 202 n° 6, 21 de febrero de 2013, páginas 428-433, así como “Continous Probabilistic Transform for Voice Conversion” (Transformación probabilística continua para la conversión de la voz) de Stylianou y otros, Actas de la IEEE sobre el habla y el procesamiento del audio, Vol. 6, n° 2, 1 de marzo de 1998.Other prior techniques include: "Computer-assisted therapy for medication resistant auditory hallucinations: proof-of-concept study" by Leff et al., (Computer-assisted therapies for auditory drug-resistant hallucinations: conceptual demonstration study), British Journal of Psychiatry, vol. 202 n ° 6, February 21, 2013, pages 428-433, as well as “Continous Probabilistic Transform for Voice Conversion” by Stylianou et al., IEEE Proceedings on Speech and Audio processing, Vol. 6, No. 2, March 1, 1998.

Resumen de la invenciónSummary of the Invention

La presente invención da a conocer un sistema de diálogo audiovisual que permite a un usuario crear un “avatar” que puede ser personalizado para parecer y sonar de una forma determinada. El avatar puede ser creado para que se parezca, por ejemplo, a una persona, animal o criatura mítica, y puede ser generado para tener una voz variable que puede ser femenina o masculina. El sistema utiliza a continuación una conversión de la voz en tiempo real con el objeto de transformar una entrada de audio, por ejemplo, una palabra hablada, en una voz de interés que es seleccionada y personalizada por el usuario. El sistema está dispuesto para animar facialmente el avatar utilizando un algoritmo de sincronización de los labios en tiempo real, de tal modo que el avatar generado y la voz de interés estén sincronizados. Es decir, el avatar parece que dice las palabras de una entrada de audio con la voz de interés. La presente invención puede ser utilizada en múltiples aplicaciones, por ejemplo, para software de juegos y para películas de animación.The present invention discloses an audiovisual dialogue system that allows a user to create an "avatar" that can be customized to look and sound in a certain way. The avatar can be created to resemble, for example, a person, animal or mythical creature, and can be generated to have a variable voice that can be feminine or masculine. The system then uses a real-time voice conversion in order to transform an audio input, for example, a spoken word, into a voice of interest that is selected and customized by the user. The system is arranged to facially animate the avatar using a real-time lip synchronization algorithm, so that the generated avatar and the voice of interest are synchronized. That is, the avatar seems to say the words of an audio input with the voice of interest. The present invention can be used in multiple applications, for example, for game software and for animated films.

Una aplicación particular de la presente invención es el tratamiento de la esquizofrenia, en la que los pacientes que padecen audición de voces pueden crear una representación visual y audible de su alucinación auditiva con la forma del avatar. El paciente puede personalizar la apariencia visual del avatar y personalizar la voz del avatar, de modo que se parezca estrechamente a su alucinación auditiva. Una vez que el paciente ha diseñado su avatar, un profesional terapéutico puede hablar al paciente a través del avatar de modo que el paciente puede enfrentarse a su alucinación y entrar en conversación con ella, permitiendo de este modo conseguir el control de la enfermedad. A la vista de lo anterior, un aspecto de la presente invención da a conocer un sistema de diálogo audiovisual, que comprende: un dispositivo de entrada de audio; un dispositivo de salida de audio; un dispositivo de salida visual y un procesador, estando el procesador dispuesto para: recibir una señal de entrada de audio que representa una fuente de voz procedente del dispositivo de entrada de audio; realizar una conversión de la voz, sustancialmente en tiempo real, de la señal de entrada de audio para producir una señal de salida de audio que representa una voz de interés, en la que la señal de salida de audio es proporcionada al dispositivo de salida de audio, y en la que el proceso de conversión de la voz en tiempo real incluye: i) descomponer la señal de entrada de audio en un conjunto de características de filtrado variables con el tiempo y una señal residual de excitación; ii) transformar espectralmente las características de filtrado variables con el tiempo, y/o modificar el tono de la señal residual de excitación; y iii) sintetizar la señal de salida de audio dependiendo de las características transformadas de filtrado variables con el tiempo y/o de la señal residual de excitación del tono modificada; generar un avatar, en el que el avatar es presentado visualmente en el dispositivo visual de salida; y animar facialmente el avatar generado, en el que la animación está sincronizada con la señal de salida de audio; en el que el procesador está dispuesto además para personalizar la conversión de la voz en tiempo real, comprendiendo la personalización: 1) seleccionar una de una pluralidad de voces de interés predefinidas, en que las voces de interés predefinidas están representadas por medio de un conjunto de las respectivas transformaciones lineales que incluyen un conjunto de características de filtrado variables con el tiempo y un factor de escalado del tono; y 2) ajustar las características de filtrado variables con el tiempo y/o el factor de escalado del tono de la voz de interés predefinida seleccionada para proporcionar parámetros personalizados a la voz de interés, en la que las características de filtrado variables con el tiempo y/o el factor de escalado del tono de la voz de interés predefinida seleccionada, son ajustados utilizando una pluralidad de controles deslizantes visualizados en la interfaz de usuario que, cuando son activados por el usuario, establecen una magnitud de cambio mediante la cual se ajustan las características de filtrado variables con el tiempo y/o el factor de escalado del tono.A particular application of the present invention is the treatment of schizophrenia, in which patients suffering from voice hearing can create a visual and audible representation of their auditory hallucination in the form of the avatar. The patient can customize the visual appearance of the avatar and customize the voice of the avatar, so that it closely resembles his auditory hallucination. Once the patient has designed his avatar, a therapeutic professional can speak to the patient through the avatar so that the patient can face his hallucination and enter into conversation with her, thus allowing control of the disease. In view of the foregoing, one aspect of the present invention discloses an audiovisual dialogue system, comprising: an audio input device; an audio output device; a visual output device and a processor, the processor being arranged to: receive an audio input signal representing a voice source from the audio input device; perform a conversion of the voice, substantially in real time, of the audio input signal to produce an audio output signal representing a voice of interest, in which the audio output signal is provided to the output device of audio, and in which the real-time voice conversion process includes: i) decomposing the audio input signal into a set of time-varying filtering characteristics and a residual excitation signal; ii) spectrally transform the filtering characteristics that vary over time, and / or modify the tone of the residual excitation signal; and iii) synthesize the audio output signal depending on the transformed filtering characteristics that vary with time and / or the residual excitation signal of the modified tone; generate an avatar, in which the avatar is presented visually on the visual output device; and facially animate the generated avatar, in which the animation is synchronized with the audio output signal; in which the processor is further arranged to customize the conversion of the voice in real time, including customization: 1) select one of a plurality of predefined voices of interest, in which the predefined voices of interest are represented by means of a set of the respective linear transformations that include a set of time-varying filtering characteristics and a pitch scaling factor; and 2) adjust the filtering characteristics that vary with time and / or the scaling factor of the tone of the predefined voice of interest selected to provide customized parameters to the voice of interest, in which the filtering characteristics vary with time and / or the scaling factor of the tone of the selected predefined voice of interest, are adjusted using a plurality of sliders displayed on the user interface which, when activated by the user, establish a magnitude of change by which the Filtering characteristics that vary with time and / or pitch scaling factor.

En una realización, la conversión de la voz sustancialmente en tiempo real incluye la descomposición de la señal de entrada de audio en un conjunto de características de filtrado variables con el tiempo y en una señal residual de excitación, transformando espectralmente las características de filtrado variables con el tiempo, y/o modificando el tono de la señal residual de excitación, y sintetizando la señal de salida de audio dependiendo de las características de filtrado transformadas variables con el tiempo y/o de la señal residual de excitación del tono modificada.In one embodiment, the conversion of the voice substantially in real time includes the decomposition of the audio input signal into a set of time-varying filtering characteristics and a residual excitation signal, spectrally transforming the variable filtering characteristics with the time, and / or modifying the tone of the residual excitation signal, and synthesizing the audio output signal depending on the transformed filtered characteristics with time and / or the residual excitation signal of the modified tone.

Preferentemente, la descomposición de la señal de entrada de audio es realizada por medio de un proceso de codificación de predicción lineal. Se debe tener en cuenta que las características de filtrado variables con el tiempo se refieren a los coeficientes de predicción del procesamiento de predicción lineal del habla.Preferably, the decomposition of the audio input signal is performed by means of a linear prediction coding process. It should be borne in mind that the filtering characteristics that vary over time refer to the prediction coefficients of the linear speech prediction processing.

En otra realización, las características de filtrado variables con el tiempo son estimadas en secciones cortas con ventanas de la señal de audio de entrada. Preferentemente, las secciones cortas con ventanas de la señal de audio de entrada son de una duración de 20 a 40 ms y están superpuestas de 5 a 15 ms. Adicionalmente, el error de predicción de la codificación lineal de predicción puede ser calculado por separado para las secciones cortas de ventanas, siendo posteriormente superpuestos los errores de predicción y sumados para producir la señal residual de excitación.In another embodiment, the time-varying filtering characteristics are estimated in short sections with windows of the input audio signal. Preferably, the short sections with windows of the input audio signal are of a duration of 20 to 40 ms and are superimposed of 5 to 15 ms. Additionally, the prediction error of the linear prediction coding can be calculated separately for the short window sections, the prediction errors being subsequently superimposed and added to produce the residual excitation signal.

En una realización preferente, las características de filtrado variables con el tiempo son transformadas de Fourier en un punto múltiple, por ejemplo, 256 puntos de amplitud de respuesta antes de la transformación espectral de las características de filtrado variables con el tiempo. Preferentemente, la amplitud de respuesta transformada espectralmente es, a continuación, una transformada inversa de Fourier transformada de nuevo en las características de filtrado variables con el tiempo.In a preferred embodiment, the time-varying filtering characteristics are transformed from Fourier into a multiple point, for example, 256 response amplitude points before the spectral transformation of the time-varying filtering characteristics. Preferably, the spectrally transformed response amplitude is then an inverse Fourier transform transformed back into time-varying filtering characteristics.

En otra realización, la modificación el tono incluye un nuevo muestreo de la señal residual de excitación y el cambio de la frecuencia fundamental de la señal residual de excitación muestreada de nuevo por medio de un factor constante de escalado del tono. Además, el cambio en la duración de la señal residual de excitación producido por el nuevo muestreo puede ser corregido mediante la compresión o la extensión de la señal residual de excitación en el tiempo para restaurar la duración original.In another embodiment, the pitch modification includes a new sampling of the residual excitation signal and the change in the fundamental frequency of the residual excitation signal sampled again by means of a constant tone scaling factor. In addition, the change in the duration of the residual excitation signal produced by the new sampling can be corrected by compression or extension of the residual excitation signal over time to restore the original duration.

Según una realización, la transformación espectral de las características de filtrado variables con el tiempo es llevada a cabo por medio de un conjunto de transformaciones lineales. Los conjuntos de transformaciones lineales pueden ser generados a continuación entre la señal de entrada de audio y una pluralidad de voces de interés predefinidas. En una realización, se utilizan más de 50 voces de interés predefinidas para generar los conjuntos de transformaciones lineales. Preferentemente, se utilizan por lo menos 82 voces de interés, incluyendo al menos 40 locutores masculinos de interés y al menos 42 locutores femeninos de interés. En particular, en una realización, puede ser generado un conjunto de 8 transformaciones lineales entre la señal de entrada de audio y una voz de interés predefinida. En otras realizaciones, se pueden utilizar 16, 24, u otras cantidades.According to one embodiment, the spectral transformation of the filtering characteristics variable over time is carried out by means of a set of linear transformations. The sets of linear transformations can then be generated between the audio input signal and a plurality of predefined voices of interest. In one embodiment, more than 50 predefined voices of interest are used to generate the sets of linear transformations. Preferably, at least 82 voices of interest are used, including at least 40 male broadcasters of interest and at least 42 female broadcasters of interest. In particular, in one embodiment, a set of 8 linear transformations between the audio input signal and a predefined voice of interest can be generated. In other embodiments, 16, 24, or other amounts may be used.

Según otra realización, se pueden pronunciar una serie de frases tanto por medio de las pluralidades de voces de interés predefinidas como por la señal de entrada de audio y, preferentemente, en una realización, se pronuncian por lo menos 20 frases. La pluralidad de frases pronunciadas por la señal de audio de entrada y la pluralidad de frases pronunciadas por la pluralidad de voces de interés predefinidas están alineadas temporalmente. La pluralidad de frases puede estar alineada temporalmente utilizando los coeficientes cepstrales de frecuencia Mel en combinación con un algoritmo de programación dinámica. En una realización, en el caso de una pluralidad de secciones de señal dentro de los pares de frases alineadas temporalmente, se calculan los coeficientes de predicción y el espectro de codificación de predicción lineal, y se halla la asignación de la frecuencia óptima utilizando un algoritmo de programación dinámica.According to another embodiment, a series of phrases can be pronounced both by means of the pluralities of predefined voices of interest and by the audio input signal and, preferably, in one embodiment, at least 20 sentences are pronounced. The plurality of phrases pronounced by the input audio signal and the plurality of phrases pronounced by the plurality of predefined voices of interest are temporarily aligned. The plurality of phrases may be temporarily aligned using Mel cepstral coefficients in combination with a dynamic programming algorithm. In one embodiment, in the case of a plurality of Signal sections within the pairs of temporarily aligned phrases, the prediction coefficients and the linear prediction coding spectrum are calculated, and the optimal frequency assignment is found using a dynamic programming algorithm.

Preferentemente, se utilizan las asignaciones de frecuencias para la pluralidad de secciones de señal en el caso de la señal de entrada de audio para hallar el conjunto de transformaciones lineales que minimice el error de transformación de la media cuadrática. En una realización concreta, se puede hallar un conjunto de 8 transformaciones lineales. Otros números de transformaciones pueden ser utilizados en otras realizaciones.Preferably, the frequency assignments are used for the plurality of signal sections in the case of the audio input signal to find the set of linear transformations that minimizes the transformation error of the quadratic mean. In a specific embodiment, a set of 8 linear transformations can be found. Other numbers of transformations may be used in other embodiments.

La voz de interés predefinida seleccionada puede estar asociada con un conjunto de transformaciones lineales. Preferentemente, los vectores de transformación del conjunto de transformaciones lineales se reducen a un vector de transformación media y a una pluralidad de vectores de cambio ortogonales, en los que se puede utilizar un control deslizante para ajustar la magnitud por medio de la cual se añade un vector de cambio al vector medio, de tal modo que las características de filtrado variables con el tiempo son ajustadas.The selected predefined voice of interest may be associated with a set of linear transformations. Preferably, the transformation vectors of the set of linear transformations are reduced to a mean transformation vector and a plurality of orthogonal change vectors, in which a slider can be used to adjust the magnitude by which a vector is added change to the average vector, so that the filtering characteristics that vary over time are adjusted.

Según otra realización, el procesador está dispuesto además para personalizar facialmente el avatar generado, en el que la personalización facial del avatar generado puede incluir una disposición visual de distintas caras para su selección. Preferentemente, la disposición visual de las distintas caras incluye, al menos 250 caras distintas. Además, la disposición visual de las distintas caras puede variar en género, edad, etnicidad y tipo de cabello y se pueden disponer una serie de accesorios y de tipos de cabello adicionales para su selección.According to another embodiment, the processor is further arranged to facially generate the generated avatar, in which the facial customization of the generated avatar may include a visual arrangement of different faces for selection. Preferably, the visual arrangement of the different faces includes at least 250 different faces. In addition, the visual arrangement of the different faces can vary in gender, age, ethnicity and hair type and a series of accessories and additional hair types can be arranged for your selection.

Otros aspectos de la presente invención son evidentes a partir de las reivindicaciones adjuntas,Other aspects of the present invention are apparent from the appended claims,

Breve descripción de los dibujosBrief description of the drawings

La presente invención será descrita a continuación únicamente a modo de ejemplo y haciendo referencia a los dibujos adjuntos, en los que:The present invention will be described below only by way of example and with reference to the accompanying drawings, in which:

la figura 1 muestra un conjunto de avatares escogidos por los pacientes;Figure 1 shows a set of avatars chosen by the patients;

la figura 2 muestra la página frontal del selector de caras en línea;Figure 2 shows the front page of the online face selector;

la figura 3 muestra la interfaz de usuario de registro de la voz;Figure 3 shows the voice registration user interface;

la figura 4 muestra la ejecución del sistema en una realización de la presente invención;Figure 4 shows the execution of the system in an embodiment of the present invention;

la figura 5a es un análisis que muestra esquemáticamente la señal hablada;Figure 5a is an analysis that schematically shows the spoken signal;

la figura 5b es una reconstrucción de la señal hablada mostrada de forma esquemática;Figure 5b is a reconstruction of the spoken signal shown schematically;

la figura 6 es un diagrama de bloques que muestra un aparato según una realización de la presente invención; la figura 7 es un diagrama de flujo que muestra un procedimiento según una realización de la presente invención; la figura 8 es un diagrama de flujo que muestra un procedimiento de conversión de la voz según una realización de la presente invención;Figure 6 is a block diagram showing an apparatus according to an embodiment of the present invention; Figure 7 is a flow chart showing a method according to an embodiment of the present invention; Figure 8 is a flow chart showing a voice conversion method according to an embodiment of the present invention;

la figura 9 es un diagrama de flujo que muestra el procedimiento de distorsión espectral según una realización de la presente invención;Figure 9 is a flow chart showing the spectral distortion method according to an embodiment of the present invention;

la figura 10 es un diagrama de flujo que muestra el procedimiento de cambio del tono residual según una realización de la presente invención;Fig. 10 is a flow chart showing the process of changing the residual tone according to an embodiment of the present invention;

la figura 11 es un diagrama de flujo que muestra el procedimiento para generar la función de distorsión espectral según una realización de la presente invención.Figure 11 is a flow chart showing the procedure for generating the spectral distortion function according to an embodiment of the present invention.

Descripción detallada de las realizaciones preferentesDetailed description of the preferred embodiments

ResumenSummary

La presente invención propone un sistema altamente novedoso de tecnología del habla para la ejecución de terapias basadas en CBT para alucinaciones auditivas, denominado “Terapia de avatares”. La base del sistema es una serie de componentes para la creación y el funcionamiento de un avatar individualizado que “habla” en la voz que oye el paciente, y virtualmente se parece a la cara que el paciente percibe. En los casos en que el paciente no percibe claramente una cara, a él o a ella se les solicita que escojan una cara con la que se sientan cómodos al hablar con ella. Las características del avatar se escogen mediante consulta previa con cada paciente utilizando una serie de herramientas informatizadas. En la figura 1, se muestra un conjunto de imágenes de avatares escogidos por los pacientes.The present invention proposes a highly novel system of speech technology for the execution of CBT-based therapies for auditory hallucinations, called "Avatars Therapy." The basis of the system is a series of components for the creation and operation of an individualized avatar that "speaks" in the voice the patient hears, and virtually resembles the face the patient perceives. In cases where the patient does not clearly perceive a face, he or she is asked to choose a face with which they feel comfortable talking to her. The characteristics of the avatar are chosen by prior consultation with each patient using a series of computerized tools In figure 1, a set of images of avatars chosen by the patients is shown.

Durante las sesiones de terapia, el profesional terapéutico y el paciente están sentados frente a la pantalla de un ordenador en habitaciones separadas y se comunican mediante una conexión dual de audio. Las expresiones del avatar son pronunciadas por el profesional terapéutico y las respuestas del paciente al avatar son realimentadas (solamente el audio) de modo que el paciente puede interactuar y cuestionar el avatar. La voz del avatar es producida mediante la modificación del habla del profesional terapéutico en tiempo real, de modo que las palabras del profesional terapéutico son pronunciadas por el avatar en la voz simulada en el ordenador del cliente con sincronización labial. En el mismo canal, el profesional terapéutico puede comunicar asimismo instrucciones o consejos y dar ánimos al paciente en su propia voz, tal como sería el caso en una sesión de terapia normal. Los resultados a pequeña escala de un estudio RCT basado en NIHR están divulgados en [9] y comentados además en [10].During therapy sessions, the therapeutic professional and the patient are seated in front of a computer screen in separate rooms and communicate via a dual audio connection. The expressions of the avatar are pronounced by the therapeutic professional and the patient's responses to the avatar are fed back (audio only) so that the patient can interact and question the avatar. The voice of the avatar is produced by modifying the speech of the therapeutic professional in real time, so that the words of the therapeutic professional are pronounced by the avatar in the simulated voice on the client's computer with lip sync. In the same channel, the therapeutic professional can also communicate instructions or advice and encourage the patient in his own voice, as would be the case in a normal therapy session. The small-scale results of an NIHR-based RCT study are disclosed in [9] and also discussed in [10].

introducciónintroduction

El fenómeno de las alucinaciones auditivas (“oír voces”) es un problema permanente en el tratamiento de enfermedades mentales graves tales como la esquizofrenia. Aproximadamente un 30% de las personas con este diagnóstico continúan experimentando alucinaciones y delirios a pesar del tratamiento con medicación anti-psicótica [1]. Oír voces no solamente es angustioso para los que lo sufren, sino también tiene un serio impacto en sus cuidadores y en el resto de personas con las que entran en contacto. Las alucinaciones auditivas se manifiestan de un cierto número de modos, incluyendo voces que dicen en voz alta lo que el paciente está pensando, voces que expresan un comentario sobre las acciones del paciente o sobre actos externos imaginados, dos o más personas conversando, refiriéndose a menudo al paciente en tercera persona y órdenes que obligan al paciente a realizar ciertas acciones (a menudo violentas). Las voces persistentes limitan severamente la capacidad del paciente para concentrarse en las tareas, y por ello dificultan los intentos de rehabilitación. Los costes directos del tratamiento en el Reino Unido se estiman en 2 billones de libras anualmente, mientras que los costes indirectos, incluyendo la pérdida de empleo de los pacientes y cuidadores ascienden a otros 2 billones de libras [2].The phenomenon of auditory hallucinations ("hearing voices") is a permanent problem in the treatment of serious mental illnesses such as schizophrenia. Approximately 30% of people with this diagnosis continue to experience hallucinations and delusions despite treatment with anti-psychotic medication [1]. Hearing voices is not only distressing for those who suffer from it, but also has a serious impact on their caregivers and other people they come into contact with. Auditory hallucinations manifest themselves in a certain number of ways, including voices that say out loud what the patient is thinking, voices that express a comment about the patient's actions or about imagined external acts, two or more people chatting, referring to often to the patient in the third person and orders that force the patient to perform certain actions (often violent). Persistent voices severely limit the patient's ability to concentrate on tasks, and thus make rehabilitation attempts difficult. The direct costs of treatment in the United Kingdom are estimated at 2 billion pounds annually, while the indirect costs, including the loss of employment of patients and caregivers, amount to another 2 billion pounds [2].

Aproximadamente en los últimos 15 años, se han llevado a cabo en Gran Bretaña un cierto número de pruebas aleatorias controladas (RCT) para evaluar el valor de la terapia del comportamiento cognitivo (CBT) en el caso de síntomas de psicosis persistente resistente a la medicación [3, 4, 5, 6]. Mientras que las pruebas han mostrado algún efecto en la reducción de las alucinaciones auditivas, han sido criticadas en base a su diseño experimental. Una RCT más reciente del CBT, aunque no afecta a la frecuencia o a la intensidad de las alucinaciones auditivas, tuvo éxito en la reducción de la potencia de la voz dominante tal como es percibida por los pacientes, y en su angustia.Approximately in the last 15 years, a number of randomized controlled trials (RCT) have been carried out in Britain to assess the value of cognitive behavioral therapy (CBT) in the case of persistent medication-resistant psychosis symptoms [3, 4, 5, 6]. While the tests have shown some effect in reducing auditory hallucinations, they have been criticized based on their experimental design. A more recent CBT of the CBT, although it does not affect the frequency or intensity of auditory hallucinations, was successful in reducing the power of the dominant voice as perceived by the patients, and in their distress.

[7].[7].

Cuando se les pregunta sobre el peor aspecto de oír voces persecutorias, muchos pacientes explican “el sentimiento de impotencia” a que inducen. Los que son capaces de establecer un diálogo con su voz sienten que la controlan mucho más y en consecuencia su sufrimiento se reduce. Muchas personas que oyen voces visualizan también una cara asociada a la voz. Esta cara puede ser la de alguna persona conocida de ellos, la de una personalidad muy conocida o una figura imaginaria, o quizás representando un ángel, un demonio u otra figura religiosa o mítica. Un medio mediante el cual un paciente podría ser ayudado a tomar el control de su voz es mediante la creación de un avatar virtual que represente a la persona que ellos creen que les habla, y entonces permite que el avatar pase a estar progresivamente bajo el control del paciente. Por lo tanto, la incorporación de la voz dentro del contexto de un avatar es un paso natural a realizar desde un punto de vista clínico.When asked about the worst aspect of hearing persecutory voices, many patients explain "the feeling of helplessness" to which they induce. Those who are able to establish a dialogue with their voice feel that they control it much more and consequently their suffering is reduced. Many people who hear voices also visualize a face associated with the voice. This face may be that of a person known to them, that of a well-known personality or an imaginary figure, or perhaps representing an angel, a demon or other religious or mythical figure. One means by which a patient could be helped to take control of his voice is by creating a virtual avatar that represents the person they think speaks to them, and then allows the avatar to become progressively under control. of the patient. Therefore, the incorporation of the voice within the context of an avatar is a natural step to perform from a clinical point of view.

Las técnicas de realidad virtual (VR) han sido exploradas anteriormente para el modelado de episodios psicóticos implicados en la esquizofrenia. Banks y otros [8] informan de un entorno de VR sofisticado para simular alucinaciones auditivas y visuales y motivar su utilización en la educación médica, pero no han ensayado su sistema en un entorno clínico, ni han intentado individualizar características de las voces.Virtual reality (VR) techniques have been explored previously for modeling psychotic episodes involved in schizophrenia. Banks and others [8] report a sophisticated VR environment to simulate auditory and visual hallucinations and motivate their use in medical education, but they have not tested their system in a clinical setting, nor have they attempted to individualize voice characteristics.

Consideraciones sobre el sistema de diseñoDesign System Considerations

Generación de las expresiones del avatarAvatar expression generation

Un parámetro importante en el diseño de un sistema de diálogo con una voz sintética es el procedimiento de generación de expresiones sintéticas, bien sintetizando directamente el habla con las características deseadas, o bien transformando el habla natural para producir una cualidad diferente de la del locutor original. Dado que el contenido de las expresiones del profesional terapéutico para ser pronunciadas por el avatar no pueden ser conocidas anticipadamente, el sistema estándar de texto-a-habla (TTS) no es utilizable en la presente invención. Teclear el texto durante las sesiones de terapia podría introducir frecuentemente largos retrasos inaceptables, interrumpiendo la fluencia del diálogo. Por consiguiente, para permitir una interacción tan próxima al tiempo real como sea posible, se utiliza un sistema basado en la conversión de la voz en vez de la síntesis del habla.An important parameter in the design of a dialogue system with a synthetic voice is the procedure of generating synthetic expressions, either directly synthesizing speech with the desired characteristics, or transforming natural speech to produce a quality different from that of the original speaker . Since the content of the expressions of the therapeutic professional to be pronounced by the avatar cannot be known in advance, the standard text-to-speech (TTS) system is not usable in the present invention. Typing the text during therapy sessions could frequently introduce long unacceptable delays, interrupting the flow of dialogue. Therefore, to allow an interaction as close to real time as possible, a system based on voice conversion is used instead of speech synthesis.

Los parámetros de diseño del estudio experimental requieren que la voz de interés y la cara sean generados en una sesión inicial de registro con cada paciente, y que no duren más de una hora. Teóricamente, esto sería seguido por la primera de las series de sesiones de terapia, lo que significa que el avatar debe ser obtenido en su forma definitiva durante la sesión de registro. Se reclutaron temas de manera continua durante el estudio y por lo tanto las voces de interés y las voces no estaban disponibles previamente al desarrollo tecnológico.The design parameters of the experimental study require that the voice of interest and the face be generated in a Initial registration session with each patient, and not lasting more than one hour. Theoretically, this would be followed by the first series of therapy sessions, which means that the avatar must be obtained in its final form during the registration session. Topics were recruited continuously during the study and therefore voices of interest and voices were not available prior to technological development.

En aplicaciones convencionales de conversión de la voz en las que el conjunto de locutores de interés es conocido anticipadamente, se aplica un proceso de aprendizaje para producir la asignación, o transformación, desde la fuente a la voz de interés. Esto requiere la disponibilidad para el aprendizaje de datos del habla tanto de la fuente como de los locutores de interés. En el desarrollo de la presente invención el principal problema técnico fue el hecho de que las voces de interés no son conocidas hasta que los pacientes los han registrado y, por supuesto, no se pueden obtener muestras reales en ningún caso. Esto significa que las asignaciones no pueden ser aprendidas individualmente y que, por el contrario, se debe desarrollar un conjunto predeterminado de voces transformadas utilizando la voz del profesional de la terapéutica como fuente. Aunque esto limita el campo de las voces que pueden ser producidas con buena calidad, todavía se puede producir una diversidad de voces diferentes, siempre que se disponga de algunos medios adicionales de sintonización fina de las transformaciones.In conventional voice conversion applications in which the set of speakers of interest is known in advance, a learning process is applied to produce the assignment, or transformation, from the source to the voice of interest. This requires the availability to learn speech data from both the source and the speakers of interest. In the development of the present invention the main technical problem was the fact that the voices of interest are not known until the patients have registered them and, of course, real samples cannot be obtained in any case. This means that assignments cannot be learned individually and that, on the contrary, a predetermined set of transformed voices must be developed using the voice of the therapeutic professional as a source. Although this limits the field of voices that can be produced with good quality, a variety of different voices can still be produced, provided some additional means of fine tuning of the transformations is available.

Componentes del sistema para el registro y la terapiaSystem components for registration and therapy

El sistema comprende una combinación de procedimientos en línea y fuera de línea, e incluye un sistema de conversión de la voz en tiempo real, unos sistemas de personalización de la voz y la cara (registro), un sistema personalizable de animación facial con sincronización de los labios en tiempo real y un canal de audio de dos vías con conmutación entre las voces del profesional de la terapéutica y del avatar.The system comprises a combination of online and offline procedures, and includes a real-time voice conversion system, voice and face personalization systems (registration), a customizable facial animation system with synchronization of real-time lips and a two-way audio channel with switching between the voices of the therapeutic professional and the avatar.

Fuera de línea, o en los procedimientos de registro, el paciente escoge la voz y la cara apropiadas utilizando un conjunto de herramientas basadas en la informática, asistido por un operador formado y supervisado por el profesional terapéutico. Se debe tener en cuenta que algunas de estas herramientas son productos disponibles comercialmente o juegos de herramientas de software que han sido personalizados para adecuarse a las necesidades de la presente invención.Offline, or in registration procedures, the patient chooses the appropriate voice and face using a set of computer-based tools, assisted by an operator trained and supervised by the therapeutic professional. It should be noted that some of these tools are commercially available products or software toolkits that have been customized to meet the needs of the present invention.

Sistema de conversión de la voz en tiempo realReal-time voice conversion system

Procesamiento de la predicción lineal del hablaLinear speech prediction processing

Las señales habladas son producidas por medio de señales de excitación producidas en la garganta que son modificadas dependiendo de la forma del tracto vocal. Con el objeto de analizar y sintetizar el habla, las señales de habla deben ser descompuestas en sus componentes separados y deben ser consideradas independientemente. Un modo de conseguir esto es el procesamiento de predicción lineal del habla [19, 20] en el que la señal de habla es modelada como una suma ponderada de p muestras previas de habla, más una forma de la onda residual de excitación que puede ser denominada asimismo como un error de predicción. La señal del habla puede ser expresada como:The spoken signals are produced by means of excitation signals produced in the throat that are modified depending on the shape of the vocal tract. In order to analyze and synthesize speech, speech signals must be broken down into their separate components and must be considered independently. One way to achieve this is the linear speech prediction processing [19, 20] in which the speech signal is modeled as a weighted sum of p previous speech samples, plus a residual excitation waveform that can be also referred to as a prediction error. The speech signal can be expressed as:

y a k y jn - k ) Cuando x(n) es la señal de habla, e(rí) es el error de predicción, akson los coeficientes de predicción y k —\

yaky jn - k) When x (n) is the speech signal, e (rí) is the prediction error, akson the prediction coefficients and k - \

es la suma ponderada de las p muestras previas del habla.It is the weighted sum of the previous speech samples.

En consecuencia, en el caso de una señal de habla determinada, se aplica una función de transferencia que descompone la señal de habla en los dos componentes, tal como se muestra por medio de la figura 5a, en la que la función de transferencia está expresada como:Consequently, in the case of a particular speech signal, a transfer function is applied that breaks down the speech signal into the two components, as shown by means of Figure 5a, in which the transfer function is expressed how:

A la inversa, para un error de predicción dado se puede aplicar la inversa de la función de transferencia que permite que la señal de habla sea reconstruida, tal como se muestra por medio de la figura 5b. Es decir, es posible modelar la señal de excitación que conduce a la señal de habla.Conversely, for a given prediction error, the inverse of the transfer function can be applied which allows the speech signal to be reconstructed, as shown by means of Figure 5b. That is, it is possible to model the excitation signal that leads to the speech signal.

La señal de habla es muestreada en secciones cortas de ventanas, y con el fin de descomponer o reconstruir la señal de habla, se deben calcular los coeficientes de predicción ak para la función de transferencia, de tal modo que minimicen la media cuadrática del error de predicción e(n). El error de predicción del modelo de predicción lineal es esencialmente la diferencia entre la señal de habla real y la señal de habla predicha, y el valor de su media cuadrática es indicativo de la energía en la onda de forma de excitación residual. Dos técnicas corrientes de minimización del error de predicción de la media cuadrática y del cálculo de los coeficientes de predicción incluyen el procedimiento de covariancia y el procedimiento de autocorrelación. Ambas técnicas tienen como resultado una matriz de ecuaciones que pueden ser resueltas por medio de un algoritmo universal. Una vez que estos coeficientes de predicción han sido calculados es posible descomponer la señal de habla, manipular los componentes de la señal de habla y a continuación reconstruir la señal de habla.The speech signal is sampled in short sections of windows, and in order to decompose or reconstruct the speech signal, the prediction coefficients ak for the transfer function must be calculated, so as to minimize the quadratic mean of the error of prediction e (n). The prediction error of the linear prediction model is essentially the difference between the real speech signal and the predicted speech signal, and the value of its quadratic mean is indicative of the energy in the residual excitation waveform. Two current techniques for minimizing the prediction error of the quadratic mean and the calculation of the prediction coefficients include the Covariance procedure and autocorrelation procedure. Both techniques result in an array of equations that can be solved by means of a universal algorithm. Once these prediction coefficients have been calculated, it is possible to decompose the speech signal, manipulate the speech signal components and then reconstruct the speech signal.

Adicionalmente, la respuesta de la frecuencia del modelo de predicción lineal corresponde a la envoltura espectral de la señal de habla y está libre de armónicos de tono. Es la envoltura espectral la que proporciona las características del tracto vocal. La forma de la envoltura espectral depende del número de parámetros que son utilizados en el modelo de predicción lineal, esto es, el número de p muestras previas utilizadas para modelar la señal de habla. A medida que p aumenta, más armónicos de tono son capturados. Por consiguiente, si se escoge que p sea muy elevado, los picos espectrales capturan estos armónicos del tono. Sin embargo, si se escoge un p que sea demasiado bajo, las zonas clave de resonancia estarán ausentes del espectro. Como norma general, p debe ser escogido como el doble del número de resonancias del tracto vocal (conformadores) en el ancho de banda de la señal. Asimismo, se debe tener en cuenta que el número de parámetros (p) de predicción lineal no tiene efecto apreciable en el error de la media cuadrática del modelo de predicción lineal.Additionally, the frequency response of the linear prediction model corresponds to the spectral envelope of the speech signal and is free of tone harmonics. It is the spectral envelope that provides the characteristics of the vocal tract. The shape of the spectral envelope depends on the number of parameters that are used in the linear prediction model, that is, the number of p previous samples used to model the speech signal. As p increases, more tone harmonics are captured. Therefore, if it is chosen that p is very high, the spectral peaks capture these harmonics of the tone. However, if a p that is too low is chosen, the key resonance zones will be absent from the spectrum. As a general rule, p should be chosen as double the number of resonances of the vocal tract (shapers) in the signal bandwidth. Also, it should be taken into account that the number of linear prediction parameters (p) has no appreciable effect on the error of the quadratic mean of the linear prediction model.

TecnologíaTechnology

La tecnología de conversión de la voz se basa en líneas generales en el planteamiento descrito por Stylianou [11]. En este planteamiento, tal como se muestra en la figura 8, el habla se descompone en dos elementos: un filtro que varía con el tiempo y una onda de forma de la excitación residual (etapa 81). Las transformaciones espectrales del filtro combinadas con la modificación del tono (etapa 82) del residuo permiten la síntesis (etapa 83) de versiones de una pronunciación en las que las características del locutor parecen haber cambiado.Voice conversion technology is broadly based on the approach described by Stylianou [11]. In this approach, as shown in Figure 8, speech is broken down into two elements: a filter that varies with time and a waveform of residual excitation (step 81). The spectral transformations of the filter combined with the modification of the tone (step 82) of the residue allow the synthesis (step 83) of versions of a pronunciation in which the characteristics of the speaker appear to have changed.

La descomposición del habla es llevada a cabo por medio de la predicción lineal, tal como se ha descrito anteriormente, siendo estimado el filtro de predicción en secciones cortas de ventanas de la señal de una duración de 30 ms y una superposición de 10 ms. En otras realizaciones, se pueden utilizar otras longitudes de ventana y de superposición. A continuación se calcula el error de predicción del filtro por separado para cada ventana y luego son superpuestos y sumados para crear la forma de onda residual de excitación. Para hacer que los coeficientes de predicción sean más susceptibles a la asignación espectral, los coeficientes de predicción son transformadas de Fourier en un multipunto, por ejemplo, 256 puntos de amplitud de respuesta. Esta transformación es simplemente una comodidad matemática, permitiendo que la respuesta del filtro sea ajustada por medio de una función de distorsión espectral para la transformación de las características de la voz. En el caso de la síntesis, el espectro distorsionado es convertido de nuevo en coeficientes de predicción. Con una distorsión espectral uniforme, la conversión desde y hacia la respuesta de amplitud no introduce ninguna distorsión apreciable de la señal.The speech decomposition is carried out by means of linear prediction, as described above, the prediction filter being estimated in short sections of windows of the signal with a duration of 30 ms and an overlap of 10 ms. In other embodiments, other window and overlay lengths can be used. Next, the prediction error of the filter is calculated separately for each window and then they are superimposed and added to create the residual excitation waveform. To make prediction coefficients more susceptible to spectral assignment, prediction coefficients are transformed from Fourier into a multipoint, for example, 256 points of amplitude of response. This transformation is simply a mathematical comfort, allowing the response of the filter to be adjusted by means of a spectral distortion function for the transformation of the characteristics of the voice. In the case of synthesis, the distorted spectrum is converted back into prediction coefficients. With uniform spectral distortion, conversion to and from the amplitude response does not introduce any appreciable distortion of the signal.

La manipulación espectral de la respuesta del filtro es llevada a cabo por medio de un conjunto de transformaciones lineales (etapa 82). En este trabajo, un conjunto de 8 transformaciones es utilizado para cada voz de interés, cuyas formas exactas se hallan durante el procedimiento de formación y de personalización descrito más adelante. Para seleccionar cómo se utilizan las transformaciones para un alargamiento dado de la señal de habla, la envoltura de la señal espectral para el locutor fuente se modela utilizando un modelo gaussiano de mezclado (Gaussian Mixture Model, (GMM)) de 8 mezclas. El comportamiento puede ser mejorado con 64 mezclas [11, 12] pero como el sistema de conversión de la voz de la presente invención está diseñado para un funcionamiento con flexibilidad y en tiempo real, sin ningún concepto de “precisión” que recree una voz específica, 8 mezclas constituyen el mejor compromiso entre la calidad requerida y una carga de cálculo mínima. Cada mezcla es asociada a continuación con una transformación lineal y la transformación final aplicada al filtro se halla a partir de la suma de transformaciones ponderadas según la probabilidad de la mezcla para la correspondiente envoltura de la fuente de la señal de habla. Ver [11] para una descripción matemática.Spectral manipulation of the filter response is carried out by means of a set of linear transformations (step 82). In this work, a set of 8 transformations is used for each voice of interest, whose exact forms are found during the training and customization procedure described below. To select how the transformations are used for a given elongation of the speech signal, the spectral signal envelope for the source speaker is modeled using a Gaussian Mixture Model (GMM) of 8 mixtures. The behavior can be improved with 64 mixes [11, 12] but since the voice conversion system of the present invention is designed for operation with flexibility and in real time, without any concept of “precision” that recreates a specific voice , 8 mixtures constitute the best compromise between the required quality and a minimum calculation load. Each mixture is then associated with a linear transformation and the final transformation applied to the filter is based on the sum of transformations weighted according to the probability of the mixture for the corresponding envelope of the speech signal source. See [11] for a mathematical description.

En el caso de un escalado del tono, la señal residual del locutor fuente, es muestreada de nuevo en primer lugar para cambiar la frecuencia fundamental por medio de un factor constante. Para corregir el cambio en la duración producido por el nuevo muestreo, el residuo es comprimido o alargado a continuación en el tiempo para restaurar la duración original utilizando una Waveform-Similarity Overlap-Add (WSOLA) (Adición-superposición por similitud de formas de onda) (ver [13]).In the case of a tone scaling, the residual signal of the source announcer is first sampled again to change the fundamental frequency by means of a constant factor. To correct the change in duration produced by the new sampling, the residue is then compressed or lengthened in time to restore the original duration using a Waveform-Similarity Overlap-Add (WSOLA) (Addition-overlap by similarity of waveforms ) (see [13]).

Las figuras 9 a 11 muestran, a modo de ejemplo, procedimientos para la distorsión espectral, el cambio residual de tono y la generación de la función de distorsión espectral que deben ser utilizados en la conversión de la voz. La conversión de la voz empieza con el muestreo de la señal fuente del habla en secciones de la señal de 30 ms, (9-11a), superpuestas en 10 ms. Estas secciones de la señal son dispuestas a continuación en ventanas utilizando la función de ventana de Hamming (9-11 b) con el fin de determinar todos los valores fuera de 0 < n < N, a cero. A partir de esta señal de ventana, se puede realizar el procedimiento de distorsión espectral mostrado en la figura 9, y el procedimiento de cambio de tono mostrado en la figura 10. Los coeficientes del filtro de predicción de la señal de la ventana se calculan por medio del procedimiento de autocorrelación para hallar en primer lugar un conjunto de coeficientes de autocorrelación (9-10c), y del procedimiento recurrente de Levinson-Durbin para encontrar a continuación los coeficientes de predicción (9-10d). Una vez han sido hallados, los coeficientes de predicción son transformados mediante Fourier para obtener la amplitud de respuesta (9e), y dicha amplitud de respuesta puede ser distorsionada a continuación utilizando una función espectral de distorsión (9f) calculada para dicha señal de ventana.Figures 9 to 11 show, by way of example, procedures for spectral distortion, residual pitch change and the generation of the spectral distortion function that should be used in voice conversion. The voice conversion begins with the sampling of the speech source signal in sections of the 30 ms signal (9-11a), superimposed on 10 ms. These sections of the signal are then arranged in windows using the Hamming window function (9-11 b) in order to determine all values outside 0 <n <N, to zero. From this window signal, the spectral distortion procedure shown in Figure 9 can be performed, and the tone change procedure shown in Figure 10. The coefficients of the window signal prediction filter are calculated by means of the autocorrelation procedure to first find a set of autocorrelation coefficients (9-10c), and the recurring Levinson-Durbin procedure to find the prediction coefficients (9-10d) below. Once they have been found, the prediction coefficients are transformed by Fourier to obtain the amplitude of response (9e), and said amplitude of response can be distorted then using a spectral distortion function (9f) calculated for said window signal.

Para obtener la función espectral de distorsión, tal como se muestra mediante la figura 11, se calculan los coeficientes cepstrales escalados Mel (MFCC) (11c) para la señal de ventana. Adicionalmente, el espectro envuelto para la señal de ventana es modelado mediante un modelo gaussiano de mezclado (Gaussian Mixture Model, (GMM)) de 8 mezclas y se hallan las probabilidades de que los datos MFCC pudieran haber sido generados por medio de cada mezcla de los GMM (11 d). Cada mezcla está asociada con una transformación lineal (correspondiente a las voces de interés) y la suma de estas transformaciones lineales ponderadas mediante las probabilidades anteriores proporciona la función espectral de distorsión a aplicar a la respuesta de la amplitud (11 e). Una vez que la función de distorsión espectral ha sido aplicada a la respuesta de la amplitud, la respuesta de la amplitud resultante distorsionada es una transformada inversa de Fourier para obtener el correspondiente conjunto de coeficientes de autocorrelación (9g). A continuación, utilizando el procedimiento recurrente de Levinson-Durbin, los coeficientes de correlación son utilizados para obtener un conjunto de coeficientes de predicción distorsionados (9h).To obtain the spectral distortion function, as shown by Figure 11, the Melted Scale Cepstral Coefficients (MFCC) (11c) are calculated for the window signal. Additionally, the spectrum involved for the window signal is modeled using a Gaussian mixing model (Gaussian Mixture Model, (GMM)) of 8 mixtures and the probabilities that the MFCC data could have been generated by means of each mixture of the GMM (11 d). Each mixture is associated with a linear transformation (corresponding to the voices of interest) and the sum of these linear transformations weighted by the above probabilities provides the spectral distortion function to be applied to the amplitude response (11 e). Once the spectral distortion function has been applied to the amplitude response, the distorted resulting amplitude response is an inverse Fourier transform to obtain the corresponding set of autocorrelation coefficients (9g). Next, using the recurring Levinson-Durbin procedure, the correlation coefficients are used to obtain a set of distorted prediction coefficients (9h).

La segunda etapa de conversión de la voz es la modificación del tono de la señal de habla. Los coeficientes de predicción de cada señal de ventana, tal como se ha descrito anteriormente, son utilizados para calcular el error de predicción de las señales de ventana, y a continuación los errores de predicción son superpuestos y sumados para obtener la señal residual de la señal de habla (10e). Esta señal residual es muestreada de nuevo mediante un factor de 4, (10f), de tal modo que aumenta la velocidad de muestreo y la señal muestreada, es muestreada otra vez para obtener el cambio de tono de la señal residual (10g). La señal residual con el tono cambiado es superpuesta y añadida a continuación a un acumulador histórico de señales de ventana de 3 x 30 ms, (10h), superpuestas en 10 ms. Con el objeto de restaurar la señal cambiada de tono a la duración original de la señal residual, se utiliza la adición-superposición por similitud de formas de onda para modificar la escala de tiempo sin afectar al tono, (10i). Finalmente, el residuo cambiado de tono es muestreado, reduciéndolo a continuación mediante un factor de 4, (10j). Los coeficientes de predicción distorsionados y la señal residual con cambio de tono pueden ser utilizados para sintetizar la señal de salida (9i) que se refiere a la voz de interés.The second stage of voice conversion is the modification of the tone of the speech signal. The prediction coefficients of each window signal, as described above, are used to calculate the prediction error of the window signals, and then the prediction errors are superimposed and added to obtain the residual signal of the signal from Speak (10e). This residual signal is sampled again by a factor of 4, (10f), so that it increases the sampling rate and the sampled signal is sampled again to obtain the change of tone of the residual signal (10g). The residual signal with the changed tone is superimposed and then added to a historical accumulator of window signals of 3 x 30 ms, (10h), superimposed on 10 ms. In order to restore the changed tone signal to the original duration of the residual signal, the addition-superposition by similarity of waveforms is used to modify the time scale without affecting the tone, (10i). Finally, the residue changed in tone is sampled, then reducing it by a factor of 4, (10j). The distorted prediction coefficients and the residual signal with pitch change can be used to synthesize the output signal (9i) that refers to the voice of interest.

FormaciónTraining

La entrada al proceso de personalización de la voz la constituye un gran número de transformaciones de la voz formada, generadas entre el único locutor fuente (el profesional terapéutico) y un cierto número de locutores formados. En el caso de la presente invención, se tomaron 55 locutores del cuerpo de acentos del inglés británico [14], y se tomaron 27 locutores del cuerpo UCL de locutores de variabilidad [15]. En total, fueron utilizados 40 locutores masculinos y 42 locutores femeninos de interés y en cada caso, se obtuvo una selección de 20 frases pronunciadas por cada locutor y un conjunto coincidente de 20 frases pronunciadas por el locutor fuente.The entrance to the voice personalization process is a large number of transformations of the voice formed, generated between the only source speaker (the therapeutic professional) and a certain number of speakers trained. In the case of the present invention, 55 speakers of the body of British English accents were taken [14], and 27 speakers of the UCL body of speakers of variability were taken [15]. In total, 40 male broadcasters and 42 female broadcasters of interest were used and in each case, a selection of 20 phrases pronounced by each speaker and a matching set of 20 sentences pronounced by the source speaker was obtained.

Los materiales hablados por el locutor fuente fueron utilizados para construir una mezcla de 8 GMM en base a las características MFCC de la señal [16]. Esta GMM fue utilizada a continuación para formar la totalidad de los 82 conjuntos de transformaciones lineales utilizando el procedimiento de Stylianou. Esto, en primer lugar, implicaba, en el caso del locutor fuente y de cada locutor de interés, una alineación temporal entre cada par de frases coincidentes. Los vectores MFCC para esta alineación fueron utilizados en combinación con un algoritmo de programación dinámica. A continuación, para cada par coincidente de secciones de señal, se calcularon los coeficientes de predicción y el espectro LPC y se halló la frecuencia óptima de asignación para dicho par de estructuras utilizando un algoritmo de programación dinámica. Obtenidas todas las asignaciones para todas las estructuras emparejadas en todas las frases, junto con el conjunto de probabilidades de mezcla GMM para cada estructura fuente, es posible hallar el conjunto de la media de 8 transformaciones que minimizan la media cuadrática del error de transformación. Adicionalmente, se midió la frecuencia media fundamental de cada locutor y del locutor fuente. De este modo, para cada locutor de interés, el procedimiento de formación genera un conjunto de 8 transformaciones lineales de frecuencia y un factor de escalado del tono, que tomados conjuntamente constituyen el mejor intento de obtener la morfología de las características de la voz del locutor fuente en el locutor de interés (etapa 83).The materials spoken by the source announcer were used to construct a mixture of 8 GMM based on the MFCC characteristics of the signal [16]. This GMM was then used to form all of the 82 sets of linear transformations using the Stylianou procedure. This, in the first place, implied, in the case of the source speaker and each speaker of interest, a temporal alignment between each pair of matching phrases. The MFCC vectors for this alignment were used in combination with a dynamic programming algorithm. Next, for each matching pair of signal sections, the prediction coefficients and the LPC spectrum were calculated and the optimal frequency of assignment for said pair of structures was found using a dynamic programming algorithm. Having obtained all the assignments for all the structures matched in all the sentences, together with the set of GMM mixing probabilities for each source structure, it is possible to find the average set of 8 transformations that minimize the quadratic mean of the transformation error. Additionally, the fundamental average frequency of each speaker and the source speaker was measured. Thus, for each speaker of interest, the training procedure generates a set of 8 linear frequency transformations and a pitch scaling factor, which taken together constitute the best attempt to obtain the morphology of the characteristics of the speaker's voice source in the speaker of interest (step 83).

Procedimientos de registroRegistration Procedures

Selección y personalización de las carasSelection and customization of faces

El procedimiento de selección de caras se basa en el software FaceGen© Modeller (modelador para la generación de caras) desarrollado por la firma Singular Inversions, tal como se muestra en la figura 2. Este programa permite la creación de una gama virtualmente infinita de caras en tres dimensiones y guardarlas en diversos formatos de archivo. Como punto inicial de la selección se creó una disposición virtual o “paleta” de unas 250 caras distintas abarcando un amplio margen de características. Las caras se escogieron para cubrir una amplia variedad de tipos de cara que varían en género, edad y grupo étnico así como de diversos tipos corrientes de cabello. The face selection procedure is based on the FaceGen © Modeller software (face generation modeler) developed by the Singular Inversions firm, as shown in Figure 2. This program allows the creation of a virtually infinite range of faces in three dimensions and save them in various file formats. As a starting point of the selection, a virtual layout or “palette” of about 250 different faces was created covering a wide range of features. The faces were chosen to cover a wide variety of face types that vary in gender, age and ethnicity as well as various current types of hair.

Está disponible un limitado número de tipos de cabello y de accesorios. Cada uno de estos archivos fue guardado tanto como un archivo de modelos FaceGen como un archivo de imágenes JPEG. Los archivos de imágenes fueron compilados en páginas web que se conectaron entre sí para formar un sitio web para seleccionar la paleta inicial de caras.A limited number of hair types and accessories are available. Each of these files was saved as both a FaceGen model file and a JPEG image file. Image files were compiled on web pages that connected to each other to form a website to select the initial palette of faces.

Cada una de las imágenes del sitio de selección de imágenes tiene asociado un archivo de modelos FaceGen, almacenado en una estructura de directorio en paralelo. Una vez que el cliente ha escogido una cara inicial adecuada, el correspondiente archivo de modelos de caras es localizado fácilmente para una futura mejora en el FaceGen de acuerdo con los deseos del cliente. La imagen de la cara resultante es exportada como un conjunto de objetivos de animación en el formato de gráficos .OBJ 3D. Estos consisten esencialmente en un conjunto de archivos de imágenes y texturas para el conjunto preseleccionado de “visemas” que son utilizados en el sistema de animación facial descrito más adelante.Each of the images in the image selection site has an associated FaceGen model file, stored in a parallel directory structure. Once the client has chosen a suitable initial face, the corresponding face model file is easily located for future improvement in the FaceGen according to the client's wishes. The image of the resulting face is exported as a set of animation targets in the .OBJ 3D graphics format. These consist essentially of a set of image and texture files for the preselected set of “visemas” that are used in the facial animation system described below.

Registro de la vozVoice record

En el estudio piloto, la personalización de la voz fue realizada en dos etapas. No obstante, el proceso de la presente invención está integrado en una única aplicación. En primer lugar, una muestra de unas transformaciones de 20 voces para el género apropiado es escogida del conjunto de formación y se le pide al cliente que escoja cuál de estas voces tiene las características de locución más próximas a la voz requerida. En la pantalla de selección cada burbuja de habla representa una voz diferente y cuando es pinchada interpreta un archivo audio con sincronización de los labios en la voz que representa, tal como se muestra en la figura 3.In the pilot study, voice customization was performed in two stages. However, the process of the present invention is integrated into a single application. First, a sample of 20-voice transformations for the appropriate genre is chosen from the training set and the client is asked to choose which of these voices has the locution characteristics closest to the required voice. On the selection screen each speech bubble represents a different voice and when it is punctured it interprets an audio file with synchronization of the lips in the voice it represents, as shown in Figure 3.

En una segunda etapa, el cliente manipula el conjunto de la transformación escogida utilizando un reducido conjunto de controles deslizantes que alteran el factor de escalado del tono y los coeficientes de transformación que pueden ser integrados en la pantalla de la figura 3. Para permitir la manipulación de las transformaciones utilizando un reducido número de controles deslizantes, se realiza un análisis de los componentes principales en las 82 transformaciones estimadas durante la formación. Esto reduce el vector de transformación escogido a un vector de transformación medio más un cierto número de vectores ortogonales de cambio. Cada control deslizante manipula la cantidad en la que cada vector de cambio es añadido al vector medio, y un control deslizante distinto manipula el factor de escalado del tono. La interfaz de usuario está diseñada para permitir que el cliente experimente con múltiples variantes de la voz escogida y conserve copias de alternativas prometedoras, de tal manera que al final del proceso se pueda guardar la mejor transformación posible.In a second stage, the client manipulates the whole of the chosen transformation using a small set of sliders that alter the pitch scaling factor and the transformation coefficients that can be integrated in the screen of figure 3. To allow manipulation of the transformations using a small number of sliders, an analysis of the main components in the 82 transformations estimated during the formation is carried out. This reduces the transformation vector chosen to a medium transformation vector plus a certain number of orthogonal change vectors. Each slider manipulates the amount by which each change vector is added to the middle vector, and a different slider manipulates the pitch scaling factor. The user interface is designed to allow the client to experiment with multiple variants of the chosen voice and keep copies of promising alternatives, so that at the end of the process the best possible transformation can be saved.

Temas de rendimientoPerformance issues

Durante la fase de desarrollo de la presente invención, se ensayaron los procedimientos de selección de voz y de cara con tres oyentes de la voz que no tomaron parte en el estudio posterior. Estos oyentes informaron de una precisión de similitud de aproximadamente el 60 - 70% con respecto a la cara objetivo. Una cifra similar se obtuvo con los pacientes que tomaron parte en el estudio. Sin embargo, en unos pocos casos, el efecto fue más espectacular. Un pequeño número de pacientes, cuando se les mostró el avatar por primera vez, encontraron que el realismo era tan grande que fueron incapaces de verlo durante mucho tiempo.During the development phase of the present invention, voice and face selection procedures were tested with three voice listeners who did not take part in the subsequent study. These listeners reported a similarity accuracy of approximately 60-70% with respect to the target face. A similar figure was obtained with the patients who took part in the study. However, in a few cases, the effect was more spectacular. A small number of patients, when they were shown the avatar for the first time, found that the realism was so great that they were unable to see it for a long time.

Dadas las limitaciones técnicas y el requisito de que todas las voces puedan ser derivadas de una fuente única (un locutor masculino de unos 70 años y con voz de bajo), resultó difícil en algunas ocasiones hacer coincidir la voz exactamente. De una manera no sorprendente, la mayor dificultad surgió al hacer encajar voces femeninas. En general, los pacientes informaron de que la precisión de la coincidencia estaba dentro de un margen de 60 - 90%. La duración del proceso depende de factores tales como la capacidad de comunicación del cliente, el nivel de detalle deseado y el grado de personalización requerido. Habitualmente se tarda unos 20 minutos, raramente menos de 15 o más de 30 minutos.Given the technical limitations and the requirement that all voices can be derived from a single source (a male speaker in his 70s and with a low voice), it was sometimes difficult to match the voice exactly. Not surprisingly, the greatest difficulty arose in making female voices fit together. In general, patients reported that the accuracy of the match was within a range of 60-90%. The duration of the process depends on factors such as the client's ability to communicate, the level of detail desired and the degree of customization required. It usually takes about 20 minutes, rarely less than 15 or more than 30 minutes.

Sistema de ejecuciónExecution system

La ejecución en tiempo real de la voz convertida se realiza utilizando un software personalizado que funciona en dos ordenadores personales conectados en red: un proceso “servidor” que funciona en el lado médico y un proceso “cliente” que funciona en el lado del paciente. En la figura 4 se muestra una ilustración esquemática de la disposición experimental.The real-time execution of the converted voice is carried out using personalized software that works on two personal computers connected to the network: a “server” process that works on the medical side and a “client” process that works on the patient side. A schematic illustration of the experimental arrangement is shown in Figure 4.

El proceso servidor captura el audio del micrófono del profesional terapéutico y realiza la totalidad del procesamiento de la señal y de la conversión del habla. El habla emitida es transferida a continuación mediante la red al ordenador del cliente. El proceso del cliente interpreta de nuevo el habla convertida, y captura el habla del paciente, cargándola en el ordenador del profesional terapéutico. El profesional terapéutico utiliza dos botones de “pulsar para hablar” que controlan si se emite al cliente su voz natural o la voz convertida. El profesional terapéutico escucha con los auriculares, de modo que las respuestas del cliente no son realimentadas a través del micrófono del profesional terapéutico. De manera similar, el micrófono del cliente queda silenciado mientras se está enviando el audio desde el servidor, y también para evitar la realimentación a través del sistema. Esto tiene un efecto limitado pero aceptable en el diálogo.The server process captures the audio from the therapeutic professional's microphone and performs the entire signal processing and speech conversion. The broadcast speech is then transferred via the network to the client's computer. The client process interprets the converted speech again, and captures the patient's speech, loading it into the therapeutic professional's computer. The therapeutic professional uses two “push-to-talk” buttons that control whether the natural voice or the converted voice is issued to the client. The therapeutic professional listens with the headphones, so that the client's responses are not fed back through the microphone of the therapeutic professional. Similarly, the client's microphone is muted while the audio is being sent from the server, and also to avoid feedback through the system. This has a limited but acceptable effect. in the dialogue

Es decisivo crear la separación entre el profesional terapéutico y el avatar para asegurar que solamente las expresiones del avatar pasan a través de la cabeza parlante. Dado que ambas señales son conducidas por el mismo canal, esto se consigue por medio de la captura del habla en estéreo en el lado del servidor (profesional terapéutico) y pasando el audio sin procesar y el convertido a través de los canales izquierdo y derecho respectivamente. Solamente el canal derecho pasa al dispositivo de reconocimiento y al motor de sincronización de los labios en la animación del cliente, con lo que se consigue el efecto deseado.It is decisive to create the separation between the therapeutic professional and the avatar to ensure that only the expressions of the avatar pass through the talking head. Since both signals are conducted on the same channel, this is achieved through the capture of speech in stereo on the server side (therapeutic professional) and by passing the raw audio and converting through the left and right channels respectively . Only the right channel passes to the recognition device and the lip sync engine in the client animation, thereby achieving the desired effect.

Finalmente, el lado del cliente está equipado con un pulsador contra el pánico que desconecta el avatar inmediatamente cuando es oprimido, presenta una imagen de un paisaje y hace sonar música tranquilizante. En el estudio, pocos clientes encontraron necesario utilizar este dispositivo pero su sola presencia demostró ser de ayuda para aliviar la ansiedad de algunos clientes.Finally, the client side is equipped with a panic button that disconnects the avatar immediately when pressed, presents an image of a landscape and sounds soothing music. In the study, few clients found it necessary to use this device but their presence alone proved to help relieve some clients' anxiety.

Comentarios adicionalesAdditional comments

Se han conseguido los puntos fuertes del sistema de audio, que son la personalización de la voz y la ejecución en tiempo real de una voz personalizada. Cuando la voz de interés es masculina y la transformación no es demasiado grande, la calidad de la transformación es buena y relativamente sin distorsión. El principal punto débil es que la gama de voces de buena calidad disponibles es algo limitada, y cuando las transformaciones requeridas son demasiado grandes, se produce asimismo una pérdida de calidad. Las voces femeninas generadas a partir de la voz de un profesional terapéutico masculino pueden sonar algo distorsionadas y poco convincentes para algunos pacientes.The strengths of the audio system have been achieved, which are the personalization of the voice and the real-time execution of a personalized voice. When the voice of interest is masculine and the transformation is not too great, the quality of the transformation is good and relatively undistorted. The main weak point is that the range of good quality voices available is somewhat limited, and when the required transformations are too large, there is also a loss of quality. Female voices generated from the voice of a male therapeutic professional may sound somewhat distorted and unconvincing to some patients.

Además, debido a que todo el procesamiento del audio es realizado utilizando tarjetas de sonido y controladores de sonido estándar, el sistema de procesamiento introduce unos 50 ms de retraso en el diálogo. Adicionalmente, los retrasos variables introducidos por la conexión de la red pueden ocasionar problemas más graves que interfieren en la conducción de la sesión. Por este motivo, el sistema debe ser implementado de nuevo para trabajar con una conexión de audio directa, con el procesamiento del audio reestructurado para utilizar la plataforma de audio “Windows core” con el resultado de unas latencias mucho menores.In addition, because all audio processing is performed using sound cards and standard sound drivers, the processing system introduces about 50 ms of delay in the dialogue. Additionally, the variable delays introduced by the network connection can cause more serious problems that interfere with the conduct of the session. For this reason, the system must be redeployed to work with a direct audio connection, with restructured audio processing to use the “Windows core” audio platform with the result of much lower latencies.

Se debe tener en cuenta que el término “conversión de la voz en tiempo real” debe ser interpretado como que significa que la conversión de la voz es llevada a cabo en vivo, de tal modo que se puede intercambiar un diálogo entre dos individuos, por ejemplo, un profesional terapéutico y un paciente para el tratamiento de alucinaciones auditivas. Debe quedar claro al experto que cualquier retraso añadido por el sistema de procesamiento es aceptable siempre que no tenga un efecto apreciable en el flujo de la conversación entre los dos individuos. Tal como se ha mencionado anteriormente, un retraso aceptable puede ser un retraso de unos 50 ms o, a modo de ejemplo, un retraso comprendido dentro de un margen de 20 ms a 250 ms.It should be borne in mind that the term "real-time voice conversion" should be interpreted as meaning that the voice conversion is carried out live, so that a dialogue can be exchanged between two individuals, for For example, a therapeutic professional and a patient for the treatment of auditory hallucinations. It should be clear to the expert that any delay added by the processing system is acceptable as long as it does not have an appreciable effect on the flow of the conversation between the two individuals. As mentioned above, an acceptable delay can be a delay of about 50 ms or, for example, a delay within a range of 20 ms to 250 ms.

Plataforma de animación facial - ImplementaciónFace animation platform - Implementation

La plataforma de animación está basada en la sincronización de labios en tiempo real SDK de la firma Annosoft LLC [17]. Habitualmente utilizada para la animación en 3D de personajes que hablan en videojuegos o en películas, este conjunto de herramientas permite que personajes en 3D diseñados en otras aplicaciones puedan ser importados en una diversidad de formatos y convertidos con un dispositivo de reconocimiento fonético del habla en tiempo real que produce movimientos de los labios. El sistema puede funcionar tanto con entradas directas de audio como con conversaciones grabadas previamente. La información sobre los personajes y los objetivos de la animación es cargada desde un simple archivo de configuración de texto conectado a un conjunto de archivos gráficos, y puede ser compilada antes en formato binario para una carga y una visualización más rápidas. En la presente invención se puede utilizar un conjunto de 12 “visemas” (ver, por ejemplo, [18]), incluyendo uno para el silencio. Se ha hallado que este es el mejor compromiso entre la precisión de los movimientos de la boca y la uniformidad y la velocidad de la respuesta. El archivo de configuración para cada personaje simplemente especifica qué objetivo de animación del modelo 3D debe ser utilizado para cada “visema” y qué transformación de audio debe ser utilizada. La creación de los archivos de configuración está incorporada en los programas de registro basados en una lista predeterminada de asignación de fonemas y de “visemas”.The animation platform is based on real-time lip sync SDK from Annosoft LLC [17]. Usually used for 3D animation of characters who speak in video games or movies, this set of tools allows 3D characters designed in other applications to be imported in a variety of formats and converted with a time-phonetic phonetic recognition device. real that produces movements of the lips. The system can work with both direct audio inputs and previously recorded conversations. Information about the characters and objectives of the animation is loaded from a simple text configuration file connected to a set of graphic files, and can be compiled beforehand in binary format for faster loading and viewing. In the present invention a set of 12 "visemes" (see, for example, [18]), including one for silence, can be used. It has been found that this is the best compromise between the precision of mouth movements and uniformity and the speed of response. The configuration file for each character simply specifies which 3D model animation target should be used for each “visema” and what audio transformation should be used. The creation of the configuration files is incorporated into the registry programs based on a predetermined list of phoneme assignments and “visemas”.

La estimación de las formas de los labios mejora si el dispositivo de reconocimiento tiene acceso a fragmentos más largos del discurso, de lo que resulta un compromiso entre la precisión de la sincronización de los labios y la latencia de la respuesta. El mejor compromiso obtenido ha sido un valor de la latencia de 150 ms.The estimation of the shapes of the lips improves if the recognition device has access to longer fragments of speech, resulting in a compromise between the precision of the lip synchronization and the latency of the response. The best compromise obtained has been a latency value of 150 ms.

Una realización de la presente invención que implementa las técnicas antes descritas será descrita a continuación. De este modo, las técnicas no serán descritas de nuevo y los detalles de las mismas se incorporan como referencia. La figura 6 muestra un ejemplo de un sistema informático general 1 que puede formar la plataforma para las realizaciones de la invención. El sistema informático 1 comprende una unidad central de procesamiento (CPU) 5, una memoria de trabajo 6 y una interfaz de entrada 2 dispuesta para recibir entradas de control de un usuario a través de un dispositivo de entrada 22, tal como un teclado, ratón, u otro dispositivo de control, y un hardware 3 de salida dispuesto para proporcionar la emisión de información a un usuario. La interfaz de entrada 2 está dispuesta además para recibir entradas de audio del usuario a través de un dispositivo 21 de entrada de audio, tal como un micrófono u otro dispositivo capaz de capturar sonidos. El equipo de salida 3 incluye una unidad de presentación visual 32 tal como la pantalla de un ordenador, un televisor, u otro medio de presentación visual, y un dispositivo 31 de salida de audio tal como un altavoz u otro dispositivo capaz de producir sonido.An embodiment of the present invention that implements the techniques described above will be described below. In this way, the techniques will not be described again and their details will be incorporated as a reference. Figure 6 shows an example of a general computer system 1 that can form the platform for embodiments of the invention. The computer system 1 comprises a central processing unit (CPU) 5, a working memory 6 and an input interface 2 arranged to receive control inputs from a user to through an input device 22, such as a keyboard, mouse, or other control device, and an output hardware 3 arranged to provide the issuance of information to a user. The input interface 2 is further arranged to receive audio inputs from the user through an audio input device 21, such as a microphone or other device capable of capturing sounds. The output equipment 3 includes a visual display unit 32 such as a computer screen, a television, or other visual display means, and an audio output device 31 such as a speaker or other device capable of producing sound.

El sistema informático 1 está dotado además de un medio de almacenamiento 4 que puede ser leído por un ordenador, tal como un disco duro (HDD), una memoria USB, una unidad de estado sólido, o cualquier otra forma de almacenamiento de datos de uso general, en la que los datos almacenados 43, 46 y diversos programas de control están dispuestos para controlar el sistema informático 1 para que funcione de acuerdo con las realizaciones de la presente invención. Por ejemplo, el programa 40 de control está dispuesto y preparado para proporcionar un control global del sistema para llevar a cabo las realizaciones de la presente invención. Este programa 40 de control, puede, por ejemplo, recibir entradas del usuario y lanzar otros programas para realizar tareas específicas. Los demás programas bajo el control del programa 40 de control incluyen un programa 42 de generación de un avatar y un programa 44 de personalización facial 44 que están preparados para generar un avatar de acuerdo con las especificaciones de las entradas del usuario, tal como se ha descrito anteriormente en la sección de selección y personalización de caras. Asimismo está dispuesta una disposición visual de distintas caras 46, de las cuales el usuario puede escoger una y personalizarla. Está dispuesto un conjunto de voces de interés 43 predefinidas de las cuales el usuario puede escoger y a continuación seleccionar una, utilizando un programa 41 de personalización de la voz tal como ha sido descrito en la sección de registro de voces. Un programa 45 de conversión de voces en tiempo real según la técnica de conversión de la voz descrita anteriormente está asimismo dispuesto, de modo que las entradas de audio recibidas a través del dispositivo 21 de entrada de audio son transformadas en la voz de interés, tal como ha sido personalizado por el usuario. Finalmente, está dispuesto y preparado un programa 47 de animación facial para animar los movimientos faciales del avatar generado y sincronizar los movimientos de los labios del avatar de acuerdo con la salida del programa 45 de conversión de la voz en tiempo real. El procedimiento de animación facial ha sido descrito anteriormente.The computer system 1 is also provided with a storage medium 4 that can be read by a computer, such as a hard disk (HDD), a USB memory, a solid state drive, or any other form of storage of usage data. In general, in which the stored data 43, 46 and various control programs are arranged to control the computer system 1 to operate in accordance with the embodiments of the present invention. For example, the control program 40 is arranged and prepared to provide a global control of the system to carry out the embodiments of the present invention. This control program 40 may, for example, receive user inputs and launch other programs to perform specific tasks. The other programs under the control of the control program 40 include an avatar generation program 42 and a facial customization program 44 that are prepared to generate an avatar according to the specifications of the user inputs, as has been described above in the section of selection and customization of faces. A visual arrangement of different faces 46 is also arranged, from which the user can choose one and customize it. A set of predefined voices of interest 43 are arranged from which the user can choose and then select one, using a voice customization program 41 as described in the voice recording section. A real-time voice conversion program 45 according to the voice conversion technique described above is also arranged, so that the audio inputs received through the audio input device 21 are transformed into the voice of interest, such as has been customized by the user. Finally, a facial animation program 47 is arranged and prepared to animate the facial movements of the generated avatar and synchronize the movements of the avatar's lips according to the output of the voice conversion program 45 in real time. The facial animation procedure has been described above.

Se debe comprender que, por supuesto, otros varios componentes y sistemas son conocidos de un experto en la técnica para permitir que el sistema informático 1 funcione.It should be understood that, of course, several other components and systems are known to one skilled in the art to allow the computer system 1 to function.

Una aplicación de las realizaciones de la presente invención, tal como se ha descrito en detalle previamente, es el tratamiento de las alucinaciones auditivas. El sistema informático, tal como se muestra en la figura 6, es capaz de llevar a cabo el sistema de diálogo audiovisual descrito en la presente invención e ilustrado mediante las etapas de la figura 7. Un paciente afectado de alucinaciones auditivas puede proporcionar entradas de control a través del dispositivo de entrada 22 para instruir al sistema informático 1 para que genere un avatar (etapa 71). El sistema informático 1 puede comprender un medio de almacenamiento 4 que puede ser leído, incluyendo un programa 40 de control dispuesto para proporcionar el control global del sistema. El programa 40 de control recibe las entradas del paciente y lanza un programa 42 de generación de un avatar que está preparado para generar un avatar (etapa 71). A continuación, el programa 40 de control puede lanzar un programa 44 de personalización de caras que permite que el paciente personalice el avatar generado utilizando una disposición visual de distintas caras 46 almacenadas en el medio 4 que puede ser leído por el ordenador. Una vez que el paciente ha completado la personalización facial, el avatar completado es presentado en una unidad 32 de presentación visual (etapa 71). El programa 40 de control puede lanzar asimismo un programa 41 de personalización de la voz que está dispuesto para permitir que el paciente escoja la voz de interés del avatar generado, de modo que se parezca lo más posible a su alucinación auditiva (etapa 70). El programa 41 de personalización de la voz utiliza un conjunto 43 de voces de interés predefinidas que incluye una gama de voces masculinas y femeninas de las cuales el paciente puede seleccionar una. Entonces, el paciente es capaz de personalizar los parámetros de la voz de interés seleccionada, tal como se muestra en la figura 3, utilizando una selección de controles deslizantes que aparecen en el dispositivo de entrada 22 hasta conseguir un cercano parecido con la alucinación auditiva.An application of the embodiments of the present invention, as previously described in detail, is the treatment of auditory hallucinations. The computer system, as shown in Figure 6, is capable of carrying out the audiovisual dialogue system described in the present invention and illustrated by the steps of Figure 7. A patient affected with auditory hallucinations can provide control inputs. through the input device 22 to instruct the computer system 1 to generate an avatar (step 71). The computer system 1 may comprise a storage medium 4 that can be read, including a control program 40 arranged to provide overall control of the system. The control program 40 receives the patient inputs and launches an avatar generation program 42 that is ready to generate an avatar (step 71). Next, the control program 40 can launch a face customization program 44 that allows the patient to personalize the generated avatar using a visual arrangement of different faces 46 stored in the medium 4 that can be read by the computer. Once the patient has completed facial customization, the completed avatar is presented in a visual presentation unit 32 (step 71). The control program 40 may also launch a voice personalization program 41 that is arranged to allow the patient to choose the voice of interest of the generated avatar, so that it resembles as much as possible his auditory hallucination (step 70). The voice customization program 41 uses a set 43 of predefined voices of interest that includes a range of male and female voices from which the patient can select one. Then, the patient is able to customize the parameters of the selected voice of interest, as shown in Figure 3, using a selection of sliders that appear on the input device 22 until a close resemblance to the auditory hallucination is achieved.

Una vez completados los procesos de personalización facial y de la voz, el profesional terapéutico y el paciente pueden entrar en conversación a través del avatar generado. El profesional terapéutico proporciona una entrada de audio (etapa 72) a través de un dispositivo 21 de entrada de audio y el programa 40 de control lanza un programa 45 de conversión de la voz en tiempo real para transformar la entrada de audio, es decir, la voz del profesional terapéutico en la voz de interés, utilizando los parámetros personalizados escogidos por el paciente (etapa 73), en que el programa de conversión de la voz emplea la técnica de conversión de la voz antes descrita. La salida del programa 45 de conversión de la voz en tiempo real es proporcionada a continuación al paciente a través de un dispositivo 31 de salida de audio. De forma simultánea, el programa 40 de control lanza un programa 47 de animación facial que está dispuesto para animar los movimientos faciales del avatar generado, concretamente, sincronizando los labios del avatar en tiempo real con la salida del programa 45 de conversión de la voz en tiempo real (etapa 74). Como resultado, cuando el profesional terapéutico habla en el dispositivo 21 de entrada de audio, el avatar parece decir las palabras pronunciadas por el profesional terapéutico en la voz de la alucinación auditiva del paciente. Once the facial and voice personalization processes are completed, the therapeutic professional and the patient can enter into conversation through the generated avatar. The therapeutic professional provides an audio input (step 72) through an audio input device 21 and the control program 40 launches a real-time voice conversion program 45 to transform the audio input, that is, the voice of the therapeutic professional in the voice of interest, using the personalized parameters chosen by the patient (step 73), in which the voice conversion program employs the voice conversion technique described above. The output of the real-time voice conversion program 45 is then provided to the patient through an audio output device 31. Simultaneously, the control program 40 launches a facial animation program 47 that is arranged to animate the facial movements of the generated avatar, namely, synchronizing the lips of the avatar in real time with the output of the voice conversion program 45 in real time (stage 74). As a result, when the therapeutic professional speaks on the audio input device 21, the avatar seems to say the words pronounced by the therapeutic professional in the voice of the patient's auditory hallucination.

ConclusionesConclusions

Parece que no existe ningún otro estudio para el tratamiento de las alucinaciones auditivas utilizando avatares generados mediante ordenador. La tecnología utilizada en el estudio piloto original fue desarrollada en un breve periodo de tiempo y actualmente se está desarrollando más como parte de un ensayo clínico de 3 años que implica un grupo mayor de pacientes (140), incluyendo su extensión a otros idiomas. Todos los componentes básicos son bien conocidos en el sector del habla, pero su combinación y adaptación para adecuarse a la aplicación concreta, es novedosa. En la práctica es relativamente sencillo y de coste reducido para ser implementado en un entorno clínico, requiriendo solamente dos ordenadores de sobremesa estándar conectados mediante un cable de audio. Los pacientes captan rápidamente la idea del sistema y son motivados por el mismo. Desde el punto de vista psiquiátrico, la introducción de un avatar permite a los investigadores estudiar la relación entre los pacientes y sus voces, de primera mano y por primera vez.There seems to be no other study for the treatment of auditory hallucinations using computer generated avatars. The technology used in the original pilot study was developed in a short period of time and is currently being further developed as part of a 3-year clinical trial involving a larger group of patients (140), including its extension into other languages. All the basic components are well known in the speech sector, but their combination and adaptation to suit the specific application is novel. In practice, it is relatively simple and low cost to be implemented in a clinical setting, requiring only two standard desktops connected by an audio cable. Patients quickly grasp the idea of the system and are motivated by it. From the psychiatric point of view, the introduction of an avatar allows researchers to study the relationship between patients and their voices, first hand and for the first time.

Los resultados clínicos han demostrado hasta el momento ser prometedores, con resultados espectaculares en un reducido número de pacientes [9, 10]. Las limitaciones presupuestarias permitieron inicialmente solamente un único profesional terapéutico (masculino), sin embargo, el estudio actual incluye tanto hombres como mujeres, ampliando de este modo el conjunto de voces disponibles. El propósito principal del nuevo estudio es repetir la terapia del avatar en un nuevo entorno con diferentes profesionales terapéuticos para establecer si se pueden obtener beneficios terapéuticos independientemente por cualquier profesional terapéutico formado. Otras cuestiones de la investigación incluyen el ensayo del efecto de la exactitud en la coincidencia de la voz y de la cara, el nivel de realismo requerido para obtener el mejor efecto terapéutico, si la creación del avatar es por sí misma terapéutica, y qué subgrupos de pacientes es más probable que se beneficien de la terapia. Clinical results have so far shown promise, with spectacular results in a small number of patients [9, 10]. The budgetary limitations initially allowed only a single therapeutic professional (male), however, the current study includes both men and women, thus expanding the set of available voices. The main purpose of the new study is to repeat avatar therapy in a new environment with different therapeutic professionals to establish whether therapeutic benefits can be obtained independently by any trained therapeutic professional. Other research questions include testing the effect of accuracy on the coincidence of the voice and face, the level of realism required to obtain the best therapeutic effect, if the creation of the avatar itself is therapeutic, and which subgroups of patients are more likely to benefit from therapy.

Claims

1. Audiovisual dialogue system (1) comprising:

an audio input device (21);

an audio output device (31);

a visual output device (32); Y

a processor (5), the processor being arranged to:

receiving (72) an audio input signal representing a source voice from the audio input device; performing (73) a substantially real-time conversion of the voice conversion into the audio input signal to produce an audio output signal representing a voice of interest, in which the audio output signal is provided to the audio output device, and in which the real-time voice conversion process includes:

i) decompose the audio input signal into a set of time-varying filtering characteristics and a residual excitation signal;

ii) spectrally transform the filtering characteristics that vary over time, and / or modify the tone of the residual excitation signal; Y

iii) synthesize the audio output signal depending on the filtered filtering characteristics with time transformed and / or the residual excitation signal with the modified tone;

generate (71) an avatar, in which the avatar is presented visually on the visual output device; and facially animate the generated avatar (74), in which the animation is synchronized with the audio output signal;

in which the processor is also arranged to customize voice conversion in real time, including customization:

1) select one of a plurality of predefined voices of interest, in which the predefined voices of interest are represented by a set of respective linear transformations that include a set of time-varying filtering characteristics and a pitch scaling factor; and 2) adjust (82) the filtering characteristics variable with time and / or the scaling factor of the predefined voice tone of interest, selected to provide the customized parameters to the voice of interest,

in which the filtering characteristics that vary with time and / or the scaling factor of the selected predefined voice tone of interest, are adjusted using a plurality of sliders (A, B, C, D) arranged in the interface of the user, which when activated by the user establishes a magnitude of change by which the filtering characteristics are adjusted with time and / or the pitch scaling factor.

2. System according to claim 1, wherein the time-varying filtering characteristics are calculated in short window sections of the audio input signal, wherein the short window sections of the audio input signal they last 20 to 40 ms and are superimposed from 5 to 15 ms.

3. System according to any preceding claim, wherein the time-varying filtering characteristics are transformed from Fourier with a multipoint response amplitude before the spectral transformation of the time-varying filtering characteristics, and in the that the spectrally transformed response amplitude is an inverse Fourier transform again with the filtering characteristics variable over time.

4. System, according to any of the preceding claims, in which a set of at least 8 linear transforms is generated between the audio input signal and a voice of predefined interest, and in which more than 50 voices of Predefined interests are used to generate sets of linear transformations.

5. System according to any of the preceding claims, wherein a plurality of phrases are pronounced both by the plurality of predefined voices of interest and by the audio input signal, and in which at least 20 sentences are pronounced.

6. System according to claim 5, wherein the plurality of phrases pronounced by the audio input signal and the plurality of phrases pronounced by the plurality of predefined voices of interest are temporarily aligned, in which the plurality of phrases are Temporarily aligned using Mel cepstral frequency coefficients of the audio input signal in combination with a dynamic programming algorithm.

7. System according to claim 6, wherein in the case of a plurality of signal sections within the plurality of temporarily aligned phrases:

a) the prediction coefficients and the coding spectrum of the linear prediction are calculated; and b) the optimal frequency assignment is found using a dynamic programming algorithm.

8. System according to any of the preceding claims, wherein the transformation vectors of the set of linear transformations are reduced to a medium transformation vector and a plurality of orthogonal change vectors.

9. System according to claim 8, wherein a slider is used to adjust the magnitude by which a change vector is added to the average transformation vector, such that the variable filtering characteristics are adjusted with the weather.

10. System according to any of the preceding claims, wherein the processor is further arranged to facially generate the generated avatar, in which the facial customization of the generated avatar includes providing a visual arrangement with different faces for selection.

11. System according to any of the preceding claims, wherein the audio input device and the audio output device can be connected to form a two-way audio channel.

12. Audiovisual dialogue procedure comprising:

receiving (72) an audio input signal representing a source voice, from an audio input device; perform (73) the conversion of the voice substantially in real time into the audio input signal to produce an audio output signal representing a voice of interest, in which the audio signal output is provided to a device audio output, and in which the conversion of voice substantially in real time includes:

i) decompose (81) the audio input signal into a set of time-varying filtering characteristics and a residual excitation signal;

ii) spectrally transform (82) the time-varying filtering characteristics, and / or modify the tone of the residual excitation signal; Y

iii) synthesize (83) the audio output signal depending on the time-varying filtering characteristics and / or the residual excitation signal with the modified tone;

generate an avatar (71), in which the avatar is displayed visually on a visual output device; and facially animate (74) the generated avatar, in which the animation is synchronized with the output audio signal;

The procedure also includes the personalization of voice conversion in real time, including customization:

1) select one of a plurality of predefined voices of interest, in which the predefined voices of interest are represented by means of a set of the respective linear transformations that include a set of time-varying filtering characteristics and a scaling factor of the tone; Y

2) adjust (82) the time-varying filtering characteristics and / or the scaling factor of the predefined voice tone of interest selected to provide custom parameters to the voice of interest, in which the filtering characteristics variable in the time and / or the scaling factor of the selected predefined voice tone of interest are adjusted using a plurality of sliders (A, B, C, D) presented in a user interface that, when activated by the user, sets a magnitude of change by which the time-varying filtering characteristics and the scaling factor of the voice tone are adjusted.