ES2316786T3

ES2316786T3 - Metodo, aparato y programa de ordenador para sintesis de voz.

Info

Publication number: ES2316786T3
Application number: ES03746418T
Authority: ES
Inventors: Masahiro; c/o CANON KABUSHIKI KAISHA MUTSUNO; Toshiaki; c/o CANON KABUSHIKI KAISHA FUKADA
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-04-02
Filing date: 2003-04-02
Publication date: 2009-04-16
Anticipated expiration: 2023-04-02
Also published as: US20050065795A1; WO2003088208A1; EP1490861B1; US7487093B2; EP1490861A1; DE60325191D1; CN1643572A; KR100591655B1; CN1269104C; EP1490861A4; KR20040086432A; JP2003295882A; AU2003226446A1

Abstract

Método de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética de una sección asignada a un identificador predeterminado incluido en un texto de entrada al generar la voz sintética correspondiente al texto, caracterizado por comprender: una etapa de ajuste (S103) para ajustar una sección deseada del texto que va a ser generado, en la que el rasgo de la voz sintética se va a cambiar de manera continua utilizando un identificador predeterminado que comprende la información de atributo que representa un modo de cambio del rasgo de la voz sintética tanto en la posición de inicio como en la posición de fin de la sección dispuesta por el identificador; una etapa de reconocimiento (S302) para reconocer el identificador predeterminado y un tipo de información de atributo contenida en el identificador predeterminado del texto con el identificador, que se dispone en dicha etapa de ajuste; y una etapa de síntesis de voz (S320) para sintetizar una forma de onda de voz, que tiene un rasgo de voz sintética que cambia de manera continua según la información del atributo contenida en el identificador predeterminado, interpolando la voz sintética correspondiente al texto dentro de la sección deseada del texto con el identificador según un resultado de reconocimiento de dicha etapa de reconocimiento, en el que el modo de cambio del rasgo de la voz sintética comprende al menos un cambio en la velocidad de emisión, un cambio en el volumen, un cambio en el hablante, un cambio en el dispositivo de salida, un cambio en el número de hablantes y un cambio de la emoción.

Description

Método, aparato y programa de ordenador para síntesis de voz.

Campo técnico

La presente invención se refiere al sector de los aparatos de síntesis de voz que genera una frase de entrada (texto) como voz sintética a partir de un altavoz.

\vskip1.000000\baselineskip

Técnica anterior

Convencionalmente, se ha propuesto un aparato de síntesis de voz que genera una frase de entrada (texto) como voz sintética (sonido sintético, habla sintética) a partir de un altavoz.

A efectos de generar voz sintética altamente expresiva a partir de texto utilizando dicho aparato, se debe proporcionar la información de control de potencia, velocidad, tono y similares, de manera que el usuario, como oyente, lo pueda escuchar como si fuera voz natural.

Para este propósito, incluso cuando la voz sintética se genera en base a una regla predeterminada contenida en una cadena de caracteres del texto, se intenta añadir la información de lenguaje deseada en dicho texto.

En este caso, la información adicional proporcionada al texto utiliza un formato que limita la información adicional mediante etiquetas expresadas por "< >" como las utilizadas en el llamado HTML (lenguaje de marcas de hipertexto) y se propone un método de control de los tonos de la voz sintética correspondiente al texto de entrada utilizando dichas etiquetas.

No obstante, en dicho método de etiquetado convencional, dado que el etiquetado se lleva a cabo en las respectivas unidades discretas tales como frases, palabras y similar para disponer un valor fijo predeterminado, la voz sintética que va a ser de hecho generada es sometida únicamente a cambios discretos, aunque dicho método pretenda generar una voz sintética correspondiente a diferentes caracteres y palabras en el texto de entrada mientras cambia de manera continua una prosodia adecuada, dando como resultado una voz sintética no natural para el oyente.

Como técnica para cambiar de manera continua cierta prosodia de la voz, se propone un método de transformación de voz de la patente japonesa abierta a inspección número 9-244693.

No obstante, con este método, únicamente se puede interpolar el patrón de tono.

Además, con estos métodos, cuando la voz sintética de una parte limitada por etiquetas en el texto de entrada va a ser cambiada de manera continua, se deben asignar las etiquetas adecuadamente a los puntos de cambio de la voz sintética.

Por tanto, la operación de etiquetado es difícil y, en consecuencia, únicamente se puede obtener un cambio discreto.

El lector puede ser adicionalmente informado en relación al estado de la técnica mediante referencia a la publicación identificada en este documento como EP 0880127. Brevemente, el documento EP 0880127 da a conocer un lenguaje de descripción de tres capas para el control prosódico utilizado para insertar instrucciones de control del rasgo prosódico en un texto en las posiciones de los caracteres o de la cadena de caracteres que van a ser dotados de información no verbal. El lenguaje de descripción de tres capas para el control prosódico está compuesto por: una capa semántica (capa S) que tiene como instrucciones de control del rasgo prosódico instrucciones de control que están representadas cada una de ellas mediante una palabra indicativa del significado de la información no verbal; una capa de interpretación (capa I) que tiene instrucciones de control del rasgo prosódico que interpretan las instrucciones de control del rasgo prosódico de la capa S y especifican el control de los parámetros prosódicos del habla y una capa de parámetros (capa P) que tiene los parámetros prosódicos que son objetos de control de las instrucciones de control del rasgo prosódico de la capa I. El texto se convierte en una cadena de parámetros prosódicos mediante una síntesis basada en reglas. Los parámetros prosódicos correspondientes a los caracteres o cadena de caracteres que van a ser corregidos son corregidos mediante las instrucciones de control del rasgo prosódico de la capa I y el habla se sintetiza a partir de una cadena de parámetros que contiene los parámetros prosódicos corregidos.

\vskip1.000000\baselineskip

Características de la invención

La presente invención se ha propuesto para resolver los problemas convencionales y tiene como objetivo cambiar fácilmente y de manera continua un rasgo de la voz sintética de una sección deseada.

En consecuencia, un primer aspecto de la presente invención da a conocer un método de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética según la reivindicación 1.

Según un segundo aspecto de la presente invención se da a conocer un aparato de síntesis de voz según la reivindicación 2.

Otras características y ventajas de la presente invención serán evidentes a partir de la siguiente descripción tomada conjuntamente con los dibujos adjuntos en los que caracteres de referencia similares designan las mismas partes o partes similares en todas las figuras de la misma.

Breve descripción de los dibujos

Los dibujos adjuntos, que se incorporan y forman parte de la descripción, muestran realizaciones de la invención y, conjuntamente con la descripción, sirven para explicar los principios de la invención.

La figura 1 es un diagrama de bloques de un aparato de síntesis de voz según la primera realización;

la figura 2 muestra un ejemplo de las etiquetas asignadas al texto;

las figuras 3A y 3B son diagramas de flujo que muestran el proceso de control del aparato de síntesis de voz de la primera realización;

la figura 4 es un gráfico para explicar un ejemplo de la interpolación de una velocidad de emisión en la generación de la voz sintética;

la figura 5 es un gráfico para explicar un ejemplo de la interpolación de un volumen en la generación de la voz sintética;

la figura 6 es un gráfico para explicar un ejemplo de la interpolación del número de hablantes en la generación de la voz sintética;

la figura 7 muestra un ejemplo de las etiquetas asignadas al texto en la segunda realización;

la figura 8 muestra un ejemplo de las etiquetas asignadas al texto en la tercera realización;

la figura 9 es un diagrama de flujo que muestra el proceso de control de un aparato de síntesis de voz según la tercera realización;

la figura 10 muestra un ejemplo de las etiquetas asignadas al texto en la cuarta realización;

la figura 11 muestra un ejemplo de las etiquetas asignadas al texto en la quinta realización;

la figura 12 es un gráfico para explicar un cambio en el rasgo de la voz sintética en la generación de la voz sintética en la quinta realización; y

la figura 13 muestra un ejemplo de las etiquetas asignadas al texto en la sexta realización.

Mejor modo de llevar a cabo la invención

A continuación se describirán en detalle las realizaciones de la presente invención según los dibujos adjuntos.

\vskip1.000000\baselineskip

Primera realización

La disposición de un aparato de síntesis de voz según esta realización se explicará brevemente en primer lugar con referencia a la figura 1.

La figura 1 es un diagrama de bloques de un aparato de síntesis de voz de la primera realización. Con respecto al hardware que se puede utilizar, se puede adoptar un aparato de tipo general de procesamiento de la información, tal como un ordenador personal o similar.

Haciendo referencia a la figura 1, el aparato comprende un módulo (101) de generación de texto para generar un cuerpo de texto, y un módulo (102) de generación de etiquetas para generar el texto etiquetado (103), insertando las etiquetas predeterminadas en las posiciones deseadas en dicho texto y también atributos en dichas etiquetas asociados con la generación del texto etiquetado que va a ser generado como voz. El módulo (101) de generación de texto genera texto en base a diversas fuentes de información tales como mensajes de correo, artículos de noticias, revistas, libros impresos y similares. En este caso, el software de edición utilizado para escribir las etiquetas y el texto no está particularmente limitado.

Se debe observar que un módulo indica una unidad funcional de un programa de software ejecutado por el hardware del aparato de síntesis de voz según esta realización.

Se debe observar que el módulo (101) de generación de texto y el módulo (102) de generación de etiquetas pueden ser tanto módulos externos como módulos internos del mismo aparato de síntesis de voz.

El texto etiquetado (103) es introducido a un módulo (104) de entrada de texto a través de una línea de comunicación o un medio de almacenamiento portátil (CD-R o similar). Una parte de texto del texto etiquetado (103) introducido al módulo (104) de entrada de texto es analizado por un módulo (105) de análisis de texto y su parte de etiqueta es analizada por un módulo (106) de análisis de etiquetas. Además, en esta realización, la información del atributo contenida en una etiqueta es analizada por un módulo (107) de análisis del atributo de la etiqueta (los detalles se explicarán más adelante).

Un módulo (108) de procesamiento del lenguaje procesa la información del lenguaje (es decir, el acento y similares) necesarios para la generación de voz con referencia a un diccionario de lenguaje (110) que almacena previamente información del lenguaje. Un módulo (109) de síntesis de voz genera una forma de onda sintética que expresa la voz que va a ser de hecho generada con referencia a un diccionario (111) de forma de onda/modelo prosódicos que almacena previamente fonemas prosódicos y similares, y genera la voz sintética a partir de un altavoz (no mostrado) en base a dicha forma de onda sintética.

Las disposiciones como un rasgo característico de esta realización se explicarán a continuación.

El módulo (102) de generación de etiquetas inserta las etiquetas y los atributos predeterminados en el texto generado por el módulo (101) de generación de texto. En este caso, las etiquetas se pueden insertar en las posiciones elegidas por el usuario y pueden ser asignadas a una sección en la que un rasgo de la voz sintética se va a cambiar suavemente como en la llamada transformación ("morphing") en un proceso de imagen. En cada etiqueta, se puede escribir información adicional llamada atributo (información de atributo). Más específicamente, las etiquetas predeterminadas "<morphing...>" y "</morphing>" se asignan a los puntos de inicio y de fin de una sección en la que se debe cambiar suavemente un rasgo de la voz sintética del texto en el que se alinean los caracteres y las palabras, y la información de atributo que representa un objeto cuyo rasgo de la voz sintética se va a cambiar de manera continua, en otras palabras, en cada etiqueta se escribe un patrón de cambio para cambiar de manera continua el rasgo de la voz sintética.

En esta realización, el cambio del rasgo de la voz sintética comprende no sólo la llamada prosodia de la voz sino también por ejemplo el hablante, el número de hablantes, la emoción y similares.

Se debe observar que el usuario escribe la información de atributo al generar el texto. También, el usuario dispone las etiquetas y los diversos atributos en las etiquetas. Se debe observar que las etiquetas y los valores de los atributos se pueden disponer automáticamente o semiautomáticamente mediante un editor multifunción o similar.

La información de atributos incorporada a cada etiqueta es información que representa el rasgo de la voz sintética asociado, por ejemplo, con un volumen, un hablante, un dispositivo de salida, el número de hablantes, una emoción, una velocidad de emisión, la frecuencia fundamental y similares. Además, se pueden utilizar otros eventos que se pueden cambiar de manera continua al generar la voz sintética (referidos como "transformación" ("morphing") en esta realización).

Las etiquetas de inicio y de fin dispuestas en el texto pueden tener los mismos o diferentes tipos de información de atributo. Cuando los puntos de inicio y de fin tienen la misma información de atributo, se genera la voz según la información del atributo dispuesta por la etiqueta del punto de inicio sin cambiar ningún rasgo de la voz sintética asociada con dicha información del atributo en la generación real de la voz sintética.

Un valor correspondiente a la información de atributo incorporada en cada etiqueta es un valor numérico si un atributo es el volumen. Si un atributo es un hablante se puede designar un hombre o una mujer o un número de identificación (ID) del hablante.

La figura 2 muestra un ejemplo de las etiquetas asignadas al texto. En este ejemplo, una sección en la que un rasgo de la voz sintética se va a cambiar de manera continua corresponde a una sección limitada por una etiqueta de inicio "<morphing...>" y una etiqueta de fin "</morphing>". Los atributos en la etiqueta de inicio "<morphing...>" describen una emoción (emotion) como un objeto cuyo rasgo de la voz sintética se va a cambiar de manera continua, una emoción (happy) "(feliz)" en el punto de inicio (start) y una emoción (angry) "(enfadado)" en el punto de fin (end). Por tanto, cuando de hecho se genera la voz sintética de este texto, se emite una frase limitada por las etiquetas mientras su voz cambia gradualmente de una voz feliz a una voz enfadada.

El módulo (104) de entrada de texto del aparato de síntesis de voz según esta realización recibe el texto etiquetado (103) asignado con las etiquetas, tal como se ha descrito anteriormente, y el módulo (105) de análisis de texto adquiere la información asociada con el tipo, contenidos y similares del texto en base al formato del texto etiquetado de entrada (103) y la información en el campo de cabecera del texto.

El módulo (106) de análisis de la etiqueta determina los tipos de etiquetas incorporadas en el texto etiquetado de entrada (103). El módulo (107) de análisis del atributo de la etiqueta analiza los atributos y los valores del atributo descritos en las etiquetas.

El módulo (108) de procesamiento de lenguaje y el módulo (109) de síntesis de voz generan una forma de onda de voz que va a ser generada procesando los datos que se leen del diccionario (111) de forma de onda/modelo prosódicos, como fonemas correspondientes al texto analizado por el módulo (105) de análisis de texto en base a los valores del atributo adquiridos por el módulo (107) de análisis del atributo de la etiqueta, y genera la voz sintética según dicha forma de onda de voz (se debe observar que el procesamiento basado en los valores del atributo se explicará más adelante).

Un método de extracción de los valores del atributo en las etiquetas "<morphing> ... </morphing>" mediante el módulo (106) de análisis de la etiqueta se explicará a continuación utilizando las figuras 3A y 3B.

Las figuras 3A y 3B son diagramas de flujo que muestran el proceso de control del aparato de síntesis de voz de la primera realización, es decir, la secuencia de procesos que van a ser ejecutados por la CPU (no mostrada) del aparato.

Haciendo referencia a las figuras 3A y 3B, el texto etiquetado (103) introducido por el módulo (104) de entrada de texto es sometido a análisis de texto, análisis de etiqueta y análisis del atributo de la etiqueta por parte del módulo (105) de análisis de texto, el módulo (106) de análisis de la etiqueta y al análisis (107) del atributo de la etiqueta (etapas S301 a S303).

Se comprueba si la etiqueta de inicio "<morphing...>" comprende objetos y puntos de inicio y de fin (etapa S304). Se comprueba en primer lugar si se incluye un valor del atributo a transformar. Si no se encuentra ningún valor del atributo a transformar, se leen en voz alta los caracteres y palabras limitados por las etiquetas de inicio y de fin de acuerdo con la voz que ha estado leyendo en voz alta la frase anterior a dicha etiqueta (etapa S305). Por otra parte, si se encuentra un valor del atributo a transformar, se comprueba si se encuentra uno de los atributos de los puntos de inicio y de fin (etapa S306).

Si ninguno de los puntos de inicio y de fin tienen atributos, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta utilizando un tono sintético de acuerdo con un valor por defecto del atributo a transformar que se fija con antelación (etapa S307). Por otra parte, si bien el punto de inicio o el de fin tiene un valor de atributo, se comprueba si es un valor de atributo del punto de inicio (etapa S308). Si no es un valor de atributo del punto de inicio, se determina si el valor de atributo del punto de fin y el valor de atributo a transformar son válidos (sí concuerdan), comprobando si éstos valores concuerdan (etapa S309). Si los dos valores concuerdan, se utiliza el valor del atributo del punto de fin (etapa S311). En la etapa S309, por ejemplo, si un objeto a transformar es un volumen, se comprueba si el valor del atributo del punto de fin es un valor de volumen y, si concuerdan, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta basándose en la información del punto de fin; si no concuerdan, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta utilizando un tono sintético por defecto que se prepara con antelación de acuerdo con el valor del atributo del objeto (etapa S310).

Si se determina en la etapa S308 que el punto de inicio tiene un valor de atributo y si el punto de fin no tiene ningún valor de atributo, el texto se lee en voz alta de acuerdo al valor de atributo del punto de inicio (etapa S312, etapa S315). En este caso, se comprueba de manera similar la validez con un objeto y si los dos valores concuerdan, el texto se lee en voz alta de acuerdo con el valor de atributo del punto de inicio (etapa S313, etapa S314).

Si tanto el punto de inicio como el de fin tienen valores de atributo y sus valores para el objeto son válidos (concuerdan), se genera un tono sintético tras la interpolación basándose en los valores del atributo (etapa S316, S320). Es decir, si el objeto es un volumen, se determina que los valores del atributo de los puntos de inicio y de fin son válidos únicamente en el caso en que tanto el punto de inicio con el de fin adoptan valores de volumen. Por ejemplo, si los valores del atributo de los puntos de inicio y de fin son diferentes (por ejemplo, el punto de inicio es un valor de volumen y el punto de fin es una emoción), se utiliza el valor de atributo que concuerda con el objeto (etapa S317, etapa S319). Si los valores de atributo de los puntos de inicio y de fin son diferentes y también son diferentes del objeto a transformar, los caracteres y las palabras limitados por las etiquetas de inicio y de fin se leen en voz alta utilizando un tono sintético por defecto correspondiente al valor del atributo del objeto (etapa S318). Cuando las etiquetas a comprobar tienen valores de atributo diferentes, la prioridad de una salida de voz es "objeto" > "punto de inicio" > "punto de fin".

A continuación se describirá la interpolación que se lleva a cabo en base a un valor de atributo como una secuencia de generación de voz, con referencia a la figura 4.

La figura 4 es un gráfico para explicar un ejemplo de interpolación de una velocidad de emisión en la generación de la voz sintética.

Como un ejemplo de un método de interpolación, cuando se va a interpolar la velocidad de emisión, el tiempo requerido para generar la forma de onda del texto completo 1 2 en la figura 4) se calcula según dicho texto que va a ser generado, y también se calculan las duraciones de tiempo t para los respectivos fonemas que forman dicho texto. En esta realización, dado que los modelos prosódicos estándares y las formas de onda de voz se graban con antelación en el diccionario de forma de onda/modelo prosódicos (111), el tiempo requerido para generar la forma de onda del texto completo que va a ser generado se puede calcular sumando las duraciones de tiempo t para los respectivos fonemas 3 en la figura 4) necesarios para generar la voz sintética leída a partir del diccionario (111) de formas de onda/modelo prosódicos.

Posteriormente se calcula la relación r entre los valores fijados como los valores de atributo de los puntos de inicio y de fin, y la velocidad de emisión actual. En este caso, si los valores fijados como los valores de atributo de los puntos de inicio y de fin son iguales a la velocidad actual, dado que r = 1, no se requiere este proceso de interpolación.

Basándose en la relación calculada, se calcula una función de interpolación de cada fonema mediante (valor de interpolación) = t x r. Reduciendo o ampliando el periodo de una forma de onda según el valor de interpolación calculado, se puede cambiar la velocidad de emisión. De manera alternativa, se puede llevar a cabo un proceso para cambiar la duración de tiempo según cierto rasgo de cada fonema.

En la interpolación de un volumen, se utilizan las duraciones de tiempo t de los respectivos fonemas que forman el texto que va a ser generado 4 en la figura 5) según dicho texto al igual que en la interpolación de la velocidad de emisión. Posteriormente, se calcula la relación r' entre los valores fijados como los valores de atributo de los puntos de inicio y de fin y el volumen actual.

La figura 5 es un gráfico para explicar la interpolación de un volumen en la generación de la voz sintética. En la figura 5 se calcula una función de interpolación mediante (valor de interpolación) = f x r'. Se debe observar que f es la amplitud de una forma de onda de voz sintética obtenida a partir del diccionario (111) de formas de onda/fonemas.

La amplitud f se reduce o se amplía según el valor de interpolación calculado. En lugar de cambiar la amplitud, se puede adoptar un método para cambiar directamente el volumen del hardware de salida. El mismo método se aplica a la frecuencia fundamental.

Además, al interpolar una emoción o un estilo de emisión, se interpolan los datos de síntesis de voz correspondientes a los valores fijados como los valores de atributo de los puntos de inicio y de fin del texto que va a ser generado, generando en consecuencia la voz sintética.

Por ejemplo, en un método de síntesis de voz basado en un método de edición de la forma de onda tal como PSOLA o similar, un segmento de voz en un diccionario de forma de onda de voz correspondiente a una emoción dispuesta en la posición de inicio en el texto que va a ser generado y el segmento en el diccionario de forma de onda de voz correspondiente a una emoción dispuesta en la posición de fin son sometidos a un proceso PSOLA con respecto a una duración de tiempo de continuación y una frecuencia fundamental deseadas, y los segmentos de la forma de onda de voz o la forma de onda de la voz sintética se interpolan según una función de interpolación obtenida de la misma manera que con el volumen.

Además, en un método de síntesis de voz basado en un método de síntesis del análisis de parámetros tal como cepstrum o similar, se interpolan una secuencia de parámetros obtenida a partir de un diccionario de parámetros de voz correspondientes a una emoción dispuesta en la posición de inicio en el texto que va a ser generado y la secuencia obtenida a partir del diccionario de parámetros de voz correspondiente a una emoción dispuesta en la posición de fin para generar un parámetro, y se genera una voz sintética correspondiente a una duración de tiempo de continuación y una frecuencia fundamental deseadas utilizando este parámetro.

Además, al igual que en el cambio de una voz masculina a una voz femenina, la interpolación entre hablantes se puede llevar a cabo mediante métodos similares. Además, cuando un dispositivo de salida comprende altavoces estereofónicos, la salida se puede cambiar de manera continua desde un altavoz izquierdo a un altavoz derecho. O cuando un dispositivo de salida comprende un auricular y un altavoz externo, se puede cambiar de manera continua una salida desde el auricular al altavoz externo.

Al interpolar el número de hablantes (el número de personas que hablan), se calcula una función de interpolación mostrada en la figura 6.

La figura 6 es un gráfico para explicar un ejemplo de interpolación del número de hablantes al generar la voz sintética. En el ejemplo mostrado en la figura 6, se implementa la transformación de un hablante a cinco hablantes. En este caso, la duración de tiempo de una forma de onda obtenida del texto que va a ser generado se divide en cinco periodos. Cada vez que transcurre uno de los periodos divididos, el número de hablantes aumenta de uno en uno, y se cambia el volumen del tono sintético en base a una función de interpolación (una función que cambia entre 0 y 1) mostrada en la figura 6. También, se normaliza el nivel de la forma de onda para evitar que la amplitud supere un valor predeterminado.

Se debe observar que se pueden añadir hablantes en un orden predeterminado o aleatoriamente.

En esta realización, la voz sintética se genera según una forma de onda de voz generada ejecutando los diferentes procesos de interpolación anteriormente mencionados. De esta manera, se puede implementar la voz sintética natural, cuyo rasgo de voz sintética cambia de manera continua, en comparación a un aparato de síntesis de voz convencional cuyo rasgo de voz sintética cambia de manera discreta.

Segunda realización

A continuación se explicará la segunda realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.

En esta realización, las etiquetas predeterminadas contenidas en el texto etiquetado (103) adoptan una estructura anidada de etiquetas, tal como se muestra en la figura 7, además de las dos etiquetas "<morphing...>" y "</morphing>" como en la primera realización, ajustando de esta manera una serie de objetos a cambiar. Con esta estructura anidada, se puede implementar la transformación de la síntesis de voz que puede cambiar una serie de objetos. Es decir, en el ejemplo mostrado en la figura 7, un rasgo de la voz sintética en la emisión del texto que va a ser generado como voz sintética inicialmente expresa un tono feliz con un volumen alto y posteriormente cambia para expresar un tono enfadado, mientras el volumen cambia a ser más bajo que el volumen inicial.

Dado que las otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva.

Según esta realización con la disposición anterior, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.

Tercera realización

A continuación se explicará la tercera realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.

En las primera y segunda realizaciones descritas anteriormente, la información de atributo contenida en la etiqueta de inicio "<morphing...>" describe un objeto cuyo rasgo de voz sintética se va a cambiar de manera continua y los valores de atributo de los puntos de inicio y de fin del objeto. En comparación, en la tercera realización, la etiqueta de inicio "<morphing...>" describe marcas de un objeto a cambiar en los puntos de inicio y de fin.

La figura 8 muestra un ejemplo de las etiquetas asignadas al texto en la tercera realización y el mismo texto limitado por las etiquetas es el mismo que el de la segunda realización mostrado en la figura 7. En esta realización, un objeto a cambiar es una emoción (emotion). Por tanto, los puntos de inicio y de fin describen marcas "emotionstart" y "emotionend" de un objeto a cambiar. Dado que la disposición de un aparato de síntesis de voz en la tercera realización es la misma que la de la primera realización, se omitirá una descripción repetitiva de la misma. A continuación se describirá una diferencia entre las realizaciones primera y tercera.

Al igual que en la primera realización, el módulo (105) de análisis de texto analiza el tipo, los contenidos y similares del texto (103) etiquetado de entrada en base al formato y a la información de cabecera de dicho texto, adquiriendo de esta manera la información asociada con los mismos. El módulo (105) de análisis de la etiqueta determina los tipos de etiquetas incorporadas en el texto. El módulo (107) de análisis del atributo de la etiqueta analiza los atributos y los valores de los atributos descritos en las etiquetas. En esta realización, únicamente se van a analizar los puntos de inicio y de fin, y el módulo (107) de análisis del atributo de la etiqueta examina los objetos de los puntos de inicio y de fin. El módulo (109) de síntesis de voz lleva a cabo la interpolación en base a los valores de los atributos obtenidos mediante el módulo (107) de análisis del atributo de la etiqueta, y genera la voz sintética correspondiente a los contenidos del texto según una forma de onda de voz obtenida como resultado de la interpolación.

Dado que la información del atributo incorporada en cada etiqueta tiene la misma configuración que en la primera realización, se omitirá una descripción repetitiva de la misma. La diferencia entre la primera y tercera realizaciones es como se describe a continuación. Es decir, al describir una emoción (emotion) como un objeto cuyo rasgo de voz sintética se va a cambiar de manera continua, una emoción en el punto de inicio (start) y una emoción en el punto de fin (end), al punto de inicio se le asigna la marca "emotionstart" del objeto a cambiar y al punto de fin se le asigna una marca "emotionend" del objeto a cambiar. En esta realización, dado que un proceso de excepción es parcialmente dife-
rente de acuerdo a dicho cambio en el formato de la etiqueta, esta diferencia se explicará con referencia a la figura 9.

La figura 9 es un diagrama de flujo que muestra el proceso de control del aparato de síntesis de voz en la tercera realización, es decir, la secuencia de procesos que van a ser ejecutados por la CPU (no mostrada) del aparato.

Haciendo referencia a la figura 9, el texto etiquetado (103) introducido por el módulo (104) de entrada de texto se somete a un análisis de texto, un análisis de etiqueta y un análisis del atributo de la etiqueta por parte del módulo (105) de análisis de texto, el módulo (106) de análisis de la etiqueta y el análisis (107) del atributo de la etiqueta (etapas S901 a S903).

Se comprueba si la etiqueta de inicio "<morphing...>" comprende puntos de inicio y de fin. Se comprueba si bien el punto de inicio o el punto de fin tienen un atributo (etapa S904). Si ninguno de los puntos de inicio y de fin tienen valores de atributo, el texto se lee en voz alta según la voz que estaba leyendo en voz alta una frase antes de dicha etiqueta (etapa S905). Posteriormente, se comprueba si el punto de inicio tiene un valor de atributo. Si el punto de inicio no tiene un valor de atributo, se utiliza el valor del atributo del punto de fin (etapa S906, etapa S907). De otra manera, si el punto de inicio tiene un valor de atributo pero el punto de fin no tiene un valor de atributo, el texto se lee en voz alta según el valor de atributo del punto de inicio (etapa S908, S909). Si tanto el punto de inicio como el punto de fin tienen valores de atributo, y no son diferentes, se lleva a cabo la interpolación en base a dichos valores de atributo y se genera la voz sintética (etapa S910, S912).

Al igual que con los valores de atributo de los puntos de inicio y de fin, si un objeto cuyo rasgo de voz sintética va a ser cambiado de manera continua es un volumen, tanto el punto de inicio como el punto de fin deben adoptar valores de volumen. Si los tipos de los valores de atributo de los puntos de inicio y de fin son diferentes (por ejemplo, el punto de inicio tiene un valor de volumen y el punto de fin tiene una emoción), se utiliza el valor del atributo del punto de inicio (etapa S911). Cuando la etiqueta tiene valores de atributos erróneos, la prioridad para la generación de voz es (orden del punto de inicio) > (orden del punto de fin).

Dado que las otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva de las mismas.

Según esta realización con la disposición anterior, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado puede cambiar fácilmente y de manera continua.

\vskip1.000000\baselineskip

Cuarta realización

A continuación se explicará la cuarta realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.

En las realizaciones primera a tercera, un cambio de transformación es constante, es decir, depende de la relación del cambio del mismo algoritmo de transformación. No obstante, la cuarta realización se caracteriza porque también se puede añadir un atributo para un cambio de transformación. La figura 10 muestra dicho ejemplo.

La figura 10 muestra un ejemplo de las etiquetas asignadas al texto en la cuarta realización. En esta realización, la información del atributo para la relación del cambio de transformación también se dispone en los atributos de la etiqueta de inicio "<morphing...>". Al igual que un valor de atributo que expresa la relación de cambio de la transformación, un tipo de función utilizado en un cambio tal como lineal, no lineal, logaritmo o similar se dispone en "function" ("función").

En esta realización, al analizar las etiquetas, el módulo (107) de análisis del atributo de la etiqueta analiza no solamente un objeto y los puntos de inicio y de fin, sino también un atributo de un cambio de transformación según un valor de atributo que representa la relación de cambio de la transformación. Como resultado del análisis, si un valor del atributo tal como lineal, no lineal, logaritmo o similar se describe en un campo "function", se lleva a cabo la interpolación según la relación de cambio dada por dicho valor de atributo y se genera la voz sintética según una forma de onda sintética obtenida mediante interpolación. Por otra parte, si este valor de atributo no está descrito, se lleva a cabo la interpolación con un método de cambio determinado con antelación por el algoritmo de transformación.

Según esta realización con la disposición anterior, un rasgo de voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.

\vskip1.000000\baselineskip

Quinta realización

A continuación se explicará la quinta realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización, y se explicará principalmente un rasgo característico de esta realización.

En las realizaciones primera a tercera, un cambio de transformación es constante, es decir, depende de la relación de cambio del mismo algoritmo de transformación. No obstante, la quinta realización se caracteriza porque se puede añadir un atributo para un cambio de transformación individualmente en una etiqueta. La figura 11 muestra dicho ejemplo.

La figura 11 muestra un ejemplo de las etiquetas asignadas al texto en la quinta realización. En esta realización, las etiquetas intermedias para un cambio de transformación se insertan además en el texto limitado por las etiquetas "<morphing...>" ... "</morphing>".

En esta realización, al analizar las etiquetas, el módulo (106) de análisis de la etiqueta analiza no solamente las etiquetas "<morphing>" sino también las etiquetas intermedias que generan los cambios de transformación. La etiqueta intermedia utiliza una etiqueta como "<rate value = ``*.*''/>" y una relación de cambio que oscila entre 0 y 1 se describe en un campo de atributo "value" ("valor"). Posteriormente, dichas etiquetas intermedias se incorporan individualmente en las posiciones deseadas en el texto cuyo rasgo de voz sintética se va a cambiar de manera continua. De esta manera, al generar de hecho la voz sintética después de la interpolación, puede tener lugar un complejo cambio adicional en el rasgo de la voz sintética, tal como se muestra en la figura 12.

Se debe observar que cada una de las partes insertadas en la etiqueta como "<rate value = ``*.*''/>", cuando se traduce de la solicitud japonesa original a la solicitud PCT en inglés, se disponen como se muestra en la figura 11, debido a la diferencia del orden de palabras entre el japonés y el inglés. En consecuencia, también se dispone un gráfico de línea mostrado en la figura 12 para ofrecer una explicación obvia y adecuada de la presente invención, según la disposición de la figura 11.

Cuando también se designa una función "function" para un cambio de transformación utilizada en la cuarta realización, se utiliza una función designada anteriormente como una función de interpolación a partir de una etiqueta "<rate/>" dada a la siguiente etiqueta "<rate/>".

Dado que otras disposiciones son las mismas que las de la primera realización, se omitirá una descripción repetitiva.

\vskip1.000000\baselineskip

Sexta realización

A continuación se explicará la sexta realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.

En las realizaciones anteriormente mencionadas, los valores del atributo de los puntos de inicio y de fin se disponen en la etiqueta de inicio "<morphing...>". No obstante, en esta realización, el valor del atributo del punto de fin se dispone en una parte final de la etiqueta, tal como se muestra en la figura 13.

En la configuración de la etiqueta de la primera realización, "<morphing type = ``emotion'' start = ``happy''>" se describe como el atributo del punto de inicio y el objeto en la etiqueta de inicio "<morphing...>" y el atributo del punto de fin se describe en la etiqueta de fin como "</morphing end = ``angry''>". Por el contrario, en esta realización, "<morphing emotionstart = ``happy''>" se describe en la etiqueta de inicio y "<morphing emotionend = ``angry''>" se describe en la etiqueta de fin. Cuando se designa una función de interpolación de la cuarta realización en esta realización, se describe en la etiqueta de inicio.

\vskip1.000000\baselineskip

Séptima realización

A continuación se explicará la séptima realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de construcción que los de la primera realización y se explicará principalmente un rasgo característico de esta realización.

En esta realización, si los atributos de los puntos de inicio y de fin en la etiqueta son diferentes entre sí, se determina un error para inhibir los siguientes procesos, al contrario que en las realizaciones anteriores.

Se tomará como ejemplo la configuración de la etiqueta de la primera realización. Es decir, si los atributos de "start" y "end" son diferentes entre sí como "<morphing type = ``emotion'' start = ``happy'' end = ``10''>", se determina un error y no se lleva a cabo ningún proceso. Si ninguno de los puntos de inicio y de fin tienen atributos o si alguno de ellos no tiene un atributo, se ejecutan los mismos procesos que en la primera realización. En la tercera realización, si ninguno de los puntos de inicio y de fin tienen atributos o si alguno de ellos no tiene un atributo, se ejecutan los mismos procesos que en la tercera realización. Dado que las otras disposiciones son las mismas que las de las realizaciones primera a quinta, se omitirá una descripción repetitiva de las mismas.

Según esta realización con la anterior disposición, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.

\vskip1.000000\baselineskip

Octava realización

A continuación se explicará la octava realización basada en el aparato de síntesis de voz según la primera realización mencionada anteriormente. En la siguiente descripción, se omitirá una descripción repetitiva de los mismos componentes de descripción como los de la primera realización y se aplicará principalmente una peculiaridad característica de esta realización.

En las realizaciones mencionadas anteriormente, incluso cuando no se encuentra al menos una de la serie de piezas de la información de atributo a disponer en la etiqueta, se genera la voz sintética. No obstante, en esta realización, cuando los atributos de los puntos de inicio y de fin son diferentes entre sí, y cuando los atributos de los puntos de inicio y de fin son diferentes de los de un objeto, se determina error y no se lleva a cabo ningún proceso.

Dado que las otras disposiciones son las mismas que las de las realizaciones primera a séptima, se omitirá una descripción repetitiva de las mismas.

Por tanto, según las realizaciones mencionadas anteriormente, limitando una sección deseada del texto de entrada que va a ser generado mediante etiquetas, un rasgo de la voz sintética se puede cambiar de manera continua como en la transformación a partir de la generación de la voz sintética y se puede implementar una función texto a voz natural para un oyente a diferencia de la técnica anterior que genera una voz discreta.

\vskip1.000000\baselineskip

Otra realización

Se han explicado las realizaciones preferentes de la presente invención y la presente invención se puede aplicar tanto a un sistema formado por una serie de dispositivos, o a un aparato formado por un único equipo.

Se debe observar que la presente invención comprende un caso en el que la invención se consigue suministrando un programa de software, directamente o a distancia, que implemente las funciones de las realizaciones mencionadas anteriormente a un sistema o a un aparato, y leyendo y ejecutando el código del programa suministrado mediante un ordenador de dicho sistema o aparato. En este caso, la forma no está limitada a un programa siempre que tenga las funciones del programa.

Por tanto, el mismo código del programa instalado en un ordenador para implementar el proceso funcional de la presente invención utilizando el ordenador implementa la presente invención. Es decir, las reivindicaciones de la presente invención comprenden el mismo programa de ordenador para implementar el proceso funcional de la presente invención.

En este caso, la forma del programa no está particularmente limitada y un código objeto, un programa para ser ejecutado mediante un intérprete, datos de texto a ser suministrados a un sistema operativo OS y similares se pueden utilizar siempre que tengan la función del programa.

En cuanto a un medio de grabación para suministrar el programa se pueden utilizar un disquete, disco duro, disco óptico, disco magnetoóptico, MO, CD-ROM, CD-R, CD-RW, cinta magnética, tarjeta de memoria no volátil, ROM, DVD (DVD-ROM, DVD-R) y similares, por ejemplo.

En cuanto a otro método de suministro de programa, el programa puede ser suministrado estableciendo una conexión a una página de inicio en internet utilizando un navegador en un ordenador del cliente y descargando el propio programa de ordenador de la presente invención o un archivo comprimido que contiene una función de instalación automática desde la página de inicio hasta un medio de grabación tal como un disco duro o similar. También, el código de programa que forma el programa de la presente invención puede ser segmentado en una serie de archivos, que se pueden descargar de diferentes páginas de inicio. Es decir, las reivindicaciones de la presente invención comprenden un servidor WWW (World Wide Web) que hace que una serie de usuarios descarguen un archivo de programa necesario para implementar el proceso funcional de la presente invención mediante el ordenador.

También, se le puede entregar al usuario un medio de almacenamiento tal como un CD-ROM o similar, que almacena el programa cifrado de la presente invención, el usuario que cumple una condición predeterminada se le puede permitir descargar la información de clave que se utiliza para descifrar el programa desde una página de inicio a través de internet y el programa cifrado se puede ejecutar utilizando dicha información de clave a instalar en un ordenador, implementando, de esta manera, la presente invención.

Las funciones de las realizaciones anteriormente mencionadas se pueden implementar no solamente ejecutando el código de programa leído mediante el ordenador sino también mediante algunas o todas las operaciones de procesamiento actuales ejecutadas mediante un sistema operativo (OS) o similar que se ejecutan en el ordenador en base a una instrucción de dicho programa.

Además, las funciones de las realizaciones anteriormente mencionadas se pueden implementar mediante algunos o todos los procesos actuales ejecutados por una CPU o similar, dispuestos en una tarjeta de ampliación de funciones o una unidad de ampliación de funciones, que se inserta en el ordenador o se conecta al mismo, una vez el programa es leído del medio de grabación se escribe en una memoria de la tarjeta o unidad de ampliación de funciones.

Tal como se ha descrito anteriormente, según las realizaciones anteriores, un rasgo de la voz sintética de una sección deseada del texto que va a ser generado se puede cambiar fácilmente y de manera continua.

Dado que se pueden llevar a cabo realizaciones de la presente invención evidentemente muy diferentes sin desviarse del alcance de la misma, se entenderá que la invención no está limitada a las realizaciones específicas de la misma excepto según se definen en las reivindicaciones.

Claims

1. Método de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética de una sección asignada a un identificador predeterminado incluido en un texto de entrada al generar la voz sintética correspondiente al texto, caracterizado por comprender:

una etapa de ajuste (S103) para ajustar una sección deseada del texto que va a ser generado, en la que el rasgo de la voz sintética se va a cambiar de manera continua utilizando un identificador predeterminado que comprende la información de atributo que representa un modo de cambio del rasgo de la voz sintética tanto en la posición de inicio como en la posición de fin de la sección dispuesta por el identificador;

una etapa de reconocimiento (S302) para reconocer el identificador predeterminado y un tipo de información de atributo contenida en el identificador predeterminado del texto con el identificador, que se dispone en dicha etapa de ajuste; y

una etapa de síntesis de voz (S320) para sintetizar una forma de onda de voz, que tiene un rasgo de voz sintética que cambia de manera continua según la información del atributo contenida en el identificador predeterminado, interpolando la voz sintética correspondiente al texto dentro de la sección deseada del texto con el identificador según un resultado de reconocimiento de dicha etapa de reconocimiento,

en el que el modo de cambio del rasgo de la voz sintética comprende al menos un cambio en la velocidad de emisión, un cambio en el volumen, un cambio en el hablante, un cambio en el dispositivo de salida, un cambio en el número de hablantes y un cambio de la emoción.

2. Aparato de síntesis de voz para sintetizar una forma de onda de voz para cambiar de manera continua un rasgo de una voz sintética en una sección asignada a un identificador predeterminado incluido en el texto de entrada (103) al generar la voz sintética correspondiente al texto, caracterizado porque se dispone de:

medios de reconocimiento (106) para reconocer un identificador del texto, tanto en una posición de inicio como en una posición de fin de la sección dispuesta por el identificador, en la que el identificador predeterminado que representa una sección deseada, en la que el rasgo de la voz sintética se va a cambiar de manera continua, y que contiene la información de atributo que representa un modo de cambio del rasgo de la voz sintética, el identificador predeterminado y un tipo de la información del atributo contenida en el identificador predeterminado del texto con el identificador; y

unos medios de síntesis de voz (109) para sintetizar una forma de onda de voz que tiene un rasgo de voz sintética que cambia de manera continua según la información del atributo contenida en el identificador predeterminado, interpolando la voz sintética correspondiente al texto dentro de la sección deseada del texto con el identificador según un resultado de reconocimiento de dichos medios de reconocimiento;

en el que el modo de cambio del rasgo de la voz sintética comprende al menos un cambio en la velocidad de emisión, un cambio en el volumen, un cambio en el hablante, un cambio en el dispositivo de salida, un cambio en el número de hablantes y un cambio en la emoción.

3. Programa de ordenador que comprende unas instrucciones de operación adaptadas para llevar a cabo el método de síntesis de voz de la reivindicación 1.